このページでは、Apache Sparkを補完し、そのエコシステムを拡張する外部ソフトウェアプロジェクトを追跡します。

  • great-expectations - 常にデータから期待されるものを把握
  • Apache Airflow - ワークフローをプログラムで作成、スケジュール、監視するためのプラットフォーム
  • xgboost - スケーラブル、ポータブル、分散型勾配ブースティング
  • shap - 任意の機械学習モデルの出力を説明するためのゲーム理論的アプローチ
  • python-deequ - 大規模データセットのデータ品質を測定
  • datahub - 最新のデータスタックのためのメタデータプラットフォーム
  • dbt-spark - dbtがApache Sparkで動作するようにします
  • Hamilton - コードのテスト性、モジュール性、論理的な視覚化を維持するのに役立つPySpark変換を宣言的に記述できるようにします。
  • ScaleDP - Apache SparkでAI/MLを使用してドキュメントを処理するためのオープンソースライブラリ。

コネクタ

オープンテーブルフォーマット

  • Delta Lake - Apache SparkワークロードにACIDトランザクションとスケーラブルなメタデータ処理を提供するストレージレイヤー
  • Hudi:ビッグデータに対する更新、削除、および増分処理
  • Iceberg - 分析データセットのためのオープンテーブルフォーマット
  • Lance - MLおよびLLM向けの最新の列指向データフォーマット

インフラストラクチャプロジェクト

  • Kyuubi - Apache Kyuubiは、データウェアハウスおよびレイクハウスでサーバーレスSQLを提供する、分散型でマルチテナントなゲートウェイです
  • Apache Spark向けのRESTジョブサーバー - 同じクラスターでSparkジョブを管理および送信するためのRESTインターフェイス。
  • Apache Mesos - Sparkの実行をサポートするクラスター管理システム
  • Alluxio (旧Tachyon) - Sparkの実行をサポートするメモリ速度の仮想分散ストレージシステム
  • FiloDB - Spark統合分析/列指向データベース。インメモリオプションを備え、サブ秒の同時クエリが可能です
  • Zeppelin - Apache Sparkを含む20以上の言語バックエンドをサポートする多目的ノートブック
  • Kubeflow Spark Operator - Kubernetes上でApache Sparkアプリケーションのライフサイクルを管理するためのKubernetesオペレーター。
  • IBM Spectrum Conductor - Sparkおよび最新のコンピューティングフレームワークと統合されるクラスター管理ソフトウェア。
  • MLflow - 機械学習ライフサイクルを管理するためのオープンソースプラットフォーム。Apache Spark上での多様な機械学習ライブラリからのモデルのデプロイメントも含まれます。
  • Apache DataFu - Apache Sparkでの大規模データ作業のためのユーティリティおよびユーザー定義関数のコレクション。Scala-Pythonの相互運用性も容易にします。

Sparkを使用したアプリケーション

  • Apache Mahout - かつてHadoop MapReduceで使用されていましたが、MahoutはバックエンドとしてSparkを使用するように切り替えました
  • ADAM - Apache Sparkを使用したゲノムデータのロード、変換、分析のためのフレームワークおよびCLI
  • TransmogrifAI - Spark上で、最小限の手動調整でモジュール式で再利用可能、型安全な機械学習ワークフローを構築するためのAutoMLライブラリ
  • Apache Spark向けの自然言語処理 - 機械学習パイプラインのためのシンプル、高性能、高精度なNLPアノテーションを提供するライブラリ
  • Apache Spark向けRumble - データフレームに収まらない、大規模でネストされた異種JSONデータセットを、関数型言語でクエリするためのJSONiqエンジン。
  • Lightning Catalog - アドホッククエリの実行、エンタープライズデータ資産のフェデレーションによるデータ操作、データ品質チェックを備えた統一セマンティックレイヤーの構築のためのデータカタログ。

Sparkのパフォーマンス、監視、デバッグツール

  • Data Mechanics Delight - Delightは、オープンソースSparkエージェントによってサポートされる、無料のホスト型クロスプラットフォームSpark UIの代替です。Sparkの監視とパフォーマンスチューニングを簡素化するための新しいメトリクスと視覚化機能を備えています。
  • DataFlint - DataFlintは、オープンソースライブラリからインストールされるSpark UIの代替であり、リアルタイムで更新され、パフォーマンスの問題を警告します

追加の言語バインディング

C# / .NET

  • Mobius: Apache SparkへのC#およびF#言語バインディングおよび拡張機能

Clojure

  • Geni - REPLエクスペリエンスの最適化に重点を置いた、Apache Spark上で実行されるClojureデータフレームライブラリ。

Julia

Kotlin

新規プロジェクトの追加

プロジェクトを追加するには、spark-websiteリポジトリに対してプルリクエストを開いてください。このMarkdownファイルにエントリを追加し、jekyll buildを実行してHTMLも生成してください。両方をプルリクエストに含めてください。詳細については、このリポジトリのREADMEを参照してください。

すべてのプロジェクト名および製品名は、商標ガイドラインに従う必要があることに注意してください。