このページでは、Apache Sparkを補完し、そのエコシステムに追加する外部ソフトウェアプロジェクトを追跡しています。
PySpark統合を備えた一般的なライブラリ
コネクタ
- Delta Lake - Apache SparkワークロードにACIDトランザクションとスケーラブルなメタデータ処理を提供するストレージレイヤー
- Hudi: ビッグデータの更新、削除、および増分処理
- Iceberg - 分析データセットのオープンテーブルフォーマット
インフラストラクチャプロジェクト
- Kyuubi - Apache Kyuubiは、データウェアハウスおよびレイクハウスでサーバーレスSQLを提供するための分散型マルチテナントゲートウェイです
- Apache Spark用RESTジョブサーバー - 同じクラスターでSparkジョブを管理および送信するためのRESTインターフェース。
- Apache Mesos - Sparkの実行をサポートするクラスター管理システム
- Alluxio (旧Tachyon) - Sparkの実行をサポートするメモリ速度の仮想分散ストレージシステム
- FiloDB - Spark統合分析/カラムナーデータベース。サブ秒の同時クエリが可能なインメモリオプションを備えています
- Zeppelin - Apache Sparkを含む20以上の言語バックエンドをサポートする多目的ノートブック
- Apache Spark用K8Sオペレーター - Kubernetes上のApache Sparkアプリケーションのライフサイクルを指定および管理するためのKubernetesオペレーター。
- IBM Spectrum Conductor - Sparkと最新のコンピューティングフレームワークと統合するクラスター管理ソフトウェア。
- MLflow - Apache Spark上の多様な機械学習ライブラリからのモデルのデプロイを含む、機械学習ライフサイクルを管理するためのオープンソースプラットフォーム。
- Apache DataFu - Apache Sparkで大規模データを操作するためのユーティリティとユーザー定義関数の集まり、およびScala-Pythonの相互運用性を容易にするためのツール。
Sparkを使用するアプリケーション
- Apache Mahout - 以前はHadoop MapReduceを使用していましたが、MahoutはバックエンドとしてSparkを使用するように切り替えました
- ADAM - Apache Sparkを使用してゲノムデータをロード、変換、分析するためのフレームワークとCLI
- TransmogrifAI - 最小限の手動調整でSpark上にモジュール式で再利用可能な、強く型付けされた機械学習ワークフローを構築するためのAutoMLライブラリ
- Apache Spark向け自然言語処理 - 機械学習パイプラインにシンプルで高性能、正確なNLPアノテーションを提供するためのライブラリ
- Apache Spark用Rumble - データフレームに収まらない大規模でネストされた異種JSONデータセットを関数型言語でクエリするためのJSONiqエンジン。
Sparkのパフォーマンス、監視、およびデバッグツール
- Data Mechanics Delight - Delightは、オープンソースのSparkエージェントによってサポートされる、無料のホスト型クロスプラットフォームSpark UIの代替品です。Sparkの監視とパフォーマンチューニングを簡素化するための新しいメトリックと視覚化機能を備えています。
追加の言語バインディング
C# / .NET
- Mobius: Apache SparkへのC#およびF#言語バインディングと拡張機能
Clojure
- Geni - REPLエクスペリエンスの最適化に焦点を当てた、Apache Spark上で動作するClojureデータフレームライブラリ。
Julia
Kotlin
新しいプロジェクトの追加
プロジェクトを追加するには、spark-websiteリポジトリに対してプルリクエストを開きます。このマークダウンファイルにエントリを追加し、jekyll build
を実行してHTMLも生成します。プルリクエストに両方を含めます。詳細については、このリポジトリのREADMEを参照してください。
すべてのプロジェクト名と製品名は、商標ガイドラインに従う必要があることに注意してください。