サードパーティプロジェクト

このページでは、Apache Sparkを補完し、そのエコシステムに追加する外部ソフトウェアプロジェクトを追跡しています。

PySpark統合を備えた一般的なライブラリ

great-expectations - データから常に期待されるものを把握する
Apache Airflow - ワークフローをプログラムで作成、スケジュール、監視するためのプラットフォーム
xgboost - スケーラブルでポータブルな分散勾配ブースティング
shap - 機械学習モデルの出力を説明するためのゲーム理論的アプローチ
python-deequ - 大規模データセットのデータ品質を測定する
datahub - 最新のデータスタックのためのメタデータプラットフォーム
dbt-spark - dbtをApache Sparkで動作させる

コネクタ

spark-redshift - Apache Spark向けの高性能Redshiftデータソース
spark-sql-connector - SQL ServerおよびAzure SQL用のApache Sparkコネクタ
azure-cosmos-spark - Azure Cosmos DB用のApache Sparkコネクタ
azure-event-hubs-spark - Apache SparkとAzure Event Hubsによる連続データ処理を可能にする
azure-kusto-spark - Azure Kusto用のApache Sparkコネクタ
mongo-spark - MongoDB Sparkコネクタ
couchbase-spark-connector - 公式Couchbase Sparkコネクタ
spark-cassandra-connector - Apache SparkからApache CassandraへのDataStaxコネクタ
elasticsearch-hadoop - Sparkにネイティブに統合されたElasticsearchリアルタイム検索と分析
neo4j-spark-connector - Apache Spark用Neo4jコネクタ
starrocks-connector-for-apache-spark - StarRocks Apache Sparkコネクタ
tispark - TiSparkはTiDB/TiKV上でApache Sparkを実行するために構築されています

オープンテーブルフォーマット

Delta Lake - Apache SparkワークロードにACIDトランザクションとスケーラブルなメタデータ処理を提供するストレージレイヤー
Hudi: ビッグデータの更新、削除、および増分処理
Iceberg - 分析データセットのオープンテーブルフォーマット

インフラストラクチャプロジェクト

Kyuubi - Apache Kyuubiは、データウェアハウスおよびレイクハウスでサーバーレスSQLを提供するための分散型マルチテナントゲートウェイです
Apache Spark用RESTジョブサーバー - 同じクラスターでSparkジョブを管理および送信するためのRESTインターフェース。
Apache Mesos - Sparkの実行をサポートするクラスター管理システム
Alluxio (旧Tachyon) - Sparkの実行をサポートするメモリ速度の仮想分散ストレージシステム
FiloDB - Spark統合分析/カラムナーデータベース。サブ秒の同時クエリが可能なインメモリオプションを備えています
Zeppelin - Apache Sparkを含む20以上の言語バックエンドをサポートする多目的ノートブック
Apache Spark用K8Sオペレーター - Kubernetes上のApache Sparkアプリケーションのライフサイクルを指定および管理するためのKubernetesオペレーター。
IBM Spectrum Conductor - Sparkと最新のコンピューティングフレームワークと統合するクラスター管理ソフトウェア。
MLflow - Apache Spark上の多様な機械学習ライブラリからのモデルのデプロイを含む、機械学習ライフサイクルを管理するためのオープンソースプラットフォーム。
Apache DataFu - Apache Sparkで大規模データを操作するためのユーティリティとユーザー定義関数の集まり、およびScala-Pythonの相互運用性を容易にするためのツール。

Sparkを使用するアプリケーション

Apache Mahout - 以前はHadoop MapReduceを使用していましたが、MahoutはバックエンドとしてSparkを使用するように切り替えました
ADAM - Apache Sparkを使用してゲノムデータをロード、変換、分析するためのフレームワークとCLI
TransmogrifAI - 最小限の手動調整でSpark上にモジュール式で再利用可能な、強く型付けされた機械学習ワークフローを構築するためのAutoMLライブラリ
Apache Spark向け自然言語処理 - 機械学習パイプラインにシンプルで高性能、正確なNLPアノテーションを提供するためのライブラリ
Apache Spark用Rumble - データフレームに収まらない大規模でネストされた異種JSONデータセットを関数型言語でクエリするためのJSONiqエンジン。

Sparkのパフォーマンス、監視、およびデバッグツール

Data Mechanics Delight - Delightは、オープンソースのSparkエージェントによってサポートされる、無料のホスト型クロスプラットフォームSpark UIの代替品です。Sparkの監視とパフォーマンチューニングを簡素化するための新しいメトリックと視覚化機能を備えています。

追加の言語バインディング

C# / .NET

Mobius: Apache SparkへのC#およびF#言語バインディングと拡張機能

Clojure

Geni - REPLエクスペリエンスの最適化に焦点を当てた、Apache Spark上で動作するClojureデータフレームライブラリ。

Julia

Spark.jl

Kotlin

Kotlin for Apache Spark

新しいプロジェクトの追加

プロジェクトを追加するには、spark-websiteリポジトリに対してプルリクエストを開きます。このマークダウンファイルにエントリを追加し、jekyll buildを実行してHTMLも生成します。プルリクエストに両方を含めます。詳細については、このリポジトリのREADMEを参照してください。

すべてのプロジェクト名と製品名は、商標ガイドラインに従う必要があることに注意してください。