4.0.0

概要
プログラミングガイド
クイックスタート RDD、Accumulator、Broadcast Variables SQL、DataFrame、Dataset Structured Streaming Spark Streaming (DStreams) MLlib (機械学習) GraphX (グラフ処理) SparkR (Spark上のR) PySpark (Spark上のPython)
APIドキュメント
Python Scala Java R SQL、組み込み関数
デプロイ
概要アプリケーションの提出
Spark Standalone YARN Kubernetes
その他
設定監視チューニングガイドジョブスケジューリングセキュリティハードウェアプロビジョニング移行ガイド
Sparkのビルド Sparkへの貢献サードパーティプロジェクト

Spark SQL ガイド

はじめに
データソース
パフォーマンスチューニング
分散SQLエンジン
Apache Arrow を使用した Pandas と PySpark の利用ガイド
移行ガイド
SQL リファレンス
エラー条件

Apache Arrow を使用した Pandas と PySpark の利用ガイド

Arrow利用ガイドは、こちらのページにアーカイブされました。