Apache Spark ドキュメント

セットアップ手順、プログラミングガイド、その他のドキュメントは、以下のSparkの各安定バージョンで利用可能です。

プレリリース版のドキュメント

上記でリンクされているドキュメントには、Sparkの開始方法、および組み込みコンポーネントである MLlibSpark StreamingGraphX が含まれています。

さらに、このページではSparkを学習するためのその他のリソースを紹介します。

動画

Apache Spark YouTubeチャンネルで、Sparkイベントからの動画をご覧ください。さまざまなトピックの動画には、個別のプレイリストがあります。プレイリストを閲覧するだけでなく、以下の動画への直接リンクも見つけることができます。

スクリーンキャストチュートリアル動画

Spark Summit動画

ミートアップトーク動画

以下にリストされている動画に加えて、ベイエリアのミートアップのすべてのスライドもこちらで表示できます。

トレーニング資料

  • Spark Summit 2014のトレーニング資料と演習がオンラインで利用可能です。これらには、講演の動画とスライド、およびラップトップで実行できる演習が含まれます。トピックは、Sparkコア、チューニングとデバッグ、Spark SQL、Spark Streaming、GraphX、MLlibなどです。
  • Spark Summit 2013にはトレーニングセッションが含まれており、スライドと動画はトレーニングデーのアジェンダで利用可能です。セッションには、Amazon EC2で実行できる演習も含まれていました。
  • UC Berkeley AMPLabは、Sparkおよび関連プロジェクトに関するトレーニングキャンプを定期的に開催しています。それぞれのスライド、動画、EC2ベースの演習はオンラインで利用可能です。
    • AMP Camp 4(Strata Santa Clara、2014年2月)- BlinkDB、MLlib、GraphX、Tachyonに焦点を当てる
    • AMP Camp 3(バークレー、カリフォルニア州、2013年8月)
    • AMP Camp 2(Strata Santa Clara、2013年2月)
    • AMP Camp 1(バークレー、カリフォルニア州、2012年8月)

実践演習

  • Spark Summit 2014の実践演習。これらにより、ラップトップにSparkをインストールし、基本的な概念、Spark SQL、Spark Streaming、GraphX、MLlibを学習できます。
  • Spark Summit 2013の実践演習。これらの演習では、小規模なEC2クラスターを起動し、データセットをロードし、Spark、Shark、Spark Streaming、MLlibでクエリを実行できます。

外部チュートリアル、ブログ記事、および講演

書籍

  • Sparkの例ページには、Scala、Java、Pythonでの基本的なAPIが表示されています。

研究論文

Sparkは当初、UC Berkeleyの研究プロジェクトとして開発され、その設計の多くは論文で文書化されています。研究ページには、初期の動機と方向性の一部がリストされています。