Spark Structured Streaming は、使い慣れた Spark API でストリーミングアプリケーションとパイプラインを簡単に構築できます。

使いやすさ

Spark Structured Streaming は、漸増処理、チェックポイント、ウォーターマークなどの複雑なストリーミング概念を抽象化するので、新しい概念やツールを学習せずにストリーミングアプリケーションやパイプラインを構築できます。

spark
  .readStream
  .select($"value".cast("string").alias("jsonData"))
  .select(from_json($"jsonData",jsonSchema).alias("payload"))
  .writeStream
  .trigger("1 seconds")
  .start()

統一されたバッチとストリーミング API

Spark Structured Streaming は、Spark と同じ構造化 API (DataFrames と Datasets) を提供するので、バッチとストリーミングに 2 つの異なるテクノロジースタックを開発したり保守したりする必要がありません。さらに、統一された API を使用することで、既存のバッチ Spark ジョブをストリーミングジョブに簡単に移行できます。

低遅延で費用対効果が高い

Spark Structured Streaming は、Spark と同じ基盤アーキテクチャを使用しているため、Spark エンジンに組み込まれたすべての性能とコストの最適化を活用できます。Spark Structured Streaming を使用することで、低遅延のストリーミングアプリケーションとパイプラインを費用対効果良く構築できます。

はじめに

Spark Structured Streaming を始めるには

コミュニティ

Spark Structured Streaming は Apache Spark の一部として開発されています。そのため、Spark の各リリースでテストされ、更新されます。

システムに関する質問がある場合は、Spark メーリングリスト で質問してください。

Spark Structured Streaming 開発者は、貢献を歓迎します。お手伝いしていただける場合は、Spark への貢献方法を読んで、パッチを送信してください。