Spark Structured Streamingは、同じ使い慣れたSpark APIを使用して、ストリーミングアプリケーションとパイプラインを簡単に構築できます。

使いやすさ

Spark Structured Streamingは、増分処理、チェックポインティング、ウォーターマークなどの複雑なストリーミング概念を抽象化するため、新しい概念やツールを学ぶことなくストリーミングアプリケーションとパイプラインを構築できます。

spark
  .readStream
  .select($"value".cast("string").alias("jsonData"))
  .select(from_json($"jsonData",jsonSchema).alias("payload"))
  .writeStream
  .trigger("1 seconds")
  .start()

統合されたバッチおよびストリーミングAPI

Spark Structured Streamingは、Sparkと同じ構造化API (DataFrameとDataset) を提供するため、バッチとストリーミングで2つの異なるテクノロジースタックを開発したり維持したりする必要がありません。さらに、統合されたAPIにより、既存のバッチSparkジョブをストリーミングジョブに簡単に移行できます。

低遅延でコスト効率が良い

Spark Structured StreamingはSparkと同じ基盤となるアーキテクチャを使用しているため、Sparkエンジンに組み込まれているすべてのパフォーマンスおよびコスト最適化を活用できます。Spark Structured Streamingを使用すると、低遅延のストリーミングアプリケーションとパイプラインをコスト効率よく構築できます。

はじめに

Spark Structured Streamingを使い始めるには

コミュニティ

Spark Structured StreamingはApache Sparkの一部として開発されています。そのため、Sparkの各リリースとともにテストおよび更新されます。

システムについて質問がある場合は、Sparkメーリングリストでお尋ねください。

Spark Structured Streamingの開発者は貢献を歓迎します。協力したい場合は、「Sparkへの貢献方法」をお読みになり、パッチをお送りください。