Spark Structured Streamingは、増分処理、チェックポインティング、ウォーターマークなどの複雑なストリーミング概念を抽象化するため、新しい概念やツールを学ぶことなくストリーミングアプリケーションとパイプラインを構築できます。
Spark Structured Streamingは、Sparkと同じ構造化API (DataFrameとDataset) を提供するため、バッチとストリーミングで2つの異なるテクノロジースタックを開発したり維持したりする必要がありません。さらに、統合されたAPIにより、既存のバッチSparkジョブをストリーミングジョブに簡単に移行できます。
Spark Structured StreamingはSparkと同じ基盤となるアーキテクチャを使用しているため、Sparkエンジンに組み込まれているすべてのパフォーマンスおよびコスト最適化を活用できます。Spark Structured Streamingを使用すると、低遅延のストリーミングアプリケーションとパイプラインをコスト効率よく構築できます。
Spark Structured Streamingを使い始めるには
Spark Structured StreamingはApache Sparkの一部として開発されています。そのため、Sparkの各リリースとともにテストおよび更新されます。
システムについて質問がある場合は、Sparkメーリングリストでお尋ねください。
Spark Structured Streamingの開発者は貢献を歓迎します。協力したい場合は、「Sparkへの貢献方法」をお読みになり、パッチをお送りください。