Spark Structured Streaming は、漸増処理、チェックポイント、ウォーターマークなどの複雑なストリーミング概念を抽象化するので、新しい概念やツールを学習せずにストリーミングアプリケーションやパイプラインを構築できます。
Spark Structured Streaming は、Spark と同じ構造化 API (DataFrames と Datasets) を提供するので、バッチとストリーミングに 2 つの異なるテクノロジースタックを開発したり保守したりする必要がありません。さらに、統一された API を使用することで、既存のバッチ Spark ジョブをストリーミングジョブに簡単に移行できます。
Spark Structured Streaming は、Spark と同じ基盤アーキテクチャを使用しているため、Spark エンジンに組み込まれたすべての性能とコストの最適化を活用できます。Spark Structured Streaming を使用することで、低遅延のストリーミングアプリケーションとパイプラインを費用対効果良く構築できます。
Spark Structured Streaming を始めるには
Spark Structured Streaming は Apache Spark の一部として開発されています。そのため、Spark の各リリースでテストされ、更新されます。
システムに関する質問がある場合は、Spark メーリングリスト で質問してください。
Spark Structured Streaming 開発者は、貢献を歓迎します。お手伝いしていただける場合は、Spark への貢献方法を読んで、パッチを送信してください。