Structured Streaming プログラミングガイド

補足事項

クエリの実行後に変更できない設定がいくつかあります。これらを変更するには、チェックポイントを破棄して新しいクエリを開始してください。これらの設定には以下が含まれます。
- spark.sql.shuffle.partitions
  - これは、状態の物理的なパーティショニングによるものです。状態はキーにハッシュ関数を適用してパーティション化されるため、状態のパーティション数は変更されないはずです。
  - ステートフル操作でタスク数を少なくしたい場合は、coalesce を使用すると、不要な再パーティショニングを回避できます。
    - coalesce の後、別のシャッフルが発生しない限り、(削減された) タスク数は維持されます。
- spark.sql.streaming.stateStore.providerClass: クエリの以前の状態を正しく読み込むには、ステートストアプロバイダーのクラスを変更しないでください。
- spark.sql.streaming.multipleWatermarkPolicy: これを変更すると、クエリに複数のウォーターマークが含まれる場合に、ウォーターマークの値に一貫性がなくなるため、ポリシーを変更しないでください。

さらに読む

Python/Scala/Java/R の例を表示して実行してください。
- Spark の例を実行する方法についての手順
Structured Streaming Kafka Integration Guide で Kafka との統合について読む
Spark SQL Programming Guide で DataFrames/Datasets の使用についてさらに詳しく読む
サードパーティのブログ投稿

講演

Spark Summit Europe 2017
- Apache Spark の Structured Streaming による簡単、スケーラブル、耐障害性のあるストリーム処理 - パート 1 スライド/ビデオ、パート 2 スライド/ビデオ
- Structured Streaming におけるステートフルストリーム処理の詳細 - スライド/ビデオ
Spark Summit 2016
- Structured Streaming の詳細 - スライド/ビデオ

移行ガイド

移行ガイドはこのページにアーカイブされました。