Structured Streaming プログラミングガイド
補足事項
- クエリの実行後に変更できない設定がいくつかあります。これらを変更するには、チェックポイントを破棄して新しいクエリを開始してください。これらの設定には以下が含まれます。
spark.sql.shuffle.partitions- これは、状態の物理的なパーティショニングによるものです。状態はキーにハッシュ関数を適用してパーティション化されるため、状態のパーティション数は変更されないはずです。
- ステートフル操作でタスク数を少なくしたい場合は、
coalesceを使用すると、不要な再パーティショニングを回避できます。coalesceの後、別のシャッフルが発生しない限り、(削減された) タスク数は維持されます。
spark.sql.streaming.stateStore.providerClass: クエリの以前の状態を正しく読み込むには、ステートストアプロバイダーのクラスを変更しないでください。spark.sql.streaming.multipleWatermarkPolicy: これを変更すると、クエリに複数のウォーターマークが含まれる場合に、ウォーターマークの値に一貫性がなくなるため、ポリシーを変更しないでください。
関連リソース
さらに読む
- Python/Scala/Java/R の例を表示して実行してください。
- Spark の例を実行する方法についての手順
- Structured Streaming Kafka Integration Guide で Kafka との統合について読む
- Spark SQL Programming Guide で DataFrames/Datasets の使用についてさらに詳しく読む
- サードパーティのブログ投稿
講演
- Spark Summit Europe 2017
- Apache Spark の Structured Streaming による簡単、スケーラブル、耐障害性のあるストリーム処理 - パート 1 スライド/ビデオ、パート 2 スライド/ビデオ
- Structured Streaming におけるステートフルストリーム処理の詳細 - スライド/ビデオ
- Spark Summit 2016
- Structured Streaming の詳細 - スライド/ビデオ
移行ガイド
移行ガイドはこのページにアーカイブされました。