Spark リリース 3.2.3
Spark 3.2.3 は、安定性修正を含むメンテナンスリリースです。このリリースは Spark の branch-3.2 メンテナンスブランチに基づいています。すべての 3.2 ユーザーに、この安定版リリースへのアップグレードを強く推奨します。
主な変更点
- [SPARK-38697]: AQE Optimizer にルールを注入するための SparkSessionExtensions の拡張
- [SPARK-39200]: フォールバックストレージシステムからブロックを取得する際にストリームが破損する例外
- [SPARK-8731]: Beeline がバックグラウンドで起動された際に -e オプションで機能しない
- [SPARK-32380]: hbase にデータがある場合に sparksql が hive テーブルにアクセスできない
- [SPARK-35542]: splitsArray, inputCols, outputCols パラメータを使用して複数の列に対して作成された Bucketizer は、保存後にロードできない
- [SPARK-39184]: 一部のタイムゾーンにおける一部の日付/時刻シーケンスに対する ArrayIndexOutOfBoundsException
- [SPARK-39647]: NodeManager が再起動されていない場合でも、アクティブなローカルディレクトリのリストがエグゼキュータの登録によって更新されていない場合にブロックプッシュが java.lang.IllegalArgumentException: Active local dirs list has not been updated by any executor registration で失敗する
- [SPARK-39775]: AVRO-2035 によるリグレッション
- [SPARK-39833]: spark.sql.parquet.filterPushdown が true の場合、フィルタリングされた Parquet データフレームの count() および show() が一貫性のない結果を生成する
- [SPARK-39835]: EliminateSorts がローカルソートの下のグローバルソートを削除するように修正する
- [SPARK-39839]: UnsafeRow の構造的一貫性チェックで、オフセットとサイズがゼロの特殊なケースの null 変長 Decimal を処理する
- [SPARK-39847]: RocksDBLoader.loadLibrary() 中にタスクスレッドが中断されることに関連する競合状態
- [SPARK-39867]: グローバル limit は OrderPreservingUnaryNode を継承すべきではない
- [SPARK-39887]: 式変換エラー
- [SPARK-39900]: 'binaryFile' 形式で生成されたデータフレームを 'not' 演算子を使用してクエリする際の問題
- [SPARK-39932]: WindowExec は最終的なパーティションバッファをクリアすべきである
- [SPARK-39952]: SaveIntoDataSourceCommand は結果リレーションを再キャッシュすべきである
- [SPARK-39962]: pandas 集約 UDF に対するグローバル集約が列の順序を考慮しない
- [SPARK-39965]: ドライバが PVC を所有していない場合に PVC クリーンアップをスキップする
- [SPARK-39972]: branch-3.2 および branch-3.1 で SPARK-39962 のテストケースを元に戻す
- [SPARK-40002]: ntile 関数を使用したウィンドウを介した LIMIT の不適切なプッシュダウン
- [SPARK-40065]: プロファイルがデフォルトでない場合にエグゼキュータ ConfigMap がマウントされない
- [SPARK-40079]: Imputer の inputCols 検証を空の入力ケースに対して追加する
- [SPARK-40089]: Decimal(20, 2) のソートが、最大値付近の一部の値で失敗する
- [SPARK-40117]: DataFrameWriterV2.overwrite で条件を java に変換する
- [SPARK-40121]: Python UDF に使用される投影を初期化する
- [SPARK-40124]: Plan Stability テストのために TPCDS v1.4 q32 を更新する
- [SPARK-40149]: 外結合後のスター展開が、結合キーを非対称に含める
- [SPARK-40169]: Data source V1 における Parquet 列インデックスと述語プッシュダウンの問題を修正する
- [SPARK-40212]: SparkSQL の castPartValue が byte & short を適切に処理しない
- [SPARK-40218]: GROUPING SETS はグルーピング列を保持すべきである
- [SPARK-40270]: DataFrame.style で compute.max_rows を None にすることが機能するようにする
- [SPARK-40280]: 一部の有効なファイルで int および long の Parquet 述語プッシュダウンの作成に失敗する
- [SPARK-40315]: 同一オブジェクトに対する ArrayBasedMapData の決定論的でない hashCode() 計算
- [SPARK-40407]: DataFrame の Repartition が一部の特殊なケースで深刻なデータスキューを引き起こす可能性がある
- [SPARK-40459]: 再計算されたファイルが存在しても recoverDiskStore は停止しない
- [SPARK-40470]: GetMapValue および GetArrayStructFields を使用した arrays_zip の出力で予期しないエイリアスカラム名
- [SPARK-40493]: "[SPARK-33861][SQL] Simplify conditional in predicate" を元に戻す
- [SPARK-40562]: spark.sql.legacy.groupingIdWithAppendedUserGroupBy を追加する
- [SPARK-40583]: "Integration with Cloud Infrastructures" のドキュメントエラー
- [SPARK-40588]: パーティション書き込みと AQE がオンの場合のソート問題
- [SPARK-40612]: Kubernetes 上で長時間実行されるアプリの場合、Spark はデリゲーショントークンを更新するために無効なプリンシパルを使用する
- [SPARK-40636]: BlockManagerDecommissioner の間違った残留シャッフルのログを修正する
- [SPARK-40660]: 要素を分散するために XORShiftRandom に切り替える
- [SPARK-40829]: CREATE TABLE LIKE view の STORED AS serde が機能しない
- [SPARK-40851]: 最新の Java 8/11/17 を使用した際の TimestampFormatter の動作変更
- [SPARK-40869]: KubernetesConf.getResourceNamePrefix が無効な名前プレフィックスを作成する
- [SPARK-40874]: 暗号化が有効な場合に Python UDF でのブロードキャストを修正する
- [SPARK-40902]: mesos スケジューラへのドライバのクイックサブミッションによりドライバがドロップされる
- [SPARK-40963]: ExtractGenerator が新しい Project で誤った nullability を設定する
- [SPARK-41035]: リテラルが異なる集約に再利用された場合の結果が不正確になる、または NPE が発生する
- [SPARK-41091]: branch-3.2 の Docker リリースツールを修正する
- [SPARK-41188]: spark executor JVM プロセスに対して executorEnv OMP_NUM_THREADS をデフォルトで spark.task.cpus に設定する
- [SPARK-38034]: TransposeWindow の時間計算量を最適化し、適用可能なケースを拡張する
- [SPARK-39831]: devtools_2.4.4 がリリースされた後、R の依存関係のインストールが失敗し始める
- [SPARK-39879]: BroadcastJoinSuite* および HiveSparkSubmitSuite のローカルクラスタメモリ設定を削減する
- [SPARK-40022]: Python3 環境がない場合に YarnClusterSuite が ABORTED にならないようにする
- [SPARK-40241]: GenericUDTF のリンクを修正する
- [SPARK-40490]: SPARK-17321 の後、
YarnShuffleIntegrationSuite は registeredExecFile のリロードを検証しなくなる
- [SPARK-40574]: DROP TABLE ドキュメントに PURGE を追加する
- [SPARK-40172]: ImageFileFormatSuite の不安定なテストケースを一時的に無効にする
- [SPARK-40461]: Python リンターのために pyzmq 24.0.0 の上限を設定する
- [SPARK-40213]: Latin-1 Supplement 文字の ASCII 値が不正確
- [SPARK-40292]: arrays_zip の出力で予期しないエイリアスカラム名
- [SPARK-40043]: DataStreamWriter.toTable および DataStreamReader.table をドキュメント化する
- [SPARK-40983]: Parquet 圧縮コーデックで zstd についての Hadoop 要件を削除する
依存関係の変更
メンテナンスリリースですが、このリリースではいくつかの依存関係をアップグレードしました。それらは次のとおりです。
詳細な変更については、JIRA を参照してください (詳細はこちら)。
このリリースにパッチを提供してくださったすべてのコミュニティメンバーに感謝いたします。
Spark ニュースアーカイブ