Spark Release 3.3.3
Spark 3.3.3 は、安定性修正を含むメンテナンスリリースです。このリリースは Spark の branch-3.3 maintenance branch に基づいています。すべての 3.3 ユーザーに、この安定版リリースへのアップグレードを強く推奨します。
主な変更点
- [SPARK-37829]: DataFrames の joinWith を使用した outer-join で、null 値の代わりに null フィールドを持つ Rows が返される
- [SPARK-39399]: cluster deploy mode で k8s 上の Spark に対して proxy-user が機能しない
- [SPARK-39696]: スレッド executor-heartbeater で例外が捕捉されない java.util.ConcurrentModificationException: イテレーション中のミューテーション
- [SPARK-41741]: ParquetFilters StringStartsWith のプッシュダウンマッチング文字列が UTF-8 を使用しない
- [SPARK-41952]: PARQUET-2160 の回避策として、Parquet zstd オフヒープメモリリークを修正
- [SPARK-42286]: テーブルへの挿入時に、CAST を持つ有効な CASE WHEN 式の内部エラーを修正
- [SPARK-42473]: INSERT OVERWRITE SELECT UNION ALL で明示的なキャストが必要になる
- [SPARK-42937]: 条件内のサブクエリとの結合が、wholestage codegen と adaptive execution が無効な場合に失敗する可能性がある
- [SPARK-43050]: グルーピング関数を置き換えることによる集計式構築の修正
- [SPARK-43113]: フルアウタージョインのバウンド条件が同じストリームサイド列への複数の参照を持つ場合の Codegen エラー
- [SPARK-43240]: 最後の RDD が RDD[UnsafeRow] の場合、df.describe() メソッドが誤った結果を返す可能性がある
- [SPARK-43541]: FULL OUTER JOIN with USING での列解決の誤り
- [SPARK-43718]: USING ジョインにおける特定のサイドのキーへの参照が誤った null 値を持つ可能性がある
- [SPARK-44040]: AggregateExec ノードが QueryStageExec の上にある場合の統計計算を修正
- [SPARK-44251]: フルアウター USING ジョインでキー値が null の場合に、誤った結果または NPE の可能性がある
JIRA で 詳細な変更点 を確認できます。
このリリースにパッチを提供してくださったすべてのコミュニティメンバーに感謝いたします。
Spark ニュースアーカイブ