Spark リリース 3.4.3

Spark 3.4.3 は、セキュリティおよび正しさに関する修正を含むメンテナンスリリースです。このリリースは Spark の branch-3.4 メンテナンスブランチに基づいています。すべての 3.4 ユーザーはこの安定版リリースへのアップグレードを強く推奨します。

主な変更点

[SPARK-45580]: ネストされたサブクエリが存在結合になるケースの処理
[SPARK-46029]: DS V2 プッシュダウンのためにシングルクォート、_、% をエスケープする
[SPARK-46092]: オーバーフローする Parquet 行グループフィルターのプッシュダウンをしない
[SPARK-46182]: 正確なタスク完了イベントを使用して `lastTaskFinishTime` を追跡
[SPARK-46189]: 多数の Pandas 集計関数で、解釈モードのエラーを回避するために同じ型の間で比較および算術演算を実行
[SPARK-46239]: `Jetty` の情報を非表示にする
[SPARK-46275]: Protobuf: 逆シリアル化に失敗した場合、パーミッシブモードで null を返す
[SPARK-46286]: `spark.io.compression.zstd.bufferPool.enabled` を文書化
[SPARK-46330]: HybridStore が有効な場合、Spark UI のブロックの読み込みに時間がかかる
[SPARK-46339]: バッチ番号名を付けたディレクトリをメタデータログとして扱わない
[SPARK-46369]: `MasterPage` の `RELAUNCHING` ドライバーから `kill` リンクを削除
[SPARK-46400]: ローカル Maven リポジトリに破損したファイルがある場合、このキャッシュをスキップして再試行する
[SPARK-46417]: `hive.getTable` を呼び出すときに `throwException` が false の場合、失敗しない
[SPARK-46466]: ベクトル化された Parquet リーダーは、タイムスタンプ ntz のリベースを絶対に行わない
[SPARK-46598]: OrcColumnarBatchReader は、欠落している列の列ベクトルを作成する際にメモリモードを尊重する
[SPARK-46628]: `license` 名で SPDX 短縮識別子を使用
[SPARK-46700]: シャッフルディスクスピルバイトメトリックの最後のスピルをカウント
[SPARK-46704]: `MasterPage` を修正し、`Running Drivers` テーブルを `Duration` 列で正しくソートする
[SPARK-46747]: JDBC ダイアレクトの `getTableExistsQuery` でスキャンを回避する
[SPARK-46763]: ReplaceDeduplicateWithAggregate で重複属性に対するアサーション失敗を修正
[SPARK-46779]: 同じキャッシュ済みプランの `InMemoryRelation` インスタンスは意味的に同等であるべき
[SPARK-46786]: `MountVolumesFeatureStep` を修正し、`ReadWriteOnce` の代わりに `ReadWriteOncePod` を使用する
[SPARK-46794]: LogicalRDD 制約からサブクエリを削除
[SPARK-46801]: Python テストスクリプトで終了コード 5 をテスト失敗として扱わない
[SPARK-46817]: `decommission` コマンドを追加して `spark-daemon.sh` の使用法を修正
[SPARK-46861]: DAGScheduler のデッドロックを回避
[SPARK-46862]: マルチラインモードでの CSV 列プルーニングを無効にする
[SPARK-46888]: `Master` を修正し、decommission が無効な場合 `/workers/kill/` リクエストを拒否する
[SPARK-46893]: UI 説明からインラインスクリプトを削除
[SPARK-46945]: 古い K8s クラスター用に `spark.kubernetes.legacy.useReadWriteOnceAccessMode` を追加
[SPARK-47063]: long を timestamp にキャストした場合の codegen と解釈モードでの異なる動作を修正
[SPARK-47072]: エラーメッセージでのサポートされている間隔フォーマットを修正
[SPARK-47085]: toTRowSet の複雑さを n^2 から n に削減
[SPARK-47125]: Univocity が解析をトリガーしない場合に null を返す
[SPARK-47146]: ソートマージ結合中のスレッドリークの可能性を修正
[SPARK-47177]: キャッシュされた SQL プランが、explain 文字列に最終的な AQE プランを表示しない問題を修正
[SPARK-47187]: hive の圧縮出力設定が機能しない問題を修正
[SPARK-47236]: `deleteRecursivelyUsingJavaIO` を修正し、存在しないファイル入力をスキップする
[SPARK-47305]: プランにバッチとストリーミングの両方が含まれている場合、PruneFilters が LocalRelation の isStreaming フラグを正しくタグ付けするように修正
[SPARK-47318]: 標準の KEX 実践に従うために、AuthEngine 鍵導出に HKDF ラウンドを追加
[SPARK-47368]: ParquetRowConverter で inferTimestampNTZ 設定チェックを削除
[SPARK-47370]: Parquet ファイルでの TimestampNTZ 型推論の移行ドキュメントを追加
[SPARK-47385]: Option 入力を持つタプルエンコーダを修正
[SPARK-47434]: `StreamingQueryPage` の `statistics` リンクを修正
[SPARK-47494]: Spark 3.3 以降の Parquet タイムスタンプ推論の動作変更に関する移行ドキュメントを追加
[SPARK-47503]: makeDotNode が常にグラフノード名をエスケープするようにする
[SPARK-47521]: 外部ストレージからシャッフルデータを読み取る際に `Utils.tryWithResource` を使用
[SPARK-47537]: MySQL Connector/J でのエラーデータ型マッピングを修正
[SPARK-47646]: malformed 入力に対して try_to_number が NULL を返すようにする
[SPARK-47666]: mysql ビット配列を LongType として読み取る際の NPE を修正
[SPARK-47824]: pyspark.pandas.series.asof の非決定性を修正

依存関係の変更

メンテナンスリリースですが、このリリースではいくつかの依存関係をアップグレードしました。それらは以下の通りです。

[SPARK-45445]: snappy を 1.1.10.5 にアップグレード
[SPARK-47428]: Jetty を 9.4.54.v20240208 にアップグレード
[SPARK-47844]: ORC を 1.8.7 に更新

JIRA で詳細な変更点を確認できます。

このリリースにパッチを提供してくださったすべてのコミュニティメンバーに感謝いたします。

Spark ニュースアーカイブ

Spark リリース 3.4.3

主な変更点

依存関係の変更

最新ニュース