Spark Release 3.3.4
Spark 3.3.4 は、セキュリティおよび修正のバグ修正を含む最後のメンテナンスリリースです。このリリースは Spark の branch-3.3 メンテナンスブランチに基づいています。すべての 3.3 ユーザーは、この安定版リリースにアップグレードすることを強く推奨します。
主な変更点
- [SPARK-43327]: `FileFormatWriter#write` において、プラン実行の前に `committer.setupJob` をトリガーする
- [SPARK-43393]: シーケンス式のオーバーフローバグに対応
- [SPARK-44547]: キャッシュされた RDD マイグレーションでフォールバックストレージを無視する
- [SPARK-44581]: ShutdownHookManager が ApplicationMaster の SecurityManager から誤った UGI を取得するバグを修正
- [SPARK-44725]: `spark.network.timeoutInterval` のドキュメント化
- [SPARK-44805]: `getBytes`/`getShorts`/`getInts` などが辞書を持つカラムベクトルで機能するようにする
- [SPARK-44857]: Spark Worker LogPage UI ボタンの `getBaseURI` エラーを修正
- [SPARK-44871]: percentile_disc の動作を修正
- [SPARK-44920]: TransportClientFactory.createClient() で awaitUninterruptibly() の代わりに await() を使用する
- [SPARK-44925]: K8s のデフォルトサービストークンファイルがトークンにマテリアライズされないようにする
- [SPARK-44935]: Docker イメージが存在する場合に正しい情報を持つように `RELEASE` ファイルを修正
- [SPARK-44937]: TransportClient.close で接続を timedOut としてマークする
- [SPARK-44973]: `conv()` での `ArrayIndexOutOfBoundsException` を修正
- [SPARK-44990]: `spark.sql.legacy.nullValueWrittenAsQuotedEmptyStringCsv` の取得頻度を減らす
- [SPARK-45057]: keepReadLock が false の場合に読み取りロックの取得を回避する
- [SPARK-45079]: `NULL` 精度での `percentile_approx()` からの内部エラーを修正
- [SPARK-45100]: `NULL` クラスおよびメソッドでの `reflect()` からの内部エラーを修正
- [SPARK-45187]: `logPage` URL のために `WorkerPage` を同じパターンを使用するように修正
- [SPARK-45227]: CoarseGrainedExecutorBackend の微妙なスレッドセーフティ問題を修正
- [SPARK-45389]: パーティションメタデータの取得における MetaException マッチングルールを修正
- [SPARK-45430]: IGNORE NULLS および offset > rowCount の場合の FramelessOffsetWindowFunction の修正
- [SPARK-45508]: Platform が Java 9+ で Cleaner にアクセスできるように、"–add-opens=java.base/jdk.internal.ref=ALL-UNNAMED" を追加
- [SPARK-45580]: ネストされたサブクエリが存在結合になるケースを処理する
- [SPARK-45670]: K8s にデプロイする際に SparkSubmit が `--total-executor-cores` をサポートしない
- [SPARK-45749]: Spark History Server で Duration 列を正しくソートするように修正
- [SPARK-45920]: ordinal による group by は冪等であるべきである
- [SPARK-46006]: YarnAllocator は、YarnSchedulerBackend が stop を呼び出した後に targetNumExecutorsPerResourceProfileId をクリーンアップし忘れる
- [SPARK-46012]: アプリステータスファイルが見つからない場合に EventLogFileReader がローリングログを読み込まないようにする
- [SPARK-46029]: DS V2 プッシュダウンのためにシングルクォート、_、% をエスケープする
- [SPARK-46092]: オーバーフローする Parquet 行グループフィルタをプッシュダウンしない
- [SPARK-46095]: Spark Standalone Cluster の REST API のドキュメント化
- [SPARK-46239]: Jetty の情報を非表示にする
- [SPARK-46286]: `spark.io.compression.zstd.bufferPool.enabled` のドキュメント化
依存関係の変更
メンテナンスリリースですが、このリリースではいくつかの依存関係をアップグレードしました。それらは以下の通りです。
詳細な変更については、JIRA を参照してください。詳細な変更。
このリリースにパッチを提供してくださったすべてのコミュニティメンバーに感謝いたします。
Spark ニュースアーカイブ