Spark リリース 3.4.1

Spark 3.4.1 は、安定性修正を含むメンテナンスリリースです。このリリースは Spark の branch-3.4 maintenance branch に基づいています。すべての 3.4 ユーザーに、この安定版リリースへのアップグレードを強く推奨します。

主な変更点

  • [SPARK-44383]: trim ロジックが ASCII 制御文字を正しく処理していなかった問題を修正
  • [SPARK-37829]: Dataframe.joinWith outer-join は、一致しない行に対して null 値を返す必要がある
  • [SPARK-42078]: utils に CapturedException を追加
  • [SPARK-42290]: AQE オン時に OOM エラーが報告できない問題を修正
  • [SPARK-42421]: ローカルチェックポイントで使用される動的割り当てのスイッチを取得するために utils を使用
  • [SPARK-42475]: PySpark connect Quickstart バインダーリンクを修正
  • [SPARK-42826]: pandas API on Spark の移行ノートを更新
  • [SPARK-43043]: MapOutputTracker.updateMapOutput のパフォーマンスを改善
  • [SPARK-43050]: グルーピング関数を置き換えて集計式を構築する問題を修正
  • [SPARK-43067]: Kafka コネクタのエラークラスリソースファイルの場所を修正
  • [SPARK-43069]: sbteclipse-plugin の代わりに sbt-eclipse を使用
  • [SPARK-43071]: INSERT source relation に対して ORDER BY, LIMIT, OFFSET を持つ SELECT DEFAULT をサポート
  • [SPARK-43072]: TIMESTAMP_NTZ 型を ANSI Compliance ドキュメントに含める
  • [SPARK-43075]: インストールされていない場合に gRPC を grpcio に変更
  • [SPARK-43083]: *StateStoreSuite を ExtendedSQLTest としてマーク
  • [SPARK-43085]: マルチパートテーブル名に対する列 DEFAULT 割り当てをサポート
  • [SPARK-43098]: スカラーサブクエリに group by 句がある場合の COUNT バグを修正
  • [SPARK-43113]: バインドされた条件のコード生成時にストリームサイド変数を評価
  • [SPARK-43125]: Connect Server が Null メッセージを持つ例外を処理できない問題を修正
  • [SPARK-43126]: 2つの Hive UDF 式をステートフルとしてマーク
  • [SPARK-43139]: sql-ref-syntax-dml-insert-table.md の不正確な列名を修正
  • [SPARK-43141]: checkstyle で生成された Java ファイルを無視
  • [SPARK-43156]: 相関スカラーサブクエリにおける COUNT(*) is null バグを修正
  • [SPARK-43157]: クローンされたプランが同じオブジェクトを参照しないように InMemoryRelation キャッシュプランをクローン
  • [SPARK-43158]: Binder 統合の pandas バージョンの上限を設定
  • [SPARK-43249]: SQL コマンドの欠落している統計を修正
  • [SPARK-43281]: 並列ライターがファイルメトリクスを更新しない問題を修正
  • [SPARK-43284]: URL エンコードされた文字列に戻す
  • [SPARK-43293]: `__qualified_access_only` は通常の列では無視されるべき
  • [SPARK-43313]: MERGE INSERT アクションの欠落している列 DEFAULT 値を追加
  • [SPARK-43336]: Timestamp と TimestampNTZ の間のキャストにはタイムゾーンが必要
  • [SPARK-43337]: 列のソートのための昇順/降順矢印アイコンがテーブル列に表示されない
  • [SPARK-43340]: eventlogs の欠落しているスタックトレースフィールドを処理
  • [SPARK-43342]: SPARK-39006 を元に戻す 実行 executor PVC 動的割り当て失敗に対する方向性のあるエラーメッセージを表示
  • [SPARK-43374]: protobuf-java を BSD 3条項グループに移動し、ライセンスコピーを更新
  • [SPARK-43378]: deserializeFromChunkedBuffer でストリームオブジェクトを適切にクローズ
  • [SPARK-43395]: make-distribution.sh で macOS tar 拡張メタデータを除外
  • [SPARK-43398]: Executor タイムアウトは、アイドルシャフルと RDD タイムアウトの最大値とする
  • [SPARK-43404]: ID mismatch エラーを回避するために、同じバージョンの RocksDB 状態ストアで sst ファイルの再利用をスキップ
  • [SPARK-43414]: ポートバインディング設定の問題による Kafka RDD スイートの不安定性を修正
  • [SPARK-43425]: ColumnarBatchRow に TimestampNTZType を追加
  • [SPARK-43441]: DeterministicLevel が存在しない場合に makeDotNode が失敗しないようにする
  • [SPARK-43450]: _metadata フィルタのテストケースをさらに追加
  • [SPARK-43471]: hadoopProperties と metricsProperties の欠落を処理
  • [SPARK-43483]: OFFSET 句の SQL 参照を追加
  • [SPARK-43510]: 完了したコンテナの処理後に実行中の executor を追加する際の YarnAllocator の内部状態を修正
  • [SPARK-43517]: namedtuple monkey patch の移行ガイドを追加
  • [SPARK-43522]: 配列のインデックスを持つ struct 列名の作成を修正
  • [SPARK-43527]: PySpark の catalog.listCatalogs を修正
  • [SPARK-43541]: 式と欠落している列の解決におけるすべての Project タグを伝播
  • [SPARK-43547]: 「サポートされている Pandas API」ページを更新し、適切な pandas ドキュメントを指すようにする
  • [SPARK-43587]: HealthTrackerIntegrationSuite を専用 JVM で実行
  • [SPARK-43589]: cannotBroadcastTableOverMaxTableBytesError を bytesToString を使用するように修正
  • [SPARK-43718]: USING 結合のキーの null 許容性を正しく設定
  • [SPARK-43719]: missing row.excludedInStages フィールドを処理
  • [SPARK-43751]: unbase64 の動作変更を文書化
  • [SPARK-43758]: Hadoop 2 依存関係マニフェストを更新
  • [SPARK-43759]: pyspark.sql.types で TimestampNTZType を公開
  • [SPARK-43760]: スカラーサブクエリ結果の null 許容性
  • [SPARK-43802]: failOnError=true の unhex および unbase64 の codegen を修正
  • [SPARK-43894]: df.cache() のバグを修正
  • [SPARK-43956]: Percentile[Cont の列の SQL が表示されないバグを修正 Disc]
  • [SPARK-43973]: Structured Streaming UI は失敗したクエリを正しく表示する
  • [SPARK-43976]: event logs に modifiedConfigs が存在しないケースを処理
  • [SPARK-44018]: 一部の DS V2 Expression の hashCode および toString を改善
  • [SPARK-44038]: YuniKorn ドキュメントを v1.3 で更新
  • [SPARK-44040]: AggregateExec ノードが QueryStageExec の上にある場合の統計計算を修正

依存関係の変更

メンテナンスリリースですが、このリリースではいくつかの依存関係をアップグレードしました。それらは以下の通りです。

JIRA で 詳細な変更内容 を確認できます。

このリリースにパッチを提供してくださったすべてのコミュニティメンバーに感謝いたします。


Spark ニュースアーカイブ