Spark リリース 3.2.1

Spark 3.2.1 は、安定性修正を含むメンテナンスリリースです。このリリースは Spark の branch-3.2 maintenance branch に基づいています。すべての 3.2 ユーザーは、この安定版リリースにアップグレードすることを強くお勧めします。

主な変更点

  • [SPARK-30789]: LEAD/LAG/NTH_VALUE/FIRST_VALUE/LAST_VALUE で IGNORE/RESPECT NULLS をサポート
  • [SPARK-33277]: オフヒープベクトル化リーダーの直後に Python/Pandas UDF を実行すると、Executor がクラッシュする可能性がありました。
  • [SPARK-34399]: ファイルコミット時間をメトリクスに追加し、SQL タブ UI に表示
  • [SPARK-35714]: Executor シャットダウン時のデッドロックのバグ修正
  • [SPARK-36754]: array_intersect で Double.NaN および Float.NaN を処理すべきでした。
  • [SPARK-37001]: 最終ハッシュ集約の 2 段階マップをデフォルトで無効化
  • [SPARK-37023]: リトライ中に shuffleDependency に対して shuffleMergeEnabled が false の場合にマージステータスを取得しないようにしました。
  • [SPARK-37088]: オフヒープベクトル化リーダーの後に Python UDF を実行すると、ライター スレッドでの使用後解放によりクラッシュする可能性がありました。
  • [SPARK-37202]: 一時ビューが、カタログ API で登録された一時関数を収集していませんでした。
  • [SPARK-37208]: Spark の GPU/FPGA リソース タイプをカスタム YARN リソース タイプにマッピングできるようにしました。
  • [SPARK-37214]: 無効な識別子でクエリ解析を早期に失敗させるようにしました。
  • [SPARK-37392]: Generate の制約を推論する際のパフォーマンスバグを修正しました。
  • [SPARK-37695]: プッシュベースのシャッフルのマージ済みブロックの診断をスキップします。
  • [SPARK-37705]: セッションタイムゾーンを Parquet ファイルメタデータに書き込み、リベースが JVM タイムゾーンの代わりにそれを使用できるようにしました。
  • [SPARK-37957]: V2 関数で決定論的フラグが処理されていませんでした。

依存関係の変更

メンテナンスリリースですが、このリリースではいくつかの依存関係をアップグレードしました。それらは次のとおりです。

  • [SPARK-37113]: Parquet を 1.12.2 にアップグレードしました。
  • [SPARK-37238]: ORC を 1.6.12 にアップグレードしました。
  • [SPARK-37534]: dev.ludovic.netlib を 2.2.1 に引き上げました。
  • [SPARK-37656]: SBT を 1.5.7 にアップグレードしました。

JIRA で 詳細な変更点 を確認できます。

このリリースにパッチを提供してくださったすべてのコミュニティメンバーに感謝いたします。


Spark ニュースアーカイブ