Spark リリース 2.4.5

Spark 2.4.5 は、安定性修正を含むメンテナンスリリースです。このリリースは Spark の branch-2.4 メンテナンスブランチに基づいています。すべての 2.4 ユーザーに、この安定版リリースへのアップグレードを強く推奨します。

主な変更点

  • [SPARK-21492]: SortMergeJoin におけるメモリリークを修正
  • [SPARK-26985]: ビッグエンディアンアーキテクチャにおける「すべての列の一部のみにアクセス」問題を修正
  • [SPARK-27812]: K8S クライアントバージョンを 4.6.1 に更新
  • [SPARK-28152]: 古い MsSqlServerDialect の数値マッピングのためのレガシー設定を追加
  • [SPARK-28939]: toRdd によって実行されるプランの SQLConf を伝搬
  • [SPARK-29042]: 並べ替えられていない入力を持つサンプリングベースの RDD は INDETERMINATE であるべき
  • [SPARK-29101]: CSV ファイルで DROPMALFORMED モードが選択された場合の count API を修正
  • [SPARK-29651]: interval seconds の小数点以下の解析を修正
  • [SPARK-29708]: グルーピングセットが重複した場合の集計値を修正
  • [SPARK-29743]: サンプルが子要素の needCopyResult を true に設定する必要がある場合、それを設定するように修正
  • [SPARK-29890]: DataFrameNaFunctions.fill が重複列を処理できるように修正
  • [SPARK-29918]: RecordBinaryComparator は、long で比較される際にエンディアンネスをチェックすべき
  • [SPARK-30065]: DataFrameNaFunctions.drop が重複列を処理できるように修正
  • [SPARK-30082]: NaN を置換する際にゼロを置換しない
  • [SPARK-30274]: BytesToBytesMap が最大容量に達したキーを保持している場合にハングするのを回避
  • [SPARK-30312]: テーブルを切り捨てる際にパスのパーミッションと ACL を保持
  • [SPARK-30447]: 定数伝搬の nullability 問題を修正

既知の問題

  • [SPARK-26021]: -0.0 と 0.0 が一貫して扱われない問題を修正、Hive と一致しない
  • [SPARK-26154]: ストリーム-ストリーム結合 - 左外部結合で一貫性のない出力が出る問題を修正
  • [SPARK-28344]: 曖昧な自己結合を検出した場合にクエリを失敗させる

JIRA で 詳細な変更内容 を確認できます。

このリリースにパッチを提供してくださったすべてのコミュニティメンバーに感謝いたします。


Spark ニュースアーカイブ