Spark Release 3.0.2

Spark 3.0.2は、安定性修正を含むメンテナンスリリースです。このリリースはSparkのbranch-3.0メンテナンスブランチに基づいています。3.0ユーザーの皆様には、この安定版へのアップグレードを強く推奨します。

主な変更点

  • [SPARK-31511]: BytesToBytesMapのiterator()をスレッドセーフにする
  • [SPARK-32635]: pyspark.sql.functions.lit()関数をデータフレームキャッシュと共に使用すると、誤った結果が返される
  • [SPARK-32753]: 同じ列の重複排除と再パーティショニングを行うと、AQEで重複行が作成される
  • [SPARK-32764]: -0.0 < 0.0 の比較で true が返される
  • [SPARK-32840]: 無効な間隔値が単位に付着する可能性がある
  • [SPARK-32908]: percentile_approx() が誤った結果を返す
  • [SPARK-33019]: spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=1 をデフォルトで使用する
  • [SPARK-33183]: オプティマイザールール EliminateSorts のバグ
  • [SPARK-33260]: sortOrder が Stream の場合、SortExec が誤った結果を生成する
  • [SPARK-33290]: REFRESH TABLE は、テーブル自体がキャッシュされていなくてもキャッシュを無効化する必要がある
  • [SPARK-33358]: Spark SQL CLI コマンド処理ループは、コマンドの失敗時に終了できない
  • [SPARK-33404]: "date_trunc" 式が誤った結果を返す
  • [SPARK-33435]: DSv2: REFRESH TABLE はキャッシュを無効化する必要がある
  • [SPARK-33591]: NULL がパーティション仕様で "null" 文字列として認識される
  • [SPARK-33593]: バイナリパーティション値で Vector reader が誤ったデータを取得する
  • [SPARK-33726]: 重複したフィールド名が集計中に誤った回答を引き起こす
  • [SPARK-33819]: SingleFileEventLogFileReader/RollingEventLogFilesFileReader は package private であるべき
  • [SPARK-33950]: ALTER TABLE .. DROP PARTITION はキャッシュをリフレッシュしない
  • [SPARK-34011]: ALTER TABLE .. RENAME TO PARTITION はキャッシュをリフレッシュしない
  • [SPARK-34027]: ALTER TABLE .. RECOVER PARTITIONS はキャッシュをリフレッシュしない
  • [SPARK-34055]: ALTER TABLE .. ADD PARTITION はキャッシュをリフレッシュしない
  • [SPARK-34187]: オフセット検証のチェック時にポーリング中に取得した利用可能なオフセット範囲を使用する
  • [SPARK-34212]: parquet テーブルで、hive で decimal 型の精度とスケールを変更した後、spark は誤った値を読み取る
  • [SPARK-34213]: LOAD DATA は v1 テーブルキャッシュをリフレッシュしない
  • [SPARK-34229]: Avro はファイルスキーマで decimal 値を読み取るべき
  • [SPARK-34262]: ALTER TABLE .. SET LOCATION は v1 テーブルキャッシュをリフレッシュしない

依存関係の変更

メンテナンスリリースですが、このリリースではいくつかの依存関係をアップグレードしました。それらは次のとおりです。

既知の問題

JIRA で 詳細な変更点 を確認できます。

このリリースにパッチを提供してくださったすべてのコミュニティメンバーに感謝いたします。


Spark ニュースアーカイブ