Spark リリース 2.4.6

Spark 2.4.6 は、安定性、正確性、およびセキュリティの修正を含むメンテナンスリリースです。このリリースは、Spark の branch-2.4 maintenance branch に基づいています。すべての 2.4 ユーザーに、この安定版リリースへのアップグレードを強く推奨します。

主な変更点

  • [SPARK-29419]: Seq.toDS / spark.createDataset(Seq) はスレッドセーフではありません
  • [SPARK-31519]: HAVING 句の集計式でのキャストが間違った結果を返します
  • [SPARK-26293]: サブクエリに Python UDF を HAVING 句で使用するとキャスト例外が発生します
  • [SPARK-30826]: LIKE が Parquet を使用する外部テーブルから間違った結果を返します
  • [SPARK-30857]: エポックより前のタイムスタンプの時および日単位での切り捨てが間違っています
  • [SPARK-31256]: dropna が struct カラムで機能しません
  • [SPARK-31312]: Hive の単純な UDF (JAR を使用) 式の変換が、後続の評価で CNFE を引き起こす可能性があります
  • [SPARK-31420]: ジョブ詳細ページでタイムラインの再描画が無限ループします
  • [SPARK-31485]: バリアステージは、一部のタスクのみが起動された場合にハングする可能性があります
  • [SPARK-31500]: BinaryType の collect_set() が重複した要素を返します
  • [SPARK-31503]: TRIM 関数の SQL 文字列を修正します
  • [SPARK-31663]: HAVING 句を持つ GROUPING SETS が間違った結果を返します
  • [SPARK-26908]: toMilis を修正します
  • [SPARK-31563]: UTF8String コレクションの Inset.sql が失敗します

依存関係の変更

メンテナンスリリースですが、このリリースではいくつかの依存関係をアップグレードしました。それらは次のとおりです。

  • netty-all を 4.1.47.Final に更新 ([CVE-2019-20445])
  • Janino を 3.0.16 に更新 (SQL 生成コード)
  • aws-java-sdk-sts を 1.11.655 に更新 (kinesis クライアントのアップグレードに必要)
  • snappy 1.1.7.5 (安定性向上 & ppc64le パフォーマンス)

既知の問題

  • [SPARK-31170]: Spark Cli は hive-site.xml および spark.sql.warehouse.dir を尊重しません
  • [SPARK-26021]: -0.0 と 0.0 が一貫して扱われず、Hive と一致しません
  • [SPARK-26154]: ストリーム-ストリーム結合 - LEFT OUTER JOIN が一貫性のない出力を生成します
  • [SPARK-28344]: 曖昧な自己結合が検出された場合にクエリを失敗させます

JIRA で 詳細な変更点 を確認できます。

このリリースにパッチを提供してくださったすべてのコミュニティメンバーに感謝いたします。


Spark ニュースアーカイブ