Spark Release 3.0.1

Spark 3.0.1 は、安定性修正を含むメンテナンスリリースです。このリリースは、Spark の branch-3.0 maintenance branch に基づいています。3.0 ユーザーの皆様には、この安定版へのアップグレードを強く推奨します。

主な変更点

  • [SPARK-26905]: ANSI SQL 標準に基づいた予約語/非予約語の再検討
  • [SPARK-31220]: `spark.sql.adaptive.enabled` の場合、`repartition` は `spark.sql.adaptive.coalescePartitions.initialPartitionNum` に従う
  • [SPARK-31703]: SPARK-26985 による変更が BigEndian アーキテクチャ (AIX + LinuxPPC64) で parquet ファイルの読み込みを正しく行えなくなる問題を修正
  • [SPARK-31915]: グループ化されたおよびコグループ化された pandas UDF で、大文字小文字の区別に応じてグルーピング列を正しく解決
  • [SPARK-31923]: 一部の内部アキュムレータが予期しない型を使用している場合にイベントログが生成されない問題を修正
  • [SPARK-31935]: Hadoop ファイルシステム設定がデータソースオプションで有効になるべき
  • [SPARK-31968]: `write.partitionBy()` が、ユーザーが重複する列を提供した場合に重複するサブディレクトリを作成する問題を修正
  • [SPARK-31983]: Structured Streaming のテーブルタブで、期間列に誤った結果が表示される問題を修正
  • [SPARK-31990]: Streaming の状態ストアの互換性が壊れている問題を修正
  • [SPARK-32003]: エグゼキュータが失われた後のフェッチ失敗で、エグゼキュータが失われたシャッフルファイルが登録解除されない問題を修正
  • [SPARK-32038]: `COUNT(DISTINCT)` で NaN 値を処理する際の回帰問題を修正
  • [SPARK-32073]: R < 3.5 のサポートを削除
  • [SPARK-32092]: `CrossvalidatorModel` がすべてのサブモデルを保存しない (3 つのみ保存する) 問題を修正
  • [SPARK-32136]: キーが null 可能なプロパティを持つ構造体である場合に Spark が不正な groupBy 結果を生成する問題を修正
  • [SPARK-32148]: `LEFT JOIN` が決定論的でない予期しない結果を生成する (Spark 3.0 の回帰) 問題を修正
  • [SPARK-32220]: Cartesian Product Hint がデータエラーを引き起こす問題を修正
  • [SPARK-32310]: ML パラメータのデフォルト値の整合性を向上
  • [SPARK-32339]: MLlib BLAS ネイティブアクセラレーションのドキュメントを改善
  • [SPARK-32424]: タイムスタンプ解析でオーバーフローが発生した場合のサイレントなデータ変更を修正
  • [SPARK-32451]: SparkR で Apache Arrow 1.0.0 をサポート
  • [SPARK-32456]: Structured Streaming の Distinct を Aggregate とみなしてチェック
  • [SPARK-32608]: Script Transform DELIMIT 値をフォーマット
  • [SPARK-32646]: ORC 述語プッシュダウンが大文字小文字を区別しない解析で機能するように修正
  • [SPARK-32658]: PartitionWriterStream におけるパーティション長数値オーバーフローを修正
  • [SPARK-32676]: KMeans/BiKMeans での二重キャッシングを修正

既知の問題

  • [SPARK-31511]: `BytesToBytesMap` の `iterator()` をスレッドセーフにする。これは Spark 3.0.2 で修正されます。
  • [SPARK-32779]: Spark/Hive3 の相互作用がデッドロックを引き起こす可能性。これは Spark 3.0.2 で修正されます。
  • [SPARK-32788]: パーティション分割されていないテーブルのスキャンではパーティションフィルターを持たないべき。これは Spark 3.0.2 で修正されます。
  • [SPARK-32810]: CSV/JSON データソースは、スキーマ推論時にパスのグロビングを回避するべき。これは Spark 3.0.2 で修正されます。

詳細な変更については、JIRA を参照してください。 詳細な変更

このリリースにパッチを提供してくださったすべてのコミュニティメンバーに感謝いたします。


Spark ニュースアーカイブ