Spark リリース 2.4.7

Spark 2.4.7 は、安定性、正確性、およびセキュリティの修正を含むメンテナンスリリースです。このリリースは、Spark の branch-2.4 maintenance branch に基づいています。すべての 2.4 ユーザーに、この安定版リリースへのアップグレードを強く推奨します。

主な変更点

[SPARK-28818] - FrequentItems が null が存在する場合に、結果のデータフレームに不正確なスキーマを適用する

[SPARK-31511] - BytesToBytesMap の iterator() をスレッドセーフにする

[SPARK-31703] - SPARK-26985 による変更により、BigEndian アーキテクチャ (AIX + LinuxPPC64) で parquet ファイルを正しく読み込めなくなる

[SPARK-31854] - wholestage codegen のオンとオフでクエリ実行結果が異なる

[SPARK-31903] - Arrow を有効にした toPandas が Query UI でメトリクスを表示しない

[SPARK-31923] - 一部の内部アキュムレータが予期しない型を使用している場合、イベントログが生成できない

[SPARK-31935] - Hadoop ファイルシステムの設定がデータソースオプションで有効になるべき

[SPARK-31941] - getSparkUser メソッドの SparkUI での例外処理

[SPARK-31967] - Jobs UI ページの読み込みに 40 秒かかる

[SPARK-31968] - ユーザーが重複した列を指定した場合、write.partitionBy() が重複したサブディレクトリを作成する

[SPARK-31980] - Spark sequence() が、範囲の開始と終了が同じ日付の場合に失敗する

[SPARK-31997] - SingleSessionSuite が完了したら、test_udtf テーブルをドロップすべき

[SPARK-32000] - バリアモードでの部分的に起動されたタスクの不安定なテストケースを修正する

[SPARK-32003] - エグゼキュータが失われた後にフェッチ障害が発生した場合、失われたエグゼキュータのシャッフルファイルが登録解除されない

[SPARK-32024] - HistoryServerDiskManager でディスク使用量トラッカーが負になった

[SPARK-32028] - History サマリーページの App ID リンクが誤ったアプリケーション試行を指す

[SPARK-32034] - HIVE-14817 をポート: SessionManager の timeoutChecker スレッドをシャットダウン時に適切にシャットダウンする

[SPARK-32044] - [SS] 2.4 Kafka 連続処理が、誤解を招く初期オフセットログを表示する

[SPARK-32098] - Arrow を使用した createDataFrame で、直接スライスではなく、位置スライスに iloc を使用する

[SPARK-32115] - SUBSTRING がオーバーフローした場合の結果が不正確

[SPARK-32131] - UNION/INTERSECT/EXCEPT/MINUS 操作での AnalysisException メッセージを修正する

[SPARK-32167] - GetArrayStructFields の null許容性が不正確

[SPARK-32214] - makeFromJava で生成される「other」型の型変換関数が誤った変数を使用する

[SPARK-32238] - ScalaUDF で壊れたクラス名にヒットするのを避けるために Utils.getSimpleName を使用する

[SPARK-32280] - クエリに複数の JOIN が含まれている場合に AnalysisException がスローされる

[SPARK-32300] - パーティションがない toPandas が機能するはず

[SPARK-32344] - Unevaluable expr が distinct 集計の FIRST/LAST ignoreNullsExpr に設定される

[SPARK-32364] - DataFrameReader/Writer オプションに CaseInsensitiveMap を使用する

[SPARK-32372] - 重複した参照を削除した後、「解決された属性 XXX が見つかりません」

[SPARK-32377] - CaseInsensitiveMap は、追加に対して決定論的であるべき

[SPARK-32609] - DataSourceV2 による交換の再利用が不正確

[SPARK-32672] - 一部のキャッシュされた圧縮ブール列でデータが破損する

[SPARK-32693] - null許容プロパティ以外は同じスキーマを持つ 2 つのデータフレームを比較する

[SPARK-32771] - Javadoc / Scaladoc の expressions.Aggregator の例が間違っている

[SPARK-32810] - CSV/JSON データソースは、スキーマを推論する際にパスのグロビングを避けるべき

[SPARK-32812] - Python 用のテスト実行スクリプトが特定の環境で失敗する

依存関係の変更

既知の問題

JIRA で 詳細な変更点 を確認できます。

このリリースにパッチを提供してくださったすべてのコミュニティメンバーに感謝いたします。


Spark ニュースアーカイブ