Spark Release 3.0.3

Spark 3.0.3 は、安定性修正を含むメンテナンスリリースです。このリリースは Spark の branch-3.0 maintenance branch に基づいています。すべての 3.0 ユーザーに、この安定版へのアップグレードを強く推奨します。

主な変更点

  • [SPARK-34421]: CTE を使用した一時ビューでカスタム関数が使用できない
  • [SPARK-34545]: PySpark Python UDF で、異なる返り値型を持つ 2 つの UDF を 2 つの列に同時に適用すると結果が不整合になる
  • [SPARK-34719]: ビュークエリに重複した列名がある場合に失敗する
  • [SPARK-35463]: shasum を持たないシステムでチェックサムのチェックをスキップする
  • [SPARK-32924]: Web UI の期間ソートが間違っている
  • [SPARK-33482]: FileScan を拡張する V2 データソースは、Exchange の再利用を妨げる
  • [SPARK-33504]: Spark History Server のアプリケーションログに、パスワードなどの機密属性が含まれている場合、プレーンテキストではなく赤線表示されるべき
  • [SPARK-34424]: HiveOrcHadoopFsRelationSuite がシード 610710213676 で失敗する
  • [SPARK-34556]: 重複した静的パーティション列のチェックが、大文字小文字を区別する設定を尊重しない
  • [SPARK-34596]: NewInstance.doGenCode は不正なクラス名エラーをスローするべきではありません
  • [SPARK-34763]: col(), $”" および df("name") は、引用符で囲まれた列名を正しく処理すべき
  • [SPARK-34794]: ネストされた高階関数が DSL で壊れている
  • [SPARK-34798]: 不正確な結合条件を修正
  • [SPARK-34876]: NULL 不可の集計は、相関サブクエリで NULL を返す可能性があります
  • [SPARK-34897]: ネストされた列のプルーニング後にインデックスに基づいてスキーマを整合させることをサポート
  • [SPARK-34909]: conv() は負の入力を正しく符号なしに変換しません
  • [SPARK-34922]: より良い CBO コスト関数を使用する
  • [SPARK-34963]: ネストされた列のプルーニングは、配列から大文字小文字を区別しない struct フィールドを抽出するのに失敗します
  • [SPARK-34970]: explain() の出力でマップ型オプションを赤線表示する
  • [SPARK-35080]: 等価性述語を持つ相関サブクエリは間違った結果を生成する可能性があります
  • [SPARK-35096]: スキーマが大文字小文字を区別しない場合、foreachBatch が ArrayIndexOutOfBoundsException をスローする
  • [SPARK-35106]: HadoopMapReduceCommitProtocol は、動的パーティションの上書きが使用される場合に悪いリネームを実行する
  • [SPARK-35227]: SparkSubmit の spark-packages リゾルバで Bintray を新しいリポジトリサービスに置き換える
  • [SPARK-35296]: Dataset.observe がアサーションで失敗する
  • [SPARK-35482]: BasicExecutorFeatureStep で大文字小文字を区別するブロックマネージャーポートキーを使用すべき
  • [SPARK-35493]: spark.blockManager.port がドライバーポッドで機能しない
  • [SPARK-35659]: StateStore への null 書き込みを回避する
  • [SPARK-35673]: Spark がサブクエリで認識されないヒントで失敗する
  • [SPARK-35679]: 有効なタイムスタンプをマイクロ秒に変換する際にオーバーフローが発生する
  • [SPARK-34697]: DESCRIBE FUNCTION および SHOW FUNCTIONS について説明できるようにする   (文字列連結演算子)
  • [SPARK-34772]: RebaseDateTime loadRebaseRecords は、コンテキストの代わりに Spark クラスローダーを使用すべき
  • [SPARK-35127]: 異なるステージ詳細ページ間を切り替える際に、新しく開かれたページのエントリ項目が空白になる場合がある
  • [SPARK-35168]: mapred.reduce.tasks は shuffle.partitions であり、adaptive.coalescePartitions.initialPartitionNum ではない
  • [SPARK-35566]: StateStoreRestoreExec の出力行数を修正
  • [SPARK-35714]: エグゼキュータシャットダウン中のデッドロックのバグ修正
  • [SPARK-34534]: OneForOneBlockFetcher の新しいプロトコル FetchShuffleBlocks がデータ損失や正確性の問題につながる
  • [SPARK-34939]: ブロードキャストされたマップステータスをデシリアライズできない場合に、取得失敗例外をスローします

依存関係の変更

メンテナンスリリースですが、このリリースではいくつかの依存関係をアップグレードしました。それらは次のとおりです。

  • [SPARK-35210]: ERR_CONNECTION_RESET 問題を修正するために Jetty を 9.4.40 にアップグレード

既知の問題

  • [SPARK-34529]: spark.read.csv が、Windows のラインフィード (CR LF) を解析する際に、「lineSep' は 1 文字しか含めません」という例外をスローする

詳細な変更については、JIRA を参照してください: 詳細な変更

このリリースにパッチを提供してくださったすべてのコミュニティメンバーに感謝いたします。


Spark ニュースアーカイブ