Spark リリース 3.3.1

Spark 3.3.1 は、安定性修正を含むメンテナンスリリースです。このリリースは、Spark の branch-3.3 maintenance branch に基づいています。すべての 3.3 ユーザーに、この安定版リリースへのアップグレードを強く推奨します。

主な変更点

  • [SPARK-35542]: 修正: parameters splitsArray, inputCols, outputCols を使用して複数の列に対して作成された Bucketizer は、保存後にロードできません。
  • [SPARK-36057]: SPIP: カスタム Kubernetes スケジューラーのサポート
  • [SPARK-38034]: TransposeWindow ルールの最適化
  • [SPARK-38404]: ネストされた CTE が外部 CTE を参照する場合の CTE 解像度の改善
  • [SPARK-38614]: percent_rank を使用するウィンドウを越える limit のプッシュダウンをしない
  • [SPARK-38717]: Hive の bucket spec のケースを保持する挙動の処理
  • [SPARK-38796]: to_number および try_to_number 関数を更新し、正の数での PR を許可
  • [SPARK-39184]: 日付およびタイムスタンプシーケンスでの結果配列のサイズ不足の処理
  • [SPARK-39200]: Fallback Storage で content に対する readFully を実行
  • [SPARK-39340]: DS v2 agg プッシュダウンは、トップレベル列の名前にドットを許可するべきである
  • [SPARK-39355]: UnresolvedAttribute を構築するために引用符で囲まれた単一列が使用されています
  • [SPARK-39419]: コンパレーターが null を返す場合に例外をスローするように ArraySort を修正
  • [SPARK-39447]: AdaptiveSparkPlanExec.doExecuteBroadcast での AssertionError を回避
  • [SPARK-39476]: Long から Float/Double へのキャスト、または Integer から Float へのキャストの場合に Unwrap cast 最適化を無効にする
  • [SPARK-39548]: ウィンドウ句クエリを持つ CreateView コマンドが、見つからないウィンドウ定義の問題にヒットする
  • [SPARK-39570]: インラインテーブルはエイリアス付きの式を許可する必要があります
  • [SPARK-39614]: K8s ポッド名は DNS サブドメイン名のルールに従います
  • [SPARK-39633]: Dataframe オプションを使用した TimeTravel の場合、秒単位のタイムスタンプをサポート
  • [SPARK-39647]: BlockManager を登録する前に ESS で Executor を登録
  • [SPARK-39650]: ストリーミング重複排除における不正な値スキーマを後方互換性とともに修正
  • [SPARK-39656]: DescribeNamespaceExec での不正な名前空間の修正
  • [SPARK-39657]: YARN AM クライアントは非静的 setTokensConf メソッドを呼び出す必要があります
  • [SPARK-39672]: 相関サブクエリを持つフィルターの前にプロジェクトを削除する際の修正
  • [SPARK-39758]: 無効なパターンの regexp 関数からの NPE を修正
  • [SPARK-39775]: Avro スキーマの解析時にデフォルト値の検証を無効にする
  • [SPARK-39806]: パーティション分割されたテーブルの _metadata へのアクセスがクエリをクラッシュさせる可能性があります
  • [SPARK-39833]: 重複するパーティション列とデータ列の場合の正確性の問題を修正するために、DSv1 で Parquet 列インデックスを無効にする
  • [SPARK-39835]: EliminateSorts がローカルソートの下のグローバルソートを削除するように修正する
  • [SPARK-39839]: UnsafeRow の構造的一貫性チェックで、オフセットとサイズがゼロの特殊なケースの null 変長 Decimal を処理する
  • [SPARK-39847]: コールスレッドが中断された場合に RocksDBLoader.loadLibrary() での競合状態を修正
  • [SPARK-39857]: V2ExpressionBuilder は、In 述語に対して不正な LiteralValue データ型を使用しています
  • [SPARK-39867]: グローバル limit は OrderPreservingUnaryNode を継承すべきではない
  • [SPARK-39887]: RemoveRedundantAliases は、投影ノードの出力が一意になるようにするエイリアスを保持する必要があります
  • [SPARK-39896]: In/InSet のリテラルがダウンキャストに失敗した場合、UnwrapCastInBinaryComparison は機能する必要があります
  • [SPARK-39900]: バイナリ形式の述語プッシュダウンにおける部分的または否定された条件に対処
  • [SPARK-39911]: グローバルソートを RepartitionByExpression に最適化
  • [SPARK-39915]: Dataset.repartition(N) が N パーティションを生成しない場合があります (非 AQE 部分)
  • [SPARK-39915]: AQE では出力パーティションがユーザー指定されていることを保証
  • [SPARK-39932]: WindowExec は最終的なパーティションバッファをクリアすべきである
  • [SPARK-39951]: ネストされたフィールドの Parquet V2 列チェックを更新
  • [SPARK-39952]: SaveIntoDataSourceCommand は結果リレーションを再キャッシュすべきである
  • [SPARK-39962]: グループ属性が空の場合に投影を適用
  • [SPARK-39976]: ArrayIntersect は、左側の式で null を正しく処理する必要があります
  • [SPARK-40002]: ntile を使用するウィンドウを介した limit のプッシュダウンをしない
  • [SPARK-40065]: 非デフォルトプロファイルを持つ Executor にも ConfigMap をマウント
  • [SPARK-40079]: Imputer の inputCols 検証を空の入力ケースに対して追加する
  • [SPARK-40089]: 一部の Decimal 型のソートを修正
  • [SPARK-40117]: DataFrameWriterV2.overwrite で条件を java に変換する
  • [SPARK-40121]: Python UDF に使用される投影を初期化する
  • [SPARK-40132]: MultilayerPerceptronClassifier.setParams に rawPredictionCol を復元
  • [SPARK-40149]: Project を介してメタデータ列を伝播
  • [SPARK-40152]: split_part codegen コンパイル問題を修正
  • [SPARK-40169]: データスキーマへの参照がない Parquet フィルターをプッシュダウンしない
  • [SPARK-40212]: SparkSQL castPartValue は、byte、short、float を正しく処理しません
  • [SPARK-40213]: ラテン語-1 文字の ASCII 値変換をサポート
  • [SPARK-40218]: GROUPING SETS はグルーピング列を保持すべきである
  • [SPARK-40228]: child が安価な式でない場合、multiLike を単純化しない
  • [SPARK-40247]: BitSet の等価性チェックを修正
  • [SPARK-40280]: アノテーション付き int および long の parquet プッシュダウンをサポート
  • [SPARK-40297]: CTE のメインボディにネストされた CTE の外部参照を解決できません
  • [SPARK-40362]: BinaryComparison の正規化を修正
  • [SPARK-40380]: InvokeLike の定数畳み込みを修正し、プランに埋め込まれたシリアライズ不可能なリテラルを回避
  • [SPARK-40385]: コンパニオンオブジェクトコンストラクタの解釈パスを修正
  • [SPARK-40389]: Decimal は、キャストがオーバーフローする可能性がある場合、整数型にアップキャストできません
  • [SPARK-40468]: _corrupt_record が選択された場合の CSV での列のプルーニングを修正
  • [SPARK-40508]: 不明なパーティション分割を UnknownPartitioning として扱う
  • [SPARK-40535]: 入力行が空の場合に AggregatingAccumulator のバッファが作成されないバグを修正
  • [SPARK-40562]: `spark.sql.legacy.groupingIdWithAppendedUserGroupBy` を追加
  • [SPARK-40612]: YARN 以外のリソースマネージャーでのデレゲーショントークン更新に使用されるプリンシパルを修正
  • [SPARK-40660]: 要素を分散するために XORShiftRandom に切り替える
  • [SPARK-40703]: 並列処理を改善するために SinglePartition でのシャッフルを導入

依存関係の変更

メンテナンスリリースですが、このリリースではいくつかの依存関係をアップグレードしました。それらは次のとおりです。

詳細な変更点については JIRA を参照してください。

このリリースにパッチを提供してくださったすべてのコミュニティメンバーに感謝いたします。


Spark ニュースアーカイブ