Spark Release 3.3.0

Apache Spark 3.3.0 は、3.x ラインの4番目のリリースです。オープンソースコミュニティからの多大な貢献により、このリリースでは1,600件以上のJiraチケットが解決されました。

このリリースでは、ブルームフィルターによるJOINクエリパフォーマンスの向上、datetime.timedeltaやmerge_asofのような一般的なPandas機能のサポートによるPandas APIカバレッジの拡大、ANSI準拠の向上と多数の組み込み関数のサポートによる従来のデータウェアハウスからの移行の簡素化、エラー処理、オートコンプリート、パフォーマンス、プロファイリングの改善による開発生産性の向上を実現しています。

Apache Spark 3.3.0 をダウンロードするには、ダウンロードページをご覧ください。詳細な変更履歴についてはJIRAをご参照ください。ここでは、主要モジュールごとにグループ化された、ハイレベルな変更点のリストをまとめました。

ハイライト
Spark SQL and Core
Structured Streaming
- メジャー機能
- その他の注目すべき変更点
PySpark
- Pandas API on Spark
- その他の注目すべき変更点
MLLIB
SparkR
UI
ビルド
クレジット

ハイライト

行レベルランタイムフィルタリング (SPARK-32268)
ANSIの機能強化 (SPARK-38860)
エラーメッセージの改善 (SPARK-38781)
Parquetベクトル化リーダーでの複合型サポート (SPARK-34863)
Spark SQLでの隠しファイルメタデータサポート (SPARK-37273)
Python/Pandas UDF用のプロファイラーを提供 (SPARK-37443)
ストリーミングクエリを複数のバッチでTrigger.Onceのように実行するためのTrigger.AvailableNowを導入 (SPARK-36533)
より包括的なDS V2プッシュダウン機能 (SPARK-38788)
Kubernetes環境でのExecutorローリング (SPARK-37810)
カスタムKubernetesスケジューラをサポート (SPARK-36057)
log4j 1からlog4j 2への移行 (SPARK-37814)

Spark SQL and Core

ANSIモード

ANSIモードでの新しい明示的なキャスト構文ルール (SPARK-33354)
Elt()は、ANSIモードでインデックスがnullの場合、nullを返す必要があります (SPARK-38304)
配列/マップで要素が存在しない場合に、オプションでnull結果を返す (SPARK-37750)
数値型とタイムスタンプ型の間のキャストを許可 (SPARK-37714)
ANSI予約キーワードをデフォルトで無効化 (SPARK-37724)
関数呼び出しの解決にストア代入ルールを使用 (SPARK-37438)
DatetimeとNumeric間のキャストを許可する設定を追加 (SPARK-37179)
ANSI予約キーワードをオプションで強制する設定を追加 (SPARK-37133)
INTERVALとStringリテラル間のバイナリ操作を禁止 (SPARK-36508)

機能強化

ANSI SQL INTERVAL型をサポート (SPARK-27790)
エラーメッセージの改善 (SPARK-38781)
Spark SQLでの隠しファイルメタデータサポート (SPARK-37273)
生の文字列リテラルをサポート (SPARK-36371)
バッチDataset.observe()用のヘルパークラス (SPARK-34806)
再分散のための初期パーティション番号を指定するサポート (SPARK-38410)
dropNamespace APIでカスケードモードをサポート (SPARK-37929)
datetime型間でのストア代入と暗黙的なキャストを許可 (SPARK-37707)
Collect、first、lastは決定論的な集計関数であるべき (SPARK-32940)
名前による和集合に配列サポートを追加 (SPARK-36546)
df.withMetadataを追加: データフレームのメタデータを更新するためのシンタックスシュガー (SPARK-36642)
デフォルトパターンでの日付/タイムスタンプの解析にCASTを使用 (SPARK-36418)
Datasetのネストされたスキーマで値クラスをサポート (SPARK-20384)
AS OF構文サポートを追加 (SPARK-37219)
TABLESAMPLEにREPEARABLEを追加してシードを指定 (SPARK-37165)
現在のカタログを変更するためのANSI構文 set catalog xxx を追加 (SPARK-36841)
ILIKE (ALL ANY SOME) - 大文字小文字を区別しないLIKEをサポート (SPARK-36674, SPARK-36736, SPARK-36778)
フォーマットされたExplainモードでのクエリステージ実行統計の表示をサポート (SPARK-38322)
ソートマージジョインのスピルサイズメトリクスを追加 (SPARK-37726)
SHOW FUNCTIONSのSQL構文を更新 (SPARK-37777)
ストレージパーティション結合 (SPARK-37375)
DROP COLUMN [IF EXISTS]構文をサポート (SPARK-38939)
新しい組み込み関数とその拡張 (SPARK-38783)
- Datetimes
  - TIMESTAMPADD() 関数を追加 (SPARK-38195)
  - TIMESTAMPDIFF() 関数を追加 (SPARK-38284)
  - TIMESTAMPDIFF() のエイリアスとしてDATEDIFF() を追加 (SPARK-38389)
  - TIMESTAMPADD() のエイリアスとしてDATEADD() を追加 (SPARK-38332)
  - convert_timezone() 関数を追加 (SPARK-37552, SPARK-37568)
  - functions.scalaでmake_date式を公開 (SPARK-36554)
- AES関数 (SPARK-12567)
  - aes_encryptおよびaes_decrypt組み込み関数を追加 (SPARK-12567)
    aes_encrypt()/aes_decrypt() によるGCMモードのサポート (SPARK-37591)
  - aes_encrypt()/aes_decrypt() でGCMをデフォルトモードに設定 (SPARK-37666)
  - aes_encrypt()/aes_decrypt() にmodeとpadding引数を追加 (SPARK-37586)
- ANSI集計関数 (SPARK-37671)
  - ANSI集計関数: regr_countをサポート (SPARK-37613)
  - ANSI集計関数: regr_avgx & regr_avgyをサポート (SPARK-37614)
  - ANSI集計関数: regr_countをサポート (SPARK-37613)
  - ANSI集計関数: regr_r2をサポート (SPARK-37641)
  - ANSI集計関数: array_aggをサポート (SPARK-27974)
  - ANSI集計関数: percentile_contをサポート (SPARK-37676, SPARK-38219)
  - ANSI集計関数: percentile_discをサポート (SPARK-37691)
  - 新しいSQL関数: try_avg (SPARK-38589)
- Collections
  - SQL関数 ARRAY_SIZEを導入 (SPARK-38345)
  - 新しいSQL関数: map_contains_key (SPARK-37584)
  - 新しいSQL関数: try_element_at (SPARK-37533)
  - 新しいSQL関数: try_sum (SPARK-38548)
- Format
  - 新しいSQL関数 to_binary を追加 (SPARK-37507, SPARK-38796)
  - 新しいSQL関数: try_to_binary (SPARK-38590, SPARK-38796)
  - データ型フォーマット関数: to_number (SPARK-28137)
- String/Binary
  - CONTAINS() 文字列関数を追加 (SPARK-37508)
  - startswith() および endswith() 文字列関数を追加 (SPARK-37520)
  - バイナリ文字列用のlpadおよびrpad関数を追加 (SPARK-37047)
  - split_part関数をサポート (SPARK-38063)
- floorおよびceil関数にスケールパラメータを追加 (SPARK-37475)
- 新しいSQL関数: try_subtractおよびtry_multiply (SPARK-38164)
- 部分集計をサポートするhistogram_numeric集計関数を実装 (SPARK-16280)
- sql.functionsにmax_by/min_byを追加 (SPARK-36963)
- 新しい組み込みSQL関数: SECおよびCSCを追加 (SPARK-36683)
- array_intersectが重複したDouble.NaNおよびFloat.NaNを処理 (SPARK-36754)
- ScalaおよびPython関数としてcotを追加 (SPARK-36660)

パフォーマンスの向上

Whole-stageコード生成
- グループ化キーなしのソート集計のコード生成を追加 (SPARK-37564)
- フルアウトソートマージジョインのコード生成を追加 (SPARK-35352)
- フルアウターシャッフルハッシュジョインのコード生成を追加 (SPARK-32567)
- 存在ソートマージジョインのコード生成を追加 (SPARK-37316)
プッシュダウン（フィルター）
- RebalancePartitionsを介したフィルターのプッシュダウン (SPARK-37828)
- ブール列フィルターのプッシュダウン (SPARK-36644)
- JOIN条件が空の場合、LEFT SEMI/ANTI JOINの右側へのLIMIT 1のプッシュダウン (SPARK-37917)
- 集計/和集合での空の関係の伝播をサポート (SPARK-35442)
- 行レベルランタイムフィルタリング (SPARK-32268)
- 行レベルランタイムフィルタリングでのLEFT SEMI JOINをサポート (SPARK-38565)
- 重複排除CTEでの述語プッシュダウンおよび列プルーニングをサポート (SPARK-37670)
Vectorization
- ConstantColumnVectorを実装し、隠しファイルメタデータのパフォーマンスを改善 (SPARK-37896)
- VectorizedPlainValuesReader.readBooleansのためのベクトル化読み取りを有効化 (SPARK-35867)
ノードの結合/削除/置換
- UNIONの間にPROJECTがある場合、UNIONを結合 (SPARK-37915)
- 2つのキャストが安全にアップキャストできる場合、1つのキャストに結合 (SPARK-37922)
- RepartitionByExpressionの子がSORTである場合、SORTを削除 (SPARK-36703)
- ストリーム側のみにDISTINCTを持つOUTER JOINを、エイリアス付きで削除 (SPARK-37292)
- 子が既にソートされている場合、HASHをSORT AGGREGATEに置き換え (SPARK-37455)
- 子が既にソートされている場合、OBJECT HASHをSORT AGGREGATEに置き換え (SPARK-37557)
- 高コストな式を重複させない場合のみPROJECTを折りたたみ (SPARK-36718)
- RewritePredicateSubqueryの後の冗長なエイリアスを削除 (SPARK-36280)
- 相関のないスカラーサブクエリを結合 (SPARK-34079)
パーティショニング
- 静的パーティションプルーニングが存在する場合、動的パーティションプルーニングを追加しない (SPARK-38148)
- OptimizerのルールにおけるRebalancePartitionsの改善 (SPARK-37904)
- Rebalance partitionsのための小さなパーティション係数を追加 (SPARK-37357)
Join
- DynamicJoinSelectionにおけるBroadcastHashJoinの降格ロジックを微調整 (SPARK-37753)
- SEMI/ANTIシャッフルハッシュジョインのリレーション構築時に重複するJOINキーを無視 (SPARK-36794)
- 追加のシャッフルを導入しても、スキューしたJOINを最適化 (SPARK-33832)
AQE
- AQE OptimizerでのLIMITの削除をサポート (SPARK-36424)
- 通常のOptimizerおよびAQE Optimizerで1行プランを最適化 (SPARK-38162)
Aggregate.groupOnlyが折りたたみ可能な式をサポート (SPARK-38489)
ByteArrayMethods arrayEqualsは、アラインされていないプラットフォームとのアラインメントチェックを高速にスキップする必要があります (SPARK-37796)
CTESubstitutionルールにツリーパターンプルーニングを追加 (SPARK-37379)
NOT演算子のさらなる単純化を追加 (SPARK-36665)
UnwrapCastInBinaryComparisonでのBooleanTypeのサポート (SPARK-36607)
Coalesceは、最初のNULLでない式以降のすべての式を削除します (SPARK-36359)
論理プランビジターを追加して、DISTINCT属性を伝播 (SPARK-36194)

組み込みコネクタの機能強化

General
- データソースからのdatetimeの寛容なシリアライゼーション (SPARK-38437)
- CREATE/ALTER TABLEで、パスの最初の文字がスラッシュの場合、テーブルの場所を絶対パスとして扱います (SPARK-38236)
- 空の静的数値型パーティションから先頭のゼロを削除 (SPARK-35561)
- データソースオプションでignoreCorruptFilesおよびignoreMissingFilesをサポート (SPARK-38767)
Parquet
- フィールドIDによるスキーマ列名のマッチングを有効化 (SPARK-38094)
- Parquetでのデータの読み書き時にフィールド名のチェックを削除 (SPARK-27442)
- Parquet DataPage V2でRLEエンコーディングを使用したブール値のベクトル化読み取りをサポート (SPARK-37864)
- ベクトル化パスのためにParquet V2データページエンコーディング（DELTA_BINARY_PACKED）をサポート (SPARK-36879)
- Parquet/Avroメタデータに保存されているセッションタイムゾーンのタイムスタンプをリベース (SPARK-37705)
- 集計のためのグループ化パーティション列のプッシュダウン (SPARK-36646)
- Parquetの集計（Min/Max/Count）プッシュダウン (SPARK-36645)
- G1GCとON_HEAPが使用されている場合、LONG_ARRAY_OFFSETによるデフォルトページサイズを削減 (SPARK-37593)
- Parquet V2サポートのためにベクトル化DELTA_BYTE_ARRAYおよびDELTA_LENGTH_BYTE_ARRAYエンコーディングを実装 (SPARK-37974)
- Parquetベクトル化リーダーでの複合型サポート (SPARK-34863)
ORC
- ORCでの既存データの読み書き時にフィールド名のチェックを削除 (SPARK-37965)
- ORCの集計プッシュダウン (SPARK-34960)
- ORCデータソースとの間でANSIINTERVALの読み書きをサポート (SPARK-36931)
- ORCデータソースでの数値のみの列名をサポート (SPARK-36663)
JSON
- JSONリーダーで引用符付きNaNおよびInfinity値を解析する際のallowNonNumericNumbersを尊重 (SPARK-38060)
- CSV/JSONでのdatetimeにデフォルトでCASTを使用 (SPARK-36536)
- JSONリーダーでのMapTypeのサポートされていないキー型のエラーメッセージを調整 (SPARK-35320)
- DataFrame.schema.csv/json(ds)でNULL許容性を尊重するためのレガシー設定を追加 (SPARK-35912)
CSV
- CSVからの破損レコード列への参照を修正 (SPARK-38534)
- デフォルトでは、null値は引用符付き空文字列 "" ではなく、何も保存されないべきです (SPARK-37575)
- JSON/CSVデータソースでデフォルトフォーマットのタイムスタンプ型推論を高速化 (SPARK-39193)
JDBC
- JDBC V2でカスケードモードをサポート (SPARK-37929)
- DB2方言のTRUNCATE実装にIMMEDIATEステートメントを追加 (SPARK-30062)
- 組み込みJDBC方言の集計関数をサポート (SPARK-37867)
- compileAggregatesをJDBCRDDからJdbcDialectに移動 (SPARK-37286)
- JDBC (MySQL方言) でdropIndexとlistIndexesを実装 (SPARK-36914)
- JDBC V2 MySQL方言でnamespaceのリストをサポート (SPARK-38054)
- JdbcDialectにgetConnectionファクトリメソッドを追加 (SPARK-38361)
- JdbcDialectは、どの関数がプッシュダウン可能かを決定すべきです (SPARK-39162)
- JDBCコネクタプロバイダーで正しいJDBCプロパティを伝播し、「connectionProvider」オプションを追加 (SPARK-36163)
- JDBC Dialectが自身でフィルターをコンパイルできるようにフレームワークをリファクタリング (SPARK-38432)
- JDBC Dialectが自身で式をコンパイルできるようにReactor Frameworkをリファクタリング (SPARK-38196)
- DS V2 JDBC (MySQL方言) でcreateIndexとIndexExistsを実装 (SPARK-36913)
Hive
- Hiveバケットテーブル（Parquet/ORCフォーマット、Hiveハッシュ付き）の書き込みをサポート (SPARK-32709)
- Hiveバケットテーブル（Hiveファイルフォーマット、Hiveハッシュ付き）の書き込みをサポート (SPARK-32712)
- クライアント側でHiveパーティションをフィルタリングするために式を使用 (SPARK-35437)
- HiveTableScanExecでの動的パーティションプルーニングをサポート (SPARK-36876)
- InsertIntoHiveDirは、変換可能な場合はデータソースを使用する必要があります (SPARK-38215)

Data Source V2 API

新しいインターフェース
- 新しいDataSource V2インターフェースHasPartitionKeyを導入 (SPARK-37376)
- SupportsPushDownV2Filtersインターフェースを追加 (SPARK-36760)
- DataSource V2 CreateTempViewUsingをサポート (SPARK-35803)
- DS V2での一般的な集計関数を表すクラスを追加 (SPARK-37789)
- DS V2 APIでのCatalyst式を表す新しいフレームワーク (SPARK-37960)
- グループベースの行レベル操作のためのAPIを追加 (SPARK-38625)
コマンドの移行
- SHOW CREATE TABLEをデフォルトでV2コマンドを使用するように移行 (SPARK-37878)
- CREATE NAMESPACEをデフォルトでV2コマンドを使用するように移行 (SPARK-37636)
- DESCRIBE NAMESPACEをデフォルトでV2コマンドを使用するように移行 (SPARK-37150)
Indexing
- DataSource V2のDROP INDEXをサポート (SPARK-37200)
- CREATE INDEX構文サポートを追加 (SPARK-36895)
- DS V2 Index Support: supportsIndexインターフェースを追加 (SPARK-36526)
プッシュダウン (SPARK-38788)
- DS V2フィルターを追加 (SPARK-36556)
- DataSource V2でのブール列フィルターのプッシュダウン (SPARK-36644)
- JDBCデータソースV2へのTOP Nプッシュダウンをサポート (SPARK-37483)
- DS V2 Sample Push Down (SPARK-37038)
- DS V2 LIMITプッシュダウン (SPARK-37020)
- DS V2は部分集計プッシュダウンAVGをサポート (SPARK-37839)
- DataSource V2の完全集計プッシュダウンをサポート (SPARK-37644)
- DISTINCTを伴うSum、Count、Anyは、部分集計プッシュダウンできません (SPARK-38560)
- プッシュダウンのための標準集計関数の翻訳を強化 (SPARK-37527)
- DS V2集計プッシュダウンはエイリアス付きプロジェクトをサポート (SPARK-38533)
- DS V2 TOP Nプッシュダウンはエイリアス付きプロジェクトをサポート (SPARK-38644)
- DS V2 Top NプッシュダウンはORDER BY式をサポート (SPARK-39037)
- DataSource V2は部分TopNプッシュダウンをサポート (SPARK-38391)
- JDBCデータソースV2へのCASTプッシュダウンをサポート (SPARK-38633)
- データソースへのLIMITの完全プッシュダウンの場合、プランからLimitを削除 (SPARK-38768)
- DS V2は、その他の非集計関数プッシュダウンをサポート (SPARK-38761)
- DS V2は数学関数プッシュダウンをサポート (SPARK-38855)
- DS V2集計プッシュダウンはグループ化式をサポート (SPARK-38997)
- DS V2集計部分プッシュダウンは、集計関数なしのグループ化をサポートする必要があります (SPARK-39135)
DataSource V2のORCベクトル化リーダーでネストされた列をサポート (SPARK-36404)
DS V2カスタムメトリクスからタスクメトリクスを更新 (SPARK-37578)
SHOW CREATE TABLE コマンドのV1およびV2オプション出力を統一 (SPARK-37494)
SHOW CATALOGS コマンドを追加 (SPARK-35973)

Kubernetesの機能強化

Kubernetes環境でのExecutorローリング (SPARK-37810)
カスタムKubernetesスケジューラをサポート (SPARK-36057)
K8sでの保留中のPodに対してexecutorIdleTimeoutが機能しない (SPARK-37049)
kubernetes-clientを5.12.2にアップグレード (SPARK-38817)
メモリオーバーヘッド係数を設定可能にする (SPARK-38194)
Spark on Kubernetes (実験的) のためのVolcano組み込み統合とPodGroupテンプレートサポートを追加 (SPARK-36061, SPARK-38455)
KubernetesCustom[Driver/Executor]FeatureConfigStep開発者APIを追加 (SPARK-37145)

ノードの廃止

FallbackStorageは、任意の「リモート」ホスト名を解決しようとすべきではありません (SPARK-38062)
ExecutorMonitor.onExecutorRemovedは、ExecutorDecommissionを完了として処理する必要があります (SPARK-38023)

プッシュベースシャッフル

プッシュベースシャッフルのためのアダプティブシャッフルマージの最終処理 (SPARK-33701)
プッシュベースシャッフルのためのアダプティブシャッフルマージャーフェッチ (SPARK-34826)
プッシュベースシャッフルのマージされたブロックからの診断をスキップ (SPARK-37695)
PushBlockStreamCallbackはNPEを回避するために最初にisTooLateをチェックする必要があります (SPARK-37847)
RemoteBlockPushResolverでのプッシュベースマージ最終処理のバグ (SPARK-37675)
リトライ中にshuffleDependencyでshuffleMergeEnabledがfalseの場合、マージステータスを取得することを回避 (SPARK-37023)

その他の注目すべき変更点

BlockInfoManagerにきめ細かいロッキングを追加 (SPARK-37356)
Spark GPU/FPGAリソースタイプをカスタムYARNリソースタイプにマッピングするサポート (SPARK-37208)
シャッフルブロックサイズがスキューしている場合、正確なシャッフルブロックサイズを報告 (SPARK-36967)
ネットワークレイヤーでのNettyロギングのサポート (SPARK-36719)

Structured Streaming

メジャー機能

ストリーミングクエリを複数のバッチでTrigger.Onceのように実行するためのTrigger.AvailableNowを導入 (SPARK-36533)

その他の注目すべき変更点

後方互換性を尊重したステートフルオペレーターのためのStatefulOpClusteredDistributionを使用 (SPARK-38204)
キーにデータがあるバッチでのflatMapGroupsWithStateタイムアウトを修正 (SPARK-38320)
RocksDBステートストアプロバイダーでのストリーム・ストリーム・アウタージョインの正しさの問題を修正 (SPARK-38684)
Kafkaを3.1.0にアップグレード (SPARK-36837)
KafkaデータソースでのTrigger.AvailableNowをサポート (SPARK-36649)
RocksDBステートストアプロバイダーでの書き込みパスの最適化 (SPARK-37224)
マイクロバッチごとに一貫した行セットを提供する新しいデータソースを導入 (SPARK-37062)
後方互換性を尊重したステートフルオペレーターのためのHashClusteredDistributionを使用 (SPARK-38204)
foreachBatchストリーミングクエリを正常に停止させる (SPARK-39218)

PySpark

Pandas API on Spark

Major improvement
- ‘distributed-sequence’インデックス最適化（デフォルトとして）(SPARK-37649, SPARK-36559, SPARK-36338)
- Spark上のPandas APIでインデックスタイプと名前を指定するサポート (SPARK-36709)
- Spark上のPandas APIのSQLプランでデフォルトのインデックスタイプを表示 (SPARK-38654)
メジャー機能
- SparkSQLネイティブps.merge_asofを実装 (SPARK-36813)
- Spark上のPandas APIでTimedeltaIndexをサポート (SPARK-37525)
- Pythonのtimedeltaをサポート (SPARK-37275, SPARK-37510)
- CategoricalAccessor/CategoricalIndexの関数を実装 (SPARK-36185)
- Spark上のPandas APIでSQL APIにPython標準文字列フォーマッタを使用 (SPARK-37436)
- timedelta Series/Indexの基本的な操作をサポート (SPARK-37510)
- ps.MultiIndex.dtypesをサポート (SPARK-36930)
- Index.mapを実装 (SPARK-36469)
- Series.xorおよびSeries.rxorを実装 (SPARK-36653)
- 整数ps.Series/Indexの単項演算子invertを実装 (SPARK-36003)
- DataFrame.covを実装 (SPARK-36396)
- （Series DataFrame).describe()でstrおよびtimestampをサポート (SPARK-37657)
- DataFrame.renameのラムダcolumnパラメータをサポート(SPARK-38763)

その他の注目すべき変更点

Breaking changes
- ドキュメントおよびpython/docsからPython 3.6サポートへの参照を削除 (SPARK-36977)
- 組み込みpickleをcloudpickleに置き換えることでnamedtupleハックを削除 (SPARK-32079)
- 最小pandasバージョンを1.0.5に引き上げ (SPARK-37465)
Major improvements
- Python/Pandas UDF用のプロファイラーを提供 (SPARK-37443)
- PySparkのSQL APIにPython標準文字列フォーマッタを使用 (SPARK-37516)
- PySpark例外でSQL状態とエラークラスを公開 (SPARK-36953)
- Pythonワーカーがクラッシュした場合にフォールトハンドラをキャプチャしようとする (SPARK-36062)
メジャー機能
- PythonでDataFrame.mapInArrowを実装 (SPARK-37228)
- PySparkのSQL APIにPython標準文字列フォーマッタを使用 (SPARK-37516)
- df.withMetadata pyspark APIを追加 (SPARK-36642)
- Pythonのtimedeltaをサポート (SPARK-37275)
- pyspark.sql.catalogでtableExistsを公開 (SPARK-36176)
- pyspark.sql.catalogでdatabaseExistsを公開 (SPARK-36207)
- pyspark sql catalogでfunctionExistsを公開 (SPARK-36258)
- PySparkにDataFrame.observationを追加 (SPARK-36263)
- PySparkにmax_by/min_by APIを追加 (SPARK-36972)
- DataFrame作成時にネストされた辞書をstructとして推論するサポート (SPARK-35929)
- Scala、Python、Rにbit/octet_length APIを追加 (SPARK-36751)
- PythonでILIKE APIをサポート (SPARK-36882)
- Python DataFrame APIにisEmptyメソッドを追加 (SPARK-37207)
- 複数の列追加をサポート (SPARK-35173)
- PySparkにSparkContext.addArchiveを追加 (SPARK-38278)
- sql type reprsを評価可能にする (SPARK-18621)
- python/pyspark/mllibのfpm.pyに型ヒントをインライン化 (SPARK-37396)
- SeriesGroupBy.value_countsのdropnaパラメータを実装 (SPARK-38837)

MLLIB

メジャー機能
- trainKMeansModelにdistanceMeasureパラメータを追加 (SPARK-37118)
- LogisticRegression.setInitialModelを公開、KMeansなどに倣う (SPARK-36481)
- CrossValidatorModelで各paramMapのメトリクスの標準偏差を取得するサポート (SPARK-36425)
Major improvements
- MLlibの一部のtreeAggregateを、割り当てを遅延させることで最適化 (SPARK-35848)
- ml/param/shared.pyの型ヒントをインライン化するために_shared_params_code_gen.pyを書き直し (SPARK-37419)
その他の注目すべき変更点
- breeze 1.2にアップグレード (SPARK-35310)

SparkR

SparkRドキュメントをpkgdownに移行 (SPARK-37474)
Rでmake_date式を公開 (SPARK-37108)
SparkRにmax_by/min_by APIを追加 (SPARK-36976)
RでILIKE APIをサポート (SPARK-36899)
R関数としてsecとcscを追加 (SPARK-36824)
Scala、Python、Rにbit/octet_length APIを追加 (SPARK-36751)
R関数としてcotを追加 (SPARK-36688)

UI

ステージレベルでの投機的実行メトリクスの概要 (SPARK-36038)
StagePageでシャッフル読み込みブロック時間をシャッフル読み込みフェッチ待機時間に統一 (SPARK-37469)
UIでのSQL実行のための変更された設定を追加 (SPARK-34735)
ThriftServerがspark.sql.redaction.string.regexを認識するようにする (SPARK-36400)
UIでアプリケーション開始後にハンドラをアタッチおよび開始 (SPARK-36237)
SQLタブのグラフノードにコミット期間を追加 (SPARK-34399)
Spark History ServerでRocksDBバックエンドをサポート (SPARK-37680)
UIでのSpark上のPandas APIのオプションを表示 (SPARK-38656)
SQL UIページで「SQL」を「SQL / DataFrame」にリネーム (SPARK-38657)

ビルド

Java 17でSparkをビルドおよび実行 (SPARK-33772)
log4j 1からlog4j 2への移行 (SPARK-37814)
log4j2を2.17.2にアップグレード (SPARK-38544)
Spark on Apple Silicon (SPARK-35781)
Py4Jを0.10.9.5にアップグレード (SPARK-38563)
JacksonをCVE-2020-36518のためアップグレード (SPARK-38665)
Jacksonを2.13.3にアップグレード (SPARK-39250)
ORCを1.7.4に更新 (SPARK-38866)
datatablesを1.10.25に更新 (SPARK-38924)
Jettyを9.4.46にアップグレード (SPARK-38784)
h2を1.4.195から2.0.202にアップグレード (SPARK-37734)
Apache Xerces Javaを2.12.2にアップグレード (SPARK-39183)

クレジット

最後に、このリリースは以下の貢献者なしでは実現できませんでした。Abhishek Somani, Adam Binford, Alex Balikov, Alex Ott, Alfonso Buono, Allison Wang, Almog Tavor, Amin Borjian, Andrew Liu, Andrew Olson, Andy Grove, Angerszhuuuu, Anish Shrigondekar, Ankur Dave, Anton Okolnychyi, Aravind Patnam, Attila Zsolt Piros, BOOTMGR, BelodengKlaus, Bessenyei Balázs Donát, Bjørn Jørgensen, Bo Zhang, Brian Fallik, Brian Yue, Bruce Robbins, Byron, Cary Lee, Cedric-Magnan, Chandni Singh, Chao Sun, Cheng Pan, Cheng Su, Chia-Ping Tsai, Chilaka Ramakrishna, Daniel Dai, Daniel Davies, Daniel Tenedorio, Daniel-Davies, Danny Guinther, Darek, David Christle, Denis Tarima, Dereck Li, Devesh Agrawal, Dhiren Navani, Diego Luis, Dmitriy Fishman, Dmytro Melnychenko, Dominik Gehl, Dongjoon Hyun, Emil Ejbyfeldt, Enrico Minack, Erik Krogen, Eugene Koifman, Fabian A.J. Thiele, Franck Thang, Fu Chen, Geek, Gengliang Wang, Gidon Gershinsky, H. Vetinari, Haejoon Lee, Harutaka Kawamura, Herman van Hovell, Holden Karau, Huaxin Gao, Hyukjin Kwon, Igor Dvorzhak, IonutBoicuAms, Itay Bittan, Ivan Karol, Ivan Sadikov, Jackey Lee, Jerry Peng, Jiaan Geng, Jie, Johan Nystrom, Josh Rosen, Junfan Zhang, Jungtaek Lim, Kamel Gazzaz, Karen Feng, Karthik Subramanian, Kazuyuki Tanimura, Ke Jia, Keith Holliday, Keith Massey, Kent Yao, Kevin Sewell, Kevin Su, Kevin Wallimann, Koert Kuipers, Kousuke Saruta, Kun Wan, Lei Peng, Leona, Leona Yoda, Liang Zhang, Liang-Chi Hsieh, Linhong Liu, Lorenzo Martini, Luca Canali, Ludovic Henry, Lukas Rytz, Luran He, Maciej Szymkiewicz, Manu Zhang, Martin Tzvetanov Grigorov, Maryann Xue, Matthew Jones, Max Gekk, Menelaos Karavelas, Michael Chen, Michał Słapek, Mick Jermsurawong, Microsoft Learn Student, Min Shen, Minchu Yang, Ming Li, Mohamadreza Rostami, Mridul Muralidharan, Nicholas Chammas, Nicolas Azrak, Ole Sasse, Pablo Langa, Parth Chandra, PengLei, Peter Toth, Philipp Dallig, Prashant Singh, Qian.Sun, RabbidHY, Radek Busz, Rahul Mahadev, Richard Chen, Rob Reeves, Robert (Bobby) Evans, RoryQi, Rui Wang, Ruifeng Zheng, Russell Spitzer, Sachin Tripathi, Sajith Ariyarathna, Samuel Moseley, Samuel Souza, Sathiya KUMAR, SaurabhChawla, Sean Owen, Senthil Kumar, Serge Rielau, Shardul Mahadik, Shixiong Zhu, Shockang, Shruti Gumma, Simeon Simeonov, Steve Loughran, Steven Aerts, Takuya UESHIN, Ted Yu, Tengfei Huang, Terry Kim, Thejdeep Gudivada, Thomas Graves, Tim Armstrong, Tom van Bussel, Tomas Pereira de Vasconcelos, TongWeii, Utkarsh, Vasily Malakhin, Venkata Sai Akhil Gudesa, Venkata krishnan Sowrirajan, Venki Korukanti, Vitalii Li, Wang, Warren Zhu, Weichen Xu, Weiwei Yang, Wenchen Fan, William Hyun, Wu, Xiaochang, Xianjin YE, Xiduo You, Xingbo Jiang, Xinrong Meng, Xinyi Yu, XiuLi Wei, Yang He, Yang Liu, YangJie, Yannis Sismanis, Ye Zhou, Yesheng Ma, Yihong He, Yikf, Yikun Jiang, Yimin, Yingyi Bu, Yuanjian Li, Yufei Gu, Yuming Wang, Yun Tang, Yuto Akutsu, Zhen Li, Zhenhua Wang, Zimo Li, alexander_holmes, beobest2, bjornjorgensen, chenzhx, copperybean, daugraph, dch nguyen, dchvn, dchvn nguyen, dgd-contributor, dgd_contributor, dohongdayi, erenavsarogullari, fhygh, flynn, gaoyajun02, gengjiaan, herman, hi-zir, huangmaoyang2, huaxingao, hujiahua, jackierwzhang, jackylee-ch, jiaoqb, jinhai, khalidmammadov, kuwii, leesf, mans2singh, mcdull-zhang, michaelzhang-db, minyyy, nyingping, pralabhkumar, qitao liu, remykarem, sandeepvinayak, senthilkumarb, shane knapp, skhandrikagmail, sperlingxx, sudoliyang, sweisdb, sychen, tan.vu, tanel.kiis@gmail.com, tenglei, tianhanhu, tianlzhang, timothy65535, tooptoop4, vadim, w00507315, wangguangxin.cn, wangshengjie3, wayneguow, wooplevip, wuyi, xiepengjie, xuyu, yangjie01, yaohua, yi.wu, yikaifei, yoda-mon, zhangxudong1, zhoubin11, zhouyifan279, zhuqi-lucas, zwangsheng

Spark ニュースアーカイブ