Spark Release 1.0.1

Spark 1.0.1 は、Spark の SQL (アルファ版) ライブラリにおけるいくつかの安定性修正と新機能を含むメンテナンスリリースです。このリリースは、Spark の branch-1.0 メンテナンスブランチに基づいています。Spark の最新の安定バージョンを入手するには、このブランチのヘッドを追跡することを推奨します。

Spark 1.0.1 は、ソースパッケージ (5 MB tgz) または、Hadoop 1 / CDH3CDH4、または Hadoop 2 / CDH5 / HDP2 (160 MB tgz) 用にビルド済みのパッケージとしてダウンロードできます。リリース署名とチェックサムは、公式の Apache ダウンロードサイトで入手できます。

修正点

Spark 1.0.1 には、いくつかのコンポーネントにおける安定性修正が含まれています。以下に、より重要な修正の一部をハイライトします。完全な修正リストについては、Spark の課題追跡システムをご覧ください。

Spark Core

  • 外部集計中のキー不足の問題 (SPARK-2043)
  • Mesos モードでのジョブ失敗中の問題 (SPARK-1749)
  • Scala シェルで case クラスを定義する際のエラー (SPARK-1199)
  • AWS 上の r3.xlarge インスタンスの適切なサポート (SPARK-1790)

PySpark

  • 多数のタスクが急速に完了する際にクラッシュを引き起こす問題 (SPARK-2282)
  • YARN-client モードでの MLlib のインポート問題 (SPARK-2172)
  • None をハッシュする際の間違った動作 (SPARK-1468)

MLlib

  • NumPy 1.4 との互換性追加 (SPARK-2091)
  • ランダムサンプラーにおける競合状態の問題 (SPARK-2251)
  • ALS における NotSerializable 例外 (SPARK-1977)

ストリーミング

  • 遅いレシーバーが開始された際のキーが見つからない問題 (SPARK-2009)
  • KafkaInputDStream におけるリソースクリーンアップ (SPARK-2034)
  • 1020 バイトを超える Flume イベントの問題 (SPARK-1916)

SparkSQL の機能

  • JSON データセットのクエリサポート (SPARK-2060)。
  • Parquet データの読み書きの改善、ネストされたレコードと配列のサポートを含む (SPARK-1293, SPARK-2195, SPARK-1913, および SPARK-1487)。
  • SQL コマンド (CACHE TABLEDESCRIBE、SHOW TABLES) のサポート改善 (SPARK-1968, SPARK-2128, および SPARK-1704)。
  • SQL 固有の設定サポート (当初はパーティション数の設定に使用) (SPARK-1508)。
  • DDL 操作の冪等性 (SPARK-2191)。

既知の問題

このリリースには 1 つの既知の問題があります: REPL で内部参照を含む複数行のステートメント (`> val x = 10; val y = x + 10`) を実行すると例外が発生します (SPARK-2452)。これは 1.0 ブランチで近日中に修正され、1.0.2 リリースに含まれる予定です。

貢献者

このリリースには以下の開発者が貢献しました

  • Aaron Davidson – PySpark および Spark コアのバグ修正
  • Ali Ghodsi – ドキュメント更新
  • Anant – spark-ec2 スクリプトの互換性修正
  • Anatoli Fomenko – MLlib ドキュメント修正
  • Andre Schumacher – ネストされた Parquet データ
  • Andrew Ash – ドキュメント
  • Andrew Or – バグ修正とドキュメント
  • Ankur Dave – バグ修正
  • Arkadiusz Komarzewski – ドキュメント修正
  • Baishuo – SQL 修正
  • Chen Chao – コメント修正とバグ修正
  • Cheng Hao – SQL 機能
  • Cheng Lian – SQL 機能
  • Christian Tzolov – ビルド改善
  • Clément MATHIEU – ドキュメント更新
  • CodingCat – ドキュメント更新とバグ修正
  • Colin McCabe – バグ修正
  • Daoyuan – SQL JOIN
  • David Lemieux – バグ修正
  • Derek Ma – バグ修正
  • Doris Xin – バグ修正
  • Erik Selin – PySpark 修正
  • Gang Bai – バグ修正
  • Guoqiang Li – バグ修正
  • Henry Saputra – ドキュメント
  • Jiang – ドキュメント修正
  • Joy Yoj – バグ修正
  • Jyotiska NK – テスト改善
  • Kan Zhang – PySpark SQL 機能
  • Kay Ousterhout – ドキュメント修正
  • LY Lai – バグ修正
  • Lars Albertsson – バグ修正
  • Lei Zhang – SQL 修正と機能
  • Mark Hamstra – バグ修正
  • Matei Zaharia – ドキュメント更新とバグ修正
  • Matthew Farrellee – バグ修正
  • Michael Armbrust – SQL 機能と修正
  • Neville Li – バグ修正
  • Nick Chammas – ドキュメント修正
  • Ori Kremer – バグ修正
  • Patrick Wendell – ドキュメントとリリース管理
  • Prashant Sharma – バグとドキュメント修正
  • Qiuzhuang.Lian – バグ修正
  • Raymond Liu – バグ修正
  • Ravikanth Nawada – バグ修正
  • Reynold Xin – バグとドキュメント修正
  • Sameer Agarwal – 最適化
  • Sandy Ryza – ドキュメント修正
  • Sean Owen – バグ修正
  • Sebastien Rainville – バグ修正
  • Shixiong Zhu – コードクリーンアップ
  • Szul, Piotr – バグ修正
  • Takuya UESHIN – バグ修正と SQL 機能
  • Thomas Graves – バグ修正
  • Uri Laserson – バグ修正
  • Vadim Chekan – バグ修正
  • Varakhedi Sujeet – ec2 r3 サポート
  • Vlad – ドキュメント修正
  • Wang Lianhui – バグ修正
  • Wenchen Fan – 最適化
  • William Benton – SQL 機能
  • Xi Liu – SQL 機能
  • Xiangrui Meng – バグ修正
  • Ximo Guanter Gonzalbez – SQL 機能
  • Yadid Ayzenberg – ドキュメント修正
  • Yijie Shen – バグ修正
  • Yin Huai – JSON サポートとバグ修正
  • Zhen Peng – バグ修正
  • Zichuan Ye – ec2 修正
  • Zongheng Yang – SQL 修正

貢献してくださった皆様、ありがとうございました!


Spark ニュースアーカイブ