Spark リリース 1.0.2

Spark 1.0.2 は、バグ修正を含むメンテナンスリリースです。このリリースは、Spark の branch-1.0 maintenance branch に基づいています。すべての 1.0.x ユーザーに、この安定版リリースへのアップグレードを推奨します。このリリースには 30 人の開発者が貢献しました。

Spark 1.0.2 は、ソースパッケージ (6 MB tgz) または、Hadoop 1 / CDH3 (156 MB tgz)、CDH4 (161 MB tgz)、または Hadoop 2 / CDH5 / HDP2 (168 MB tgz) 用の事前ビルド済みパッケージとしてダウンロードできます。リリース署名とチェックサムは、公式の Apache ダウンロードサイト で入手できます。

修正点

Spark 1.0.2 は、いくつかのコンポーネントでバグ修正を含んでいます。より重要な修正の一部を以下に示します。修正の全リストについては、Spark issue tracker を参照してください。

Spark Core

  • さまざまな演算子で RDD または PairRDDFunctions 全体をプルインしないようにする (SPARK-2534)
  • RangePartitioner の二分探索が指定された Ordering を使用しない (SPARK-2598)
  • Accumulator の更新中の例外が DAGScheduler および SparkContext をクラッシュさせるべきではない (SPARK-2323)

SQL

  • Slave ノードが、HDFS CSV ファイルで Spark QL クエリを実行する際に NoClassDefFoundError $line11.$read$ をスローする (SPARK-2576)
  • さまざまな DataType オブジェクトの同時初期化が例外を引き起こす (SPARK-2498)
  • 単一のプランで InMemoryRelation の複数のインスタンスが存在すると、再キャッシュが発生する (SPARK-2405)

PySpark

  • None のハッシュをマシン間で一貫させる (SPARK-2494)

MLlib

  • ALS の mutable.BitSet が KryoSerializer でシリアライズできない (SPARK-1977)
  • DecisionTree ノード集計での bin offset の修正 (SPARK-2152)

ストリーミング

  • Receiver のデータレートを制限する機能により、データ過負荷と Spark クラッシュを防ぐ (SPARK-1341)
  • File stream が、newFilesOnly = true の場合でも、ディレクトリ内の既存ファイルを処理する (SPARK-2362)
  • QueueInputDStream が oneAtATime=false の場合、アイテムをデキューしない (SPARK-2343)

GraphX

  • VertexPartition がシリアライズできない (SPARK-2455)

貢献者

このリリースには以下の開発者が貢献しました

  • Aaron Davidson - コアのバグ修正
  • Aaron Staple - SQL のバグ修正
  • Andrew Or - コアのバグ修正
  • Ankur Dave - GraphX のバグ修正
  • Artjom-Metro - 例のバグ修正
  • Basit Mustafa - t2 EC2 インスタンスのサポートを追加
  • Cesar Arevalo - ドキュメント修正
  • Cheng Hao - SQL のバグ修正
  • Daniel Darabos - コアのバグ修正
  • Davies Liu - PySpark のバグ修正
  • Gabriele Nizzoli - Streaming のバグ修正
  • Hossein - コアのバグ修正
  • Issac Buenrostro - Streaming receiver のスロットリングサポートを追加
  • Manuel Laflamme - Streaming のバグ修正
  • Michael Armbrust - SQL のバグ修正とパフォーマンス改善
  • Neville Li - MLlib のバグ修正
  • Patrick Wendell - コアのバグ修正
  • Reynold Xin - コアと SQL のバグ修正
  • Sarah Gerweck - コアのバグ修正
  • Takuya UESHIN - SQL のバグ修正
  • Tathagata Das - Streaming のバグ修正
  • William Benton - SQL のバグ修正
  • Yin Huai - SQL のバグ修正
  • Zongheng Yang - SQL のバグ修正
  • baishuo(白硕) - SQL のバグ修正
  • johnnywalleye - MLlib のバグ修正
  • joyyoj - Streaming のバグ修正
  • kballou - ドキュメント修正
  • lianhuiwang - ドキュメント修正
  • witgo - sbt のバグ修正

貢献してくださった皆様、ありがとうございました!


Spark ニュースアーカイブ