Spark リリース 0.9.1

Spark 0.9.1 は、バグ修正、パフォーマンス向上、YARN における安定性の向上、および Scala API と Python API の機能同等性の改善を含むメンテナンスリリースです。すべての 0.9.0 ユーザーに、この安定版へのアップグレードを推奨します。このリリースには 37 人の開発者が貢献しました。

Spark 0.9.1 は、ソースパッケージ ソースパッケージ (6 MB tgz) または、Hadoop 1 / CDH3CDH4、または Hadoop 2 / CDH5 / HDP2 (160 MB tgz) 用の事前ビルド済みパッケージとしてダウンロードできます。リリース署名とチェックサムは、公式 Apache ダウンロードサイトで入手できます。

Spark Core の改善とバグ修正

  • 外部スピルでのハッシュ衝突バグを修正 [SPARK-1113]
  • 他のロギングバックエンドに依存するユーザーのための Spark の log4j との競合を修正 [SPARK-1190]
  • Maven ビルドで Spark アセンブリ jar から Graphx が欠落していたバグを修正
  • Akka フレームサイズを超過したマップ出力ステータスによるサイレント障害を修正 [SPARK-1244]
  • ASM への Spark の不要な直接依存を削除 [SPARK-782]
  • LGPL ライセンスの競合により、metrics-ganglia をデフォルトビルドから削除 [SPARK-1167]
  • 配布 tarball に Spark アセンブリ jar が含まれていなかったバグを修正 [SPARK-1184]
  • マップ出力場所の null による無限 NullPointerException 障害を引き起こしていたバグを修正 [SPARK-1124]
  • スケジューラのデータ構造の後処理クリーンアップにおけるバグを修正
  • Tachyon をバンドルした配布 tarball を作成する機能を追加。これにより Tachyon との Spark のデプロイが容易になります。
  • HBase の TableOutputFormat および Configurable を継承する他の OutputFormat のサポートを追加

Spark-on-YARN の安定性向上

YARN デプロイメントモードにおけるいくつかのバグ修正

  • YARN ユーザーがパーミッションを持っていないが、サブミットするユーザーがパーミッションを持っているファイルを読み書きする際のバグを修正 [SPARK-1051]
  • YARN 登録に失敗した場合に Spark アプリケーションがハングするバグを修正 [SPARK-1032]
  • yarn-client モードでの HDFS 委任トークン取得時の競合状態 [SPARK-1203]
  • yarn-client モードで正常に終了しないバグを修正 [SPARK-1049]
  • ADD_JAR 環境変数のリグレッションバグを修正し、カスタム jar を正しく追加するようにしました [SPARK-1089]

その他のデプロイメントシナリオの改善

  • Spark の EC2 スクリプトに C3 EC2 インスタンスのサポートを追加しました。これは EC2 クラスターを起動するために使用されます。
  • スタンドアロンモードでの jar URL 検証バグを修正。

MLLib の最適化

  • ALS のメモリ使用量を最適化 [MLLIB-25]
  • 暗黙的 ALS の YtY 計算を最適化 [SPARK-1237]
  • ALS での暗黙的な負の入力のサポート [MLLIB-22]
  • ALS での乱数シードの設定 [SPARK-1238]
  • 切片付き特徴量の構築を高速化 [SPARK-1260]
  • GLM の addIntercept における切片と重みのチェック [SPARK-1327]

PySpark のバグ修正と API 機能同等性の向上

  • Python のデピクル処理バグを修正 [SPARK-1135]
  • 64K を超える文字列のシリアライゼーションバグを修正 [SPARK-1043]
  • ベースファイルが利用できない場合にジョブがハングするバグを修正 [SPARK-1025]
  • PySpark に RDD 操作 (top, zip, foldByKey, repartition, coalesce, getStorageLevel, setName, toDebugString) を追加

ドキュメントの改善

  • ストリーミング: spark-shell からストリーミングアプリケーションを実行するためのドキュメントを追加
  • YARN: セキュア HDFS を使用して yarn-client モードで spark-shell を実行するためのドキュメントを追加

クレジット

  • Aaron Davidson - mergeCombiners のバグ修正
  • Aaron Kimball - ストリーミングプログラミングガイドの改善
  • Andrew Ash - worker 登録ロギングのバグ修正とドキュメントの改善
  • Andrew Or - マップ出力ステータスサイズと外部スピルのハッシュ衝突のバグ修正、およびストリーミングプログラミングガイドの改善
  • Andrew Tulloch - MLLib のマイナーアップデート
  • Bijay Bisht - Hadoop < 1.0.1 用の hadoop-client の修正と、Spark on Mesos + CDH4.5.0 のバグ修正
  • Bouke van der Bijl - Python のデピクル処理バグ修正
  • Bryn Keller - HBase の TableOutputFormat のサポート
  • Chen Chao - spark-shell スクリプトのバグ修正と、ストリーミングプログラミングガイドの改善
  • Christian Lundgren - C3 EC2 インスタンスタイプのサポート
  • Diana Carroll - PySpark プログラミングガイドの改善
  • Emtiaz Ahmed - UI バグ修正
  • Frank Dai - MLLib のコードクリーンアップ
  • Henry Saputra - Scala Option の使用変更
  • jianghan - Java サンプルのバグ修正
  • Josh Rosen - PySpark 文字列シリアライゼーションと例外処理のバグ修正
  • Jyotiska NK - PySpark ドキュメントとサンプルの改善
  • Kay Ousterhout - タスク障害のスケジューラ処理における複数のバグ修正
  • Kousuke Saruta - GitHub へのアクセスに https を使用
  • Mark Grover - distribution tar.gz のバグ修正
  • Matei Zaharia - NPE によるタスク障害処理のバグ修正、およびスケジューラデータ構造のクリーンアップ
  • Nan Zhu - PySpark RDD.takeSample のバグ修正と ADD_JAR を使用した JAR の追加、およびドキュメントの改善
  • Nick Lanham - Tachyon をバンドルした配布 tarball を作成する機能を追加
  • Patrick Wendell - ASM シェーディングのバグ修正、log4j 初期化の修正、LGPL ライセンスによる Ganglia の削除、およびその他の雑多なバグ修正
  • Prabin Banka - PySpark の RDD.zip およびその他の欠落 RDD 操作
  • Prashant Sharma - PySpark の RDD.foldByKey およびその他の PySpark ドキュメント改善
  • Qiuzhuang - スタンドアロン worker のバグ修正
  • Raymond Liu - ZookeeperPersistenceEngine での作業ディレクトリ変更
  • Reynold Xin - ドキュメントとテストインフラストラクチャの改善
  • Sandy Ryza - 複数の重要な Yarn バグ修正と改善
  • Sean Owen - MLLib の ALS のバグ修正と改善
  • Shixiong Zhu - スレッド非安全な SimpleDateFormat の使用を修正
  • shiyun.wxm - UI バグ修正
  • Stevo Slavić - Windows の run-example スクリプトのバグ修正
  • Tathagata Das - ストリーミングドキュメントの改善
  • Tom Graves - YARN デプロイメントモードのバグ修正
  • Xiangrui Meng - ALS および GLM、MLLib プログラミングガイドの改善


Spark ニュースアーカイブ