Spark リリース 0.9.1
Spark 0.9.1 は、バグ修正、パフォーマンス向上、YARN における安定性の向上、および Scala API と Python API の機能同等性の改善を含むメンテナンスリリースです。すべての 0.9.0 ユーザーに、この安定版へのアップグレードを推奨します。このリリースには 37 人の開発者が貢献しました。
Spark 0.9.1 は、ソースパッケージ ソースパッケージ (6 MB tgz) または、Hadoop 1 / CDH3、CDH4、または Hadoop 2 / CDH5 / HDP2 (160 MB tgz) 用の事前ビルド済みパッケージとしてダウンロードできます。リリース署名とチェックサムは、公式 Apache ダウンロードサイトで入手できます。
Spark Core の改善とバグ修正
- 外部スピルでのハッシュ衝突バグを修正 [SPARK-1113]
- 他のロギングバックエンドに依存するユーザーのための Spark の log4j との競合を修正 [SPARK-1190]
- Maven ビルドで Spark アセンブリ jar から Graphx が欠落していたバグを修正
- Akka フレームサイズを超過したマップ出力ステータスによるサイレント障害を修正 [SPARK-1244]
- ASM への Spark の不要な直接依存を削除 [SPARK-782]
- LGPL ライセンスの競合により、metrics-ganglia をデフォルトビルドから削除 [SPARK-1167]
- 配布 tarball に Spark アセンブリ jar が含まれていなかったバグを修正 [SPARK-1184]
- マップ出力場所の null による無限 NullPointerException 障害を引き起こしていたバグを修正 [SPARK-1124]
- スケジューラのデータ構造の後処理クリーンアップにおけるバグを修正
- Tachyon をバンドルした配布 tarball を作成する機能を追加。これにより Tachyon との Spark のデプロイが容易になります。
- HBase の TableOutputFormat および Configurable を継承する他の OutputFormat のサポートを追加
Spark-on-YARN の安定性向上
YARN デプロイメントモードにおけるいくつかのバグ修正
- YARN ユーザーがパーミッションを持っていないが、サブミットするユーザーがパーミッションを持っているファイルを読み書きする際のバグを修正 [SPARK-1051]
- YARN 登録に失敗した場合に Spark アプリケーションがハングするバグを修正 [SPARK-1032]
- yarn-client モードでの HDFS 委任トークン取得時の競合状態 [SPARK-1203]
- yarn-client モードで正常に終了しないバグを修正 [SPARK-1049]
- ADD_JAR 環境変数のリグレッションバグを修正し、カスタム jar を正しく追加するようにしました [SPARK-1089]
その他のデプロイメントシナリオの改善
- Spark の EC2 スクリプトに C3 EC2 インスタンスのサポートを追加しました。これは EC2 クラスターを起動するために使用されます。
- スタンドアロンモードでの jar URL 検証バグを修正。
MLLib の最適化
PySpark のバグ修正と API 機能同等性の向上
- Python のデピクル処理バグを修正 [SPARK-1135]
- 64K を超える文字列のシリアライゼーションバグを修正 [SPARK-1043]
- ベースファイルが利用できない場合にジョブがハングするバグを修正 [SPARK-1025]
- PySpark に RDD 操作 (top, zip, foldByKey, repartition, coalesce, getStorageLevel, setName, toDebugString) を追加
ドキュメントの改善
- ストリーミング: spark-shell からストリーミングアプリケーションを実行するためのドキュメントを追加
- YARN: セキュア HDFS を使用して yarn-client モードで spark-shell を実行するためのドキュメントを追加
クレジット
- Aaron Davidson - mergeCombiners のバグ修正
- Aaron Kimball - ストリーミングプログラミングガイドの改善
- Andrew Ash - worker 登録ロギングのバグ修正とドキュメントの改善
- Andrew Or - マップ出力ステータスサイズと外部スピルのハッシュ衝突のバグ修正、およびストリーミングプログラミングガイドの改善
- Andrew Tulloch - MLLib のマイナーアップデート
- Bijay Bisht - Hadoop < 1.0.1 用の hadoop-client の修正と、Spark on Mesos + CDH4.5.0 のバグ修正
- Bouke van der Bijl - Python のデピクル処理バグ修正
- Bryn Keller - HBase の TableOutputFormat のサポート
- Chen Chao - spark-shell スクリプトのバグ修正と、ストリーミングプログラミングガイドの改善
- Christian Lundgren - C3 EC2 インスタンスタイプのサポート
- Diana Carroll - PySpark プログラミングガイドの改善
- Emtiaz Ahmed - UI バグ修正
- Frank Dai - MLLib のコードクリーンアップ
- Henry Saputra - Scala Option の使用変更
- jianghan - Java サンプルのバグ修正
- Josh Rosen - PySpark 文字列シリアライゼーションと例外処理のバグ修正
- Jyotiska NK - PySpark ドキュメントとサンプルの改善
- Kay Ousterhout - タスク障害のスケジューラ処理における複数のバグ修正
- Kousuke Saruta - GitHub へのアクセスに https を使用
- Mark Grover - distribution tar.gz のバグ修正
- Matei Zaharia - NPE によるタスク障害処理のバグ修正、およびスケジューラデータ構造のクリーンアップ
- Nan Zhu - PySpark RDD.takeSample のバグ修正と ADD_JAR を使用した JAR の追加、およびドキュメントの改善
- Nick Lanham - Tachyon をバンドルした配布 tarball を作成する機能を追加
- Patrick Wendell - ASM シェーディングのバグ修正、log4j 初期化の修正、LGPL ライセンスによる Ganglia の削除、およびその他の雑多なバグ修正
- Prabin Banka - PySpark の RDD.zip およびその他の欠落 RDD 操作
- Prashant Sharma - PySpark の RDD.foldByKey およびその他の PySpark ドキュメント改善
- Qiuzhuang - スタンドアロン worker のバグ修正
- Raymond Liu - ZookeeperPersistenceEngine での作業ディレクトリ変更
- Reynold Xin - ドキュメントとテストインフラストラクチャの改善
- Sandy Ryza - 複数の重要な Yarn バグ修正と改善
- Sean Owen - MLLib の ALS のバグ修正と改善
- Shixiong Zhu - スレッド非安全な SimpleDateFormat の使用を修正
- shiyun.wxm - UI バグ修正
- Stevo Slavić - Windows の run-example スクリプトのバグ修正
- Tathagata Das - ストリーミングドキュメントの改善
- Tom Graves - YARN デプロイメントモードのバグ修正
- Xiangrui Meng - ALS および GLM、MLLib プログラミングガイドの改善
Spark ニュースアーカイブ