Spark Release 0.7.3

Spark 0.7.3 は、いくつかのバグ修正、パフォーマンス修正、新機能が含まれるメンテナンスリリースです。 ソースパッケージ (4 MB tar.gz) としてダウンロードするか、 Hadoop 1 / CDH3 用または CDH 4 用の事前ビルド済みパッケージ (61 MB tar.gz) を入手できます。

すべてのユーザーはこのメンテナンスリリースにアップデートすることを推奨します。

このリリースでの改善点は以下のとおりです。

  • Spark シェルでの新しい「JAR を追加」機能: spark-shell のユーザーは、ADD_JARS 環境変数を設定することで、JAR のリストをクラスターに追加できるようになりました。これらはワーカーにも送信されます。
  • Windows 修正: Spark スタンドアロン クラスターは、ジョブが終了または失敗したときに、エクスキュータを正しく終了するようになりました。さらに、バックスラッシュを含む JAR パスを追加しても正しく動作するようになりました。
  • Streaming API 修正: Spark Streaming の Kafka および Twitter API が更新されました。Twitter の場合、これは Twitter によって無効化されたユーザー名/パスワード認証方法に対処するためであり、Kafka の場合、文字列以外のメッセージを受信できるようにするためです。Streaming API はまだアルファ版であるため、これらは破壊的な API 変更であることに注意してください。
  • Python パフォーマンス: Python VM を起動する Spark のメカニズムが改善され、JVM のヒープ サイズが大きい場合に Python VM をより高速に起動できるようになり、Python API が高速化されました。
  • Mesos 修正: ジョブに追加された JAR は、Mesos でタスク結果を逆シリアル化する際にクラスパス上に配置されるようになりました。
  • エラー報告: シリアライズ不可能な例外および大きすぎるタスク結果に対するエラー報告が改善されました。
  • 例: updateStateByKey を使用したステートフル ストリーム処理の例が追加されました。
  • ビルド: Spark Streaming は Twitter4J リポジトリへの依存がなくなったため、中国でもビルドできるようになるはずです。
  • foldByKey、ストリーミング count、統計メソッド、ドキュメント、および Web UI のバグ修正

このリリースに貢献した人々は以下のとおりです。

  • Charles Reiss (Mesos)
  • Christoph Grothaus (Windows 起動修正)
  • Christopher Nguyen (バグ修正)
  • James Phillpotts (Twitter 入力ストリーム)
  • Jey Kottalam (Python パフォーマンス)
  • Josh Rosen (ユーザビリティ)
  • Konstantin Boudnik (ビルド)
  • Mark Hamstra (ビルド)
  • Matei Zaharia (Windows、ドキュメント、ADD_JARS、Python、ストリーミング)
  • Patrick Wendell (ユーザビリティ)
  • Tathagata Das (ストリーミング修正)
  • Jerry Shao (バグ修正)
  • S. Kumar (例)
  • Sean McNamara (Kafka 入力ストリーム、ストリーミング修正)


Spark ニュースアーカイブ