Spark Release 1.4.0

Spark 1.4.0 は 1.X ラインにおける5回目のリリースです。このリリースでは Spark に R API が導入されました。また、Spark のコアエンジンにおけるユーザビリティの向上、MLlib および Spark Streaming の拡張も行われています。Spark 1.4 は、70以上の機関から210名以上の貢献者、1000以上の個別のパッチによって実現された成果を表しています。

Spark 1.4 をダウンロードするには、ダウンロードページをご覧ください。

SparkR

Spark 1.4 は、Spark の新しい DataFrame API に基づく Spark の R バインディングである SparkR をパッケージ化した最初のリリースです。SparkR は R ユーザーに Spark のスケールアウト並列実行機能と、Spark のすべての入出力フォーマットへのアクセスを提供します。また、Spark SQL への直接呼び出しもサポートしています。R プログラミングガイドには、SparkR のセットアップ方法に関する詳細情報が記載されています。

Spark Core

Spark Core は、運用、パフォーマンス、互換性に焦点を当てた様々な改善を追加しました。

  • SPARK-6942: Spark DAG の可視化と運用監視
  • SPARK-4897: Python 3 サポート
  • SPARK-3644: アプリケーション情報のための REST API
  • SPARK-4550: パフォーマンス向上のためのシャッフル出力のシリアライズ
  • SPARK-7081: Project Tungsten における初期パフォーマンス改善
  • SPARK-3074: Python groupByKey 操作のための外部スピリング
  • SPARK-3674: Spark EC2 の YARN サポート、および SPARK-5342: 長時間実行 YARN アプリケーションのセキュリティ
  • SPARK-2691: Mesos における Docker サポート、および SPARK-6338: Mesos におけるクラスターモード

DataFrame API と Spark SQL

DataFrame API は Spark 1.4 で大幅に拡張され(完全なリストはこちらをご覧ください)、分析関数と数学関数に重点が置かれています。Spark SQL は、ORCFile のサポートとともに、新しい運用ユーティリティを導入しました。

  • SPARK-2883: ORCFile フォーマットのサポート
  • SPARK-2213: 非常に大規模な結合を最適化するためのソートマージ結合
  • SPARK-5100: SQL JDBC サーバー専用 UI
  • SPARK-6829: DataFrame における数学関数
  • SPARK-8299: DataFrame および SQL におけるエラーメッセージ報告の改善
  • SPARK-1442: Spark SQL および DataFrame におけるウィンドウ関数
  • SPARK-6231 / SPARK-7059: 自己結合のための API サポートの改善
  • SPARK-5947: Spark のデータソース API におけるパーティショニングサポート
  • SPARK-7320: ロールアップおよびキューブ関数
  • SPARK-6117: 要約統計量および記述統計量

Spark ML/MLlib

Spark の ML パイプライン API は、このリリースでアルファ版から卒業し、新しいトランスフォーマーと Python カバレッジの改善が行われました。MLlib はまた、いくつかの新しいアルゴリズムを追加しました。

  • SPARK-5884: ML パイプラインのための様々な特徴量トランスフォーマー
  • SPARK-7381: ML パイプラインのための Python API
  • SPARK-5854: GraphX のためのパーソナライズド PageRank
  • SPARK-6113: DecisionTree およびアンサンブル API の安定化
  • SPARK-7262: L1/L2(Elastic Net)を伴う二項ロジスティック回帰
  • SPARK-7015: OneVsRest マルチクラスから二項への削減
  • SPARK-4588: 特徴量属性のための API を追加
  • SPARK-1406: MLib を介した PMML モデル評価サポート
  • SPARK-5995: ML 予測開発者 API を公開
  • SPARK-3066: 行列分解モデルにおける recommendAll のサポート
  • SPARK-4894: Bernoulli ナイーブベイズ
  • SPARK-5563: オンライン変分推論を伴う LDA をリリースノートに追加

Spark Streaming

Spark Streaming は、UI における視覚的なインストルメンテーショングラフと大幅に改善されたデバッグ情報を提供します。また、Kafka および Kinesis のサポートも強化しています。

  • SPARK-7602: バッチドリルダウンを含むストリーミング UI における可視化と監視(SPARK-6796SPARK-6862
  • SPARK-7621: Kafka のためのエラー報告の改善
  • SPARK-2808: Kafka 0.8.2.1 および Scala 2.11 を伴う Kafka のサポート
  • SPARK-5946: Kafka ダイレクトモードのための Python API
  • SPARK-7111: Kafka の入力レート追跡
  • SPARK-5960: Kinesis への AWS 認証情報転送のサポート
  • SPARK-7056: 書き込み先行ログのためのプラグ可能なインターフェース

既知の問題

このリリースには、Spark 1.4.1 で対処される予定の既知の問題がいくつかあります。

  • Python sortBy()/sortByKey() は、単一パーティションがワーカーメモリより大きい場合にハングすることがあります SPARK-8202
  • JSON スキーマ推論の意図しない動作変更 SPARK-8093
  • 一部の ML パイプラインコンポーネントは、コピーを正しく実装していません SPARK-8151
  • Spark-ec2 ブランチポインタが間違っています SPARK-8310

クレジット

テストパートナー

リリース候補のベンチマークまたは統合テストを支援していただいた以下の組織に感謝します。
Intel, Palantir, Cloudera, Mesosphere, Huawei, Shopify, Netflix, Yahoo, UC Berkeley and Databricks.

貢献者

  • Aaron Davidson – Core, Shuffle, YARN におけるバグ修正
  • Aaron Josephs – Core における新機能
  • Adam Budde – SQL におけるバグ修正
  • Ai He – MLlib における改善
  • Andrew Or – Core におけるバグ修正
  • Andrew Or – Core および YARN における改善。Core, Web UI, Streaming, テスト, SQL におけるバグ修正。Streaming, Web UI, Core, SQL における改善。
  • Andrey Zagrebin – SQL における改善
  • Antonio Piccolboni – SparkR における新機能
  • Arsenii Krasikov – Core におけるバグ修正
  • Ashutosh Raina – SparkR における新機能
  • Ashwin Shankar – YARN におけるバグ修正
  • Augustin Borsu – MLlib における新機能
  • Ben Fradet – Core および Streaming におけるドキュメント
  • Benedikt Linse – Core におけるドキュメント
  • Bill Chambers – Core におけるドキュメント
  • Brennon York – Project Infra, Core, GraphX, テストにおける改善。Core におけるバグ修正。
  • Bryan Cutler – Core におけるバグ修正
  • Burak Yavuz – spark submit におけるテスト。Core および Streaming における改善。MLlib および PySpark における新機能。Core, テスト, spark submit におけるバグ修正。SQL, MLlib, PySpark における改善。
  • Calvin Jia – Core における改善とドキュメント
  • Chen Song – SQL におけるバグ修正と改善
  • Cheng Chang – EC2 における新機能
  • Cheng Hao – SQL における改善、新機能、バグ修正、改善。
  • Cheng Lian – SQL におけるバグ修正
  • Cheng Lian – Core および SQL における改善。Core および SQL におけるドキュメント。Core および SQL におけるバグ修正。SQL における改善。
  • Cheolsoo Park – YARN における希望。Core および spark submit における改善。Core におけるバグ修正。
  • Chris Freeman – SparkR における新機能
  • Chet Mancini – Core および SQL における改善
  • Chris Heller – Mesos における新機能
  • Christophe Preaud – Core および YARN におけるドキュメント
  • Cody Koeninger – Streaming におけるバグ修正。Core における改善。
  • DB Tsai – MLlib における改善、新機能、バグ修正
  • DEBORAH SIEGEL – Core におけるドキュメント
  • Dan McClary – GraphX における新機能
  • Dan Putler – SparkR における新機能
  • Daoyuan Wang – テストおよび SQL における改善。SQL における新機能。SQL におけるバグ修正。MLlib および SQL における改善。
  • David McGuire – Streaming におけるバグ修正
  • Davies Liu – SQL および PySpark における改善。Core および SparkR における新機能。Streaming, テスト, PySpark, SparkR, SQL におけるバグ修正。Core および SQL における改善。
  • Davies Liu – SparkR における新機能
  • Dean Chen – Core における改善。YARN における新機能。Core および YARN におけるバグ修正。
  • Debasish Das – MLlib における新機能
  • Deborah Siegel – Core における改善
  • Doing Done – SQL における改善。Core および SQL におけるバグ修正。
  • Dong Xu – SQL におけるバグ修正
  • Doug Balog – spark submit, YARN, SQL におけるバグ修正
  • Edward T – SparkR における新機能
  • Elisey Zanko – MLlib および PySpark におけるバグ修正
  • Emre Sevinc – Streaming における改善
  • Eric Chiang – Core におけるドキュメント
  • Erik Van Oosten – Core におけるバグ修正
  • Evan Jones – Core におけるバグ修正
  • Evan Yu – Core におけるバグ修正
  • Evert Lammerts – SparkR における新機能
  • Favio Vazquez – Core におけるビルド修正。Core および MLlib におけるドキュメント。
  • Felix Cheung – SparkR ドキュメント
  • Florian Verhein – EC2 における改善と新機能
  • Gaurav Nanda – Core におけるドキュメント
  • Glenn Weidner – MLlib および PySpark におけるドキュメント
  • Guancheng (G.C.) Chen – Core における改善
  • Guancheng Chen – Core における改善
  • Guo Wei – SQL におけるバグ修正とウィンドウ関数機能
  • GuoQiang Li – Core における新機能。Core および YARN におけるバグ修正。
  • Haiyang Sea – SQL における改善
  • Hangchen Yu – GraphX におけるドキュメント
  • Hao Lin – SparkR における改善と新機能
  • Hari Shreedharan – Streaming およびテストにおけるテスト。YARN における新機能。Web UI におけるバグ修正。
  • Harihar Nahak – SparkR における新機能
  • Holden Karau – Core, MLlib, PySpark における改善。PySpark におけるバグ修正。
  • Hossein Falaki – SparkR ドキュメント
  • Hong Shen – Core および YARN におけるバグ修正
  • Hrishikesh Subramonian – MLlib および PySpark における改善
  • Hung Lin – スケジューラにおけるバグ修正
  • Ilya Ganelin – Core における改善。Core における新機能。Core および Shuffle におけるバグ修正。Core における改善。
  • Imran Rashid – Web UI における改善。Core および Web UI におけるバグ修正。
  • Isaias Barroso – Core におけるバグ修正
  • Iulian Dragos – Core および SQL におけるバグ修正。Core, Shuffle, Mesos における改善。
  • Jacek Lewandowski – Core におけるバグ修正
  • Jacky Li – SQL における改善
  • Jaonary Rabarisoa – MLlib における改善
  • Jayson Sunshine – Core におけるドキュメント
  • Jean Lyn – SQL におけるバグ修正
  • Jeff Harrison – SparkR における改善
  • Jeremy A. Lucas – Streaming における改善
  • Jeremy Freeman – Streaming および MLlib におけるバグ修正
  • Jim Carroll – MLlib におけるバグ修正
  • Jin Adachi – SQL におけるバグ修正
  • Jongyoul Lee – Core および Mesos における改善。Core におけるバグ修正。
  • Joseph K. Bradley – MLlib における改善。PySpark, Core, SQL, MLlib, Streaming におけるドキュメント。MLlib における新機能。Java API, Core, MLlib, PySpark におけるバグ修正。MLlib および PySpark における改善。
  • Josh Rosen – Core および SQL における改善。Core, Shuffle, SQL における新機能。Core, テスト, Shuffle, Streaming, スケジューラ, SQL, Java API におけるバグ修正。Core および Shuffle における改善。
  • Judy Nash – Windows および spark submit におけるバグ修正
  • Judy Nash – Core における改善
  • Juliet Hougland – MLlib における改善
  • June He – Core およびテストにおけるバグ修正
  • Kai Sasaki – Core および MLlib におけるドキュメント。MLlib および PySpark における改善。MLlib および PySpark におけるバグ修正。MLlib および PySpark における改善。
  • Kalle Jepsen – PySpark および SQL における改善。PySpark におけるバグ修正。PySpark における改善。
  • Kamil Smuga – Core および PySpark におけるバグ修正
  • Kay Ousterhout – Core, Web UI, Shuffle における改善。Project Infra, Core, Web UI, テストにおけるバグ修正。
  • Kevin (Sangwoo) Kim – Core におけるバグ修正
  • Kirill A. Korinskiy – MLlib における新機能
  • Kousuke Saruta – Streaming, Web UI, テストにおける改善。Web UI, スケジューラ, テスト, YARN におけるバグ修正。Web UI における改善。
  • LCY Vincent – Core におけるドキュメント
  • Leah McGuire – MLlib における改善と新機能
  • Lev Khomich – Core における改善
  • Liang-Chi Hsieh – MLlib および SQL における改善。MLlib における改善。SQL における新機能。Core, Shuffle, PySpark, MLlib, SQL, spark submit におけるバグ修正。Core および MLlib におけるドキュメント。
  • Liangliang Gu – Core および Web UI における改善。Web UI におけるバグ修正。
  • Lianhui Wang – GraphX における改善。PySpark におけるバグ修正。
  • Liu Chang – EC2 における改善
  • Lomig Megard – Core におけるドキュメント
  • Madhukara Phatak – SQL におけるドキュメント
  • Manoj Kumar – MLlib における改善。SQL, MLlib, PySpark における新機能。Streaming, MLlib, SQL におけるバグ修正。MLlib および PySpark における改善。
  • Marcelo Vanzin – Core における改善。Core, テスト, Shuffle, YARN, Streaming, spark submit におけるバグ修正。Core における改善。
  • Mark Bittmann – MLlib におけるバグ修正
  • Marko Bonaci – Core におけるドキュメント
  • Masaru Dobashi – Core におけるドキュメント
  • Masayoshi TSUZUKI – Windows および Core におけるバグ修正
  • Matei Zaharia – Web UI における改善
  • Matt Aasted – EC2 におけるバグ修正
  • Matt Massie – SparkR における新機能
  • Matt Wise – Core におけるドキュメント
  • Matthew Cheah – Core における改善と新機能
  • Matthew Goodman – EC2 および PySpark におけるバグ修正
  • Max Seiden – SQL におけるバグ修正
  • Meethu Mathew – MLlib および PySpark におけるバグ修正
  • Michael Armbrust – Core におけるドキュメント。SQL における新機能。SQL における改善。SQL におけるバグ修正。Core および SQL における改善。
  • Michael Griffiths – Windows および Core におけるバグ修正
  • Michael Malak – GraphX におけるバグ修正
  • Michael Nazario – テストおよび PySpark におけるバグ修正
  • Michelangelo D’Agostino – EC2 におけるバグ修正
  • Michelle Casbon – Project Infra における改善
  • Miguel Peralvo – EC2 における改善
  • Mike Dusenberry – Core および MLlib における改善。Core におけるドキュメント。Core および MLlib におけるバグ修正。
  • Milan Straka – Core および PySpark におけるバグ修正
  • Misha Chernetsov – Core および SQL における改善
  • Mridul Muralidharan – Core および Shuffle における改善
  • Nan Zhu – Core およびテストにおける改善。Core および SQL におけるバグ修正。
  • Nathan Howell – SQL における改善と新機能
  • Nathan Kronenfeld – Core におけるバグ修正
  • Nathan McCarthy – Core におけるバグ修正
  • Nicholas Chammas – Core および EC2 における改善。EC2 におけるバグ修正。
  • Nishkam Ravi – Core における改善。Core におけるドキュメント。Core および YARN におけるバグ修正。
  • Nobuyuki Kuromatsu – MLlib におけるバグ修正
  • Octavian Geagla – MLlib における改善。Java API, Core, MLlib におけるドキュメント。
  • Oleg Sidorkin – SQL におけるバグ修正
  • Oleksii Kostyliev – Core におけるバグ修正
  • Olivier Girardot – Java API および SQL における改善。Core におけるバグ修正。PySpark および SQL における改善。
  • Omede Firouz – MLlib における改善。MLlib および PySpark における新機能。
  • Oscar Olmedo – SparkR における新機能
  • Pankaj Arora – Core におけるバグ修正
  • Patrick Wendell – spark submit におけるテスト。Core および Shuffle における改善。テストおよび SQL におけるバグ修正。
  • Pei-Lun Lee – SQL における改善とバグ修正
  • Peter Parente – Core における改善
  • Peter Rudenko – Core におけるドキュメント
  • Pierre Borckmans – Core および EC2 におけるドキュメント
  • Prabeesh K – Streaming における改善
  • Pradeep Chanumolu – Core における改善
  • Prashant Sharma – Core における改善とバグ修正
  • Punya Biswal – SQL における改善。Core におけるバグ修正。
  • Punyashloka Biswal – Core におけるビルド修正
  • Qian Huang – SparkR における新機能と改善
  • Qiping Li – Core におけるバグ修正
  • Rajendra Gokhale (rvgcentos) – Core における改善
  • Rakesh Chalasani – SQL における改善
  • Ram Sriharsha – Core, MLlib, PySpark における改善。MLlib における新機能。Core および MLlib におけるドキュメント。
  • Rekha Joshi – SparkR における改善
  • Rene Treffer – SQL における改善
  • Rex Xiong – Core における改善
  • Reynold Xin – Project Infra, Core, テスト, PySpark, SQL における改善。Core におけるドキュメント。Core および MLlib におけるバグ修正。Project Infra, Core, GraphX, SQL における改善。
  • Reza Zadeh – MLlib における改善
  • Ryan Hafen – SparkR における新機能
  • Ryan Williams – Core における改善
  • Saisai Shao – Streaming およびテストにおけるテスト。Core, PySpark, YARN, Streaming における改善。Web UI における新機能。Web UI および YARN におけるバグ修正。Streaming における改善。
  • Saleem Ansari – Core および MLlib におけるドキュメント
  • Sandy Ryza – Core, Shuffle, MLlib における改善。Core および MLlib におけるドキュメント。Core および YARN におけるバグ修正。MLlib における改善。
  • Santiago M. Mola – SQL における改善。SQL におけるバグ修正。Core におけるドキュメント。
  • Sasaki Toru – Core および GraphX における改善
  • Sean Owen – Core におけるドキュメント。Core, テスト, MLlib, Streaming, SQL, Web UI における改善。Project Infra, Core, テスト, Windows, SQL, GraphX, Web UI におけるバグ修正。Core における改善。
  • Sephiroth Lin – SparkR, Core, スケジューラ, YARN, PySpark における改善。SQL におけるバグ修正。
  • Shekhar Bansal – YARN における改善。Web UI におけるバグ修正。
  • Sheng Li – SQL におけるバグ修正
  • Shiti Saxena – SQL における改善
  • Shivaram Venkataraman – SparkR および EC2 における改善。Core および SparkR における新機能。SparkR におけるバグ修正。SparkR における改善。
  • Shixiong Zhu – Streaming, テスト, Core におけるテスト。Streaming, Web UI, Core における改善。Streaming, Web UI, Core における改善。Core, テスト, MLlib, YARN, Streaming, スケジューラ, Web UI におけるバグ修正。Core および Streaming におけるドキュメント。
  • Shuai Zheng – SQL におけるバグ修正
  • Shuo Xiang – Core における新機能。MLlib におけるバグ修正。
  • Stephen Boesch – MLlib におけるバグ修正
  • Stephen Haberman – Core におけるバグ修正
  • Steve Loughran – Core, Web UI, SQL における改善。Core および YARN におけるバグ修正。
  • Steven She – Core におけるバグ修正
  • Su Yan – Core におけるバグ修正
  • Sun Rui – SparkR における改善。SparkR および SQL における新機能。SparkR におけるバグ修正。SparkR における改善。
  • Taka Shinagawa – Core におけるドキュメント
  • Takeshi YAMAMURO – GraphX および SQL における改善
  • Tathagata Das – Streaming およびテストにおけるテスト。Streaming および Core における改善。Streaming および SQL における新機能。Project Infra, Streaming, Core におけるバグ修正。
  • Ted Yu – Core における改善。Core および PySpark におけるバグ修正。
  • Theodore Vasiloudis – Core における改善。Core および EC2 におけるバグ修正。
  • Thomas Graves – Core におけるバグ修正
  • Tijo Thomas – Core における改善。Core および SQL におけるバグ修正。
  • Tim Ellison – Core におけるバグ修正
  • Timothy Chen – spark submit および Mesos における改善。spark submit および Mesos におけるバグ修正。
  • Tingjun Xu – Streaming における改善
  • Todd Gao – SparkR
  • Venkata Ramana Gollamudi – SQL における改善とバグ修正
  • Vidmantas Zemleris – SQL における改善
  • Vincenzo Selvaggio – MLlib におけるドキュメントと新機能
  • Vinod K C – Shuffle およびスケジューラにおける改善。Core および SQL におけるバグ修正。
  • Vinod KC – Core および SQL におけるバグ修正
  • Volodymyr Lyubinets – SQL における改善とバグ修正
  • Vyacheslav Baranov – SQL におけるバグ修正
  • Wang Fei – SQL における改善、新機能、バグ修正
  • Wang Tao – Core, YARN, SQL における改善。spark submit における新機能。Core, spark submit, SQL におけるバグ修正。
  • Wenchen Fan – Core における改善。Core におけるドキュメント。SQL におけるバグ修正。SQL における改善。
  • Wesley Miao – Streaming におけるバグ修正
  • Xiangrui Meng – SQL, MLlib, PySpark における新機能。MLlib におけるアンブレラ。PySpark, Core, SQL, MLlib, Streaming におけるドキュメント。Core, SQL, MLlib, PySpark における改善。GraphX および MLlib におけるビルド修正。Core, SQL, MLlib, PySpark における改善。Java API, Web UI, SQL, MLlib, PySpark におけるバグ修正。
  • Xu Kun – Core における新機能
  • Xusen Yin – Core および MLlib におけるドキュメント。MLlib における改善。
  • Yadong Qi – SQL における改善とバグ修正
  • Yanbo Liang – Core, MLlib, PySpark における改善。MLlib および PySpark における新機能。MLlib および SQL におけるバグ修正。MLlib および PySpark における改善。
  • Yash Datta – SQL における改善とバグ修正
  • Ye Xianjin – Core におけるバグ修正
  • Yi Lu – SparkR における新機能
  • Yi Tian – Web UI および SQL における新機能。SQL におけるバグ修正。
  • Yin Huai – テストおよび SQL における改善。SQL における新機能。Core および SQL におけるバグ修正。Core および SQL における改善。
  • Yong Tang – Core におけるバグ修正
  • Yu ISHIKAWA – MLlib における改善
  • Yuhao Yang – Core および MLlib における改善。MLlib における新機能。Core および MLlib におけるドキュメント。
  • Yuri Saito – SQL におけるバグ修正
  • Zhan Zhang – Core における改善。Core および SQL における新機能。
  • Zhang, Liye – Core におけるドキュメント。Core および Web UI におけるバグ修正。
  • Zhichao Li – Streaming, Web UI, Core におけるバグ修正
  • Zhichao Zhang – SQL における改善。Streaming におけるバグ修正。Core におけるドキュメント。
  • Zhongshuai Pei – SQL における改善とバグ修正
  • Zoltan Zvara – Core および YARN におけるバグ修正
  • Zongheng Yang – SparkR における新機能

貢献してくださった皆様、ありがとうございました!


Spark ニュースアーカイブ