SparkがCloudSortベンチマークで最も効率的なエンジンとして勝利

2016 CloudSortベンチマーク(DaytonaおよびIndyカテゴリの両方)でApache Sparkが勝利したことを発表できることを誇りに思います。南京大学、Alibaba Group、Databricks Inc.の合同チームが、Sparkの上に構築された分散ソートプログラムであるNADSortを使用してコンペティションに参加し、100TBのデータをソートする最もコスト効率の良い方法として新たな世界記録を樹立しました。

彼らは、パブリッククラウドリソース144米ドル相当のみを使用して100TBのデータをソートし、カリフォルニア大学サンディエゴ校が記録した451米ドルの以前の記録を上回りました。

これは、Sparkが勝利した2014年のGraySort記録に加えられるものであり、Sparkが最も効率的なデータ処理エンジンであることを証明するものです。

詳細については、SparkコミュニティメンテナーであるReynold Xinが執筆したDatabricksのブログ記事(英語)または南京大学のプレスリリース(中国語)をご覧ください。


Spark ニュースアーカイブ