Sparkが2014 Gray Sort Benchmark(Daytona 100TBカテゴリ)で優勝したことを発表できることを誇りに思います。Databricksの、SparkコミッターであるReynold Xin、Xiangrui Meng、Matei Zahariaを含むチームが、Sparkを使用してベンチマークに挑戦しました。SparkはUCSDのThemisチームと同率優勝し、共同でソートにおける新たな世界記録を樹立しました。
彼らはSparkを使用し、206台のEC2 i2.8xlargeマシンで100TBのデータを23分でソートしました。以前の世界記録は、2100ノードのHadoop MapReduceクラスターによって樹立された72分でした。これは、Sparkが10倍少ないマシンで、同じデータを3倍速くソートしたことを意味します。ソートはすべてディスク(HDFS)上で行われ、Sparkのインメモリキャッシュは使用していません。
ソートにおける大規模なHadoop MapReduceクラスターを凌駕することは、Sparkコミュニティによって行われたビジョンと作業を検証するだけでなく、Sparkがあらゆる規模のデータ処理において、より高速でスケーラブルなエンジンとしての約束を果たしていることを実証しています。
詳細については、Reynold Xinが執筆したDatabricksのブログ記事をご覧ください。