MLlib | Apache Spark

MLlibは、Apache Sparkのスケーラブルな機械学習ライブラリです。

使いやすさ

Java、Scala、Python、およびRで使用できます。

MLlibはSparkのAPIに適合し、PythonのNumPy（Spark 0.9以降）およびRライブラリ（Spark 1.5以降）と相互運用します。Hadoopデータソース（HDFS、HBase、ローカルファイルなど）を使用できるため、Hadoopワークフローに簡単に組み込むことができます。

data = spark.read.format("libsvm")\
.load("hdfs://...")

model = KMeans(k=10).fit(data)

PythonでのMLlibの呼び出し

高品質なアルゴリズム、MapReduceより100倍高速。

Sparkは反復計算に優れており、MLlibの高速実行を可能にします。同時に、アルゴリズムのパフォーマンスにも配慮しています。MLlibには、反復を活用する高品質なアルゴリズムが含まれており、MapReduceで使用されることがあるワンパス近似よりも優れた結果が得られます。

HadoopとSparkにおけるロジスティック回帰

Sparkは、Hadoop、Apache Mesos、Kubernetes、スタンドアロン、またはクラウドで、さまざまなデータソースに対して実行できます。

Sparkは、スタンドアロンクラスターモード、EC2、Hadoop YARN、Mesos、またはKubernetesを使用して実行できます。HDFS、Apache Cassandra、Apache HBase、Apache Hive、および数百もの他のデータソースのデータにアクセスできます。

MLlibには、多くのアルゴリズムとユーティリティが含まれています。

MLアルゴリズムには以下が含まれます

MLワークフローユーティリティには以下が含まれます

その他のユーティリティには以下が含まれます

使用例については、MLlibガイドを参照してください。

MLlibは、Apache Sparkプロジェクトの一部として開発されています。そのため、Sparkの各リリースでテストおよび更新されます。

ライブラリについて質問がある場合は、Sparkメーリングリストでお問い合わせください。

MLlibは依然として急速に成長しているプロジェクトであり、貢献を歓迎します。MLlibにアルゴリズムを送信したい場合は、Sparkへの貢献方法を読んで、パッチを送信してください！

MLlibを使い始めるには

Sparkをダウンロードします。MLlibはモジュールとして含まれています。
さまざまな使用例を含むMLlibガイドをお読みください。
分散モードで実行したい場合は、クラスターにSparkをデプロイする方法を学習してください。セットアップなしでマルチコアマシンでローカルに実行することもできます。