Java、Scala、Python、およびRで使用できます。
MLlibはSparkのAPIに適合し、PythonのNumPy(Spark 0.9以降)およびRライブラリ(Spark 1.5以降)と相互運用します。Hadoopデータソース(HDFS、HBase、ローカルファイルなど)を使用できるため、Hadoopワークフローに簡単に組み込むことができます。
高品質なアルゴリズム、MapReduceより100倍高速。
Sparkは反復計算に優れており、MLlibの高速実行を可能にします。同時に、アルゴリズムのパフォーマンスにも配慮しています。MLlibには、反復を活用する高品質なアルゴリズムが含まれており、MapReduceで使用されることがあるワンパス近似よりも優れた結果が得られます。
Sparkは、Hadoop、Apache Mesos、Kubernetes、スタンドアロン、またはクラウドで、さまざまなデータソースに対して実行できます。
Sparkは、スタンドアロンクラスターモード、EC2、Hadoop YARN、Mesos、またはKubernetesを使用して実行できます。HDFS、Apache Cassandra、Apache HBase、Apache Hive、および数百もの他のデータソースのデータにアクセスできます。
MLlibには、多くのアルゴリズムとユーティリティが含まれています。
MLアルゴリズムには以下が含まれます
MLワークフローユーティリティには以下が含まれます
その他のユーティリティには以下が含まれます
使用例については、MLlibガイドを参照してください。
MLlibは、Apache Sparkプロジェクトの一部として開発されています。そのため、Sparkの各リリースでテストおよび更新されます。
ライブラリについて質問がある場合は、Sparkメーリングリストでお問い合わせください。
MLlibは依然として急速に成長しているプロジェクトであり、貢献を歓迎します。MLlibにアルゴリズムを送信したい場合は、Sparkへの貢献方法を読んで、パッチを送信してください!
MLlibを使い始めるには