Java, Scala, Python, R で利用可能です。
MLlib は Spark の API に適合し、Python では NumPy (Spark 0.9 以降) や R ライブラリ (Spark 1.5 以降) と相互運用できます。HDFS, HBase, ローカルファイルなど、あらゆる Hadoop データソースを使用できるため、Hadoop ワークフローへの組み込みが容易です。
高品質なアルゴリズム、MapReduce より 100 倍高速。
Spark は反復計算に優れているため、MLlib を高速に実行できます。同時に、アルゴリズムのパフォーマンスも重視しており、MLlib には反復処理を活用する高品質なアルゴリズムが含まれており、MapReduce で使用されることがあるワンパス近似よりも優れた結果が得られます。
Spark は Hadoop、Apache Mesos、Kubernetes、スタンドアロン、またはクラウド上で、多様なデータソースに対して実行できます。
Spark は、スタンドアロンクラスタモード、EC2、Hadoop YARN、Mesos、または Kubernetes 上で実行できます。HDFS、Apache Cassandra、Apache HBase、Apache Hive、および数百の他のデータソースにアクセスできます。
MLlib には、多くのアルゴリズムとユーティリティが含まれています。
ML アルゴリズムには以下が含まれます。
ML ワークフローユーティリティには以下が含まれます。
その他のユーティリティには以下が含まれます。
使用例については、MLlib ガイドを参照してください。
MLlib は Apache Spark プロジェクトの一部として開発されています。そのため、Spark の各リリースでテストおよび更新されます。
ライブラリに関する質問は、Spark メーリングリストにお寄せください。
MLlib は急速に成長しているプロジェクトであり、貢献を歓迎します。MLlib にアルゴリズムを提出したい場合は、Spark への貢献方法をお読みになり、パッチをお送りください。
MLlib を使い始めるには