大規模データ分析のための統合エンジン

始めよう

Apache Sparkとは?

Apache Sparkは、シングルノードマシンまたはクラスタ上で、データエンジニアリング、データサイエンス、機械学習を実行するための多言語エンジンです。
シンプル。
高速。
スケーラブル。
統合。
主な機能
Batch/streaming data
バッチ/ストリーミングデータ
お好みの言語(Python、SQL、Scala、Java、またはR)を使用して、バッチおよびリアルタイムストリーミングでデータを統合処理します。
SQL analytics
SQL分析
ダッシュボード作成およびアドホックレポート用の高速分散ANSI SQLクエリを実行します。ほとんどのデータウェアハウスよりも高速に実行されます。
Data science at scale
大規模なデータサイエンス
ダウンサンプリングに頼ることなく、ペタバイト規模のデータに対して探索的データ分析(EDA)を実行します。
Machine Learning
機械学習
ノートパソコンで機械学習アルゴリズムをトレーニングし、同じコードを使用して、数千台の耐障害性クラスタにスケールできます。
スケーラブルなコンピューティングのための最も広く使用されているエンジン
Fortune 500企業の80%を含む数千社がApache Sparkを使用しています。
業界と学術界から、オープンソースプロジェクトに2,000人以上の貢献者がいます。
エコシステム
Apache Sparkはお気に入りのフレームワークと統合され、それらを数千台のマシンにスケールするのに役立ちます。
データサイエンスと機械学習
SQL分析とBI
ストレージとインフラストラクチャ
Spark SQLエンジン:舞台裏
Apache Sparkは、大規模データ用の高度な分散SQLエンジン上に構築されています。
適応クエリ実行

Spark SQLは、リデューサーの数や結合アルゴリズムの自動設定など、実行時に実行計画を適応させます。

ANSI SQLのサポート

すでに使い慣れているSQLを使用してください。

構造化データと非構造化データ

Spark SQLは、構造化テーブルとJSONや画像などの非構造化データで動作します。

適応クエリ実行の有無によるTPC-DS 1TB No-Stats
TPC-DSクエリを最大8倍高速化
コミュニティに参加する
Sparkには活気のあるオープンソースコミュニティがあり、世界中の貢献者が機能、ドキュメントを作成し、他のユーザーを支援しています。