大規模データ分析のための統合エンジン

はじめに

Apache Spark™とは?

Apache Spark™は、シングルノードマシンまたはクラスタ上で、データエンジニアリング、データサイエンス、機械学習を実行するためのマルチ言語エンジンです。
シンプル。
高速。
スケーラブル。
統合。
主な機能
Batch/streaming data
バッチ/ストリーミングデータ
Python、SQL、Scala、Java、Rなど、お好みの言語を使用して、バッチ処理とリアルタイムストリーミング処理を統合します。
SQL analytics
SQL分析
ダッシュボードやアドホックレポート作成のために、高速で分散されたANSI SQLクエリを実行します。ほとんどのデータウェアハウスよりも高速に動作します。
Data science at scale
大規模データサイエンス
ダウンサンプリングに頼ることなく、ペタバイト規模のデータに対して探索的データ分析(EDA)を実行します。
Machine Learning
機械学習
ラップトップで機械学習アルゴリズムをトレーニングし、同じコードを使用して、数千台のマシンの耐障害性クラスタにスケールアップします。
スケーラブルコンピューティングで最も広く使用されているエンジン
Fortune 500企業の80%を含む数千社がApache Spark™を使用しています。
業界および学術界から2,000人以上のオープンソースプロジェクトへの貢献者。
エコシステム
Apache Spark™は、お気に入りのフレームワークと統合し、それらを数千台のマシンにスケールアップするのに役立ちます。
データサイエンスと機械学習
SQL分析とBI
ストレージとインフラストラクチャ
Spark SQLエンジン:内部構造
Apache Spark™は、大規模データ用の高度な分散SQLエンジン上に構築されています。
アダプティブクエリ実行

Spark SQLは、リデューサーの数や結合アルゴリズムの自動設定など、実行プランをランタイムで適応させます。

ANSI SQLのサポート

使い慣れたSQLを使用できます。

構造化データと非構造化データ

Spark SQLは、構造化テーブルやJSONや画像などの非構造化データで機能します。

TPC-DS 1TB No-Stats With vs. Without Adaptive Query Execution
TPC-DSクエリを最大8倍高速化
コミュニティに参加する
Sparkには活気のあるオープンソースコミュニティがあり、世界中の貢献者が機能、ドキュメントを作成し、他のユーザーを支援しています。