Apache Spark™ - 大規模データ分析のための統合エンジン

シンプル。
高速。
スケーラブル。
統合。

主な機能

バッチ/ストリーミングデータ

Python、SQL、Scala、Java、Rなど、お好みの言語を使用して、バッチ処理とリアルタイムストリーミング処理を統合します。

SQL分析

ダッシュボードやアドホックレポート作成のために、高速で分散されたANSI SQLクエリを実行します。ほとんどのデータウェアハウスよりも高速に動作します。

大規模データサイエンス

ダウンサンプリングに頼ることなく、ペタバイト規模のデータに対して探索的データ分析（EDA）を実行します。

機械学習

ラップトップで機械学習アルゴリズムをトレーニングし、同じコードを使用して、数千台のマシンの耐障害性クラスタにスケールアップします。

今すぐ実行

'pip'でインストール

$ pip install pyspark

$ pyspark

公式Dockerイメージを使用する

$ docker run -it --rm spark:python3 /opt/spark/bin/pyspark

df = spark.read.json("logs.json")
df.where("age > 21").select("name.first").show()

# Every record contains a label and feature vector
df = spark.createDataFrame(data, ["label", "features"])

# Split the data into train/test datasets
train_df, test_df = df.randomSplit([.80, .20], seed=42)

# Set hyperparameters for the algorithm
rf = RandomForestRegressor(numTrees=100)

# Fit the model to the training data
model = rf.fit(train_df)

# Generate predictions on the test dataset.
model.transform(test_df).show()

df = spark.read.csv("accounts.csv", header=True)

# Select subset of features and filter for balance > 0
filtered_df = df.select("AccountBalance", "CountOfDependents").filter("AccountBalance > 0")

# Generate summary statistics
filtered_df.summary().show()

今すぐ実行

$ docker run -it --rm spark /opt/spark/bin/spark-sql

spark-sql>

SELECT
  name.first AS first_name,
  name.last AS last_name,
  age
FROM json.`logs.json`
  WHERE age > 21;

今すぐ実行

$ docker run -it --rm spark /opt/spark/bin/spark-shell

scala>

val df = spark.read.json("logs.json")
df.where("age > 21")
  .select("name.first").show()

今すぐ実行

$ docker run -it --rm spark /opt/spark/bin/spark-shell

scala>

Dataset df = spark.read().json("logs.json");
df.where("age > 21")
  .select("name.first").show();

今すぐ実行

$ docker run -it --rm spark:r /opt/spark/bin/sparkR

df <- read.json(path = "logs.json")
df <- filter(df, df$age > 21)
head(select(df, df$name.first))

大規模データ分析のための統合エンジン

Apache Spark™とは？