SQLクエリとSparkプログラムをシームレスに混在させることができます。
Spark SQLを使用すると、SQLまたは使い慣れたDataFrame APIを使用して、Sparkプログラム内で構造化データをクエリできます。Java、Scala、Python、Rで使用できます。
あらゆるデータソースに同じ方法で接続します。
DataFramesとSQLは、Hive、Avro、Parquet、ORC、JSON、JDBCなど、さまざまなデータソースにアクセスするための共通の方法を提供します。これらのソース間でデータを結合することもできます。
既存のウェアハウスでSQLまたはHiveQLクエリを実行します。
Spark SQLはHiveQL構文に加えて、Hive SerDesとUDFをサポートしており、既存のHiveウェアハウスにアクセスできます。
JDBCまたはODBC経由で接続します。
サーバーモードは、ビジネスインテリジェンスツール向けの業界標準のJDBCおよびODBC接続を提供します。
Spark SQLには、コストベースのオプティマイザ、カラムナーストレージ、コード生成が含まれており、クエリを高速化します。同時に、Sparkエンジンを使用して数千ノードと数時間かかるクエリにスケールし、クエリ全体のフォールトトレランスを提供します。履歴データに異なるエンジンを使用することについて心配する必要はありません。
Spark SQLはApache Sparkの一部として開発されています。そのため、各Sparkリリースでテストおよび更新されます。
システムに関するご質問は、Sparkメーリングリストでお尋ねください。
Spark SQL開発者は貢献を歓迎します。お手伝いしたい場合は、Sparkへの貢献方法をお読みになり、パッチを送信してください!
Spark SQLを使い始めるには