SQL クエリと Spark プログラムをシームレスに混在させる。
Spark SQL を使用すると、Java、Scala、Python、R で、SQL または使い慣れた DataFrame API を使って、Spark プログラム内の構造化データをクエリできます。
あらゆるデータソースに同じ方法で接続する。
DataFrames と SQL は、Hive、Avro、Parquet、ORC、JSON、JDBC を含むさまざまなデータソースにアクセスするための共通の方法を提供します。これらのソース間でデータを結合することもできます。
既存のウェアハウスで SQL または HiveQL クエリを実行する。
Spark SQL は HiveQL 構文、Hive SerDes、UDF をサポートしており、既存の Hive ウェアハウスにアクセスできます。
JDBC または ODBC 経由で接続する。
サーバーモードは、ビジネスインテリジェンスツール向けの業界標準の JDBC および ODBC 接続を提供します。
Spark SQL には、コストベースのオプティマイザー、列指向ストレージ、コード生成機能が搭載されており、クエリを高速化します。同時に、Spark エンジンを使用して数千ノードや数時間かかるクエリにもスケーリングし、クエリ実行中の耐障害性も提供します。履歴データに別のエンジンを使用することを心配する必要はありません。
Spark SQL は Apache Spark の一部として開発されています。そのため、各 Spark リリースでテストおよび更新されます。
システムに関する質問は、Spark メーリングリストにお尋ねください。
Spark SQL 開発者は貢献を歓迎します。参加をご希望の方は、Spark への貢献方法をお読みになり、パッチをお送りください!
Spark SQL の開始方法