関数

Spark SQL には、組み込み関数とユーザー定義関数(UDF)という 2 つの関数機能が備わっており、幅広いユーザーのニーズに対応しています。組み込み関数は、Spark SQL が事前に定義したよく使用されるルーチンであり、関数の完全なリストは 組み込み関数 API ドキュメントにあります。UDF を使用すると、システムの組み込み関数では目的のタスクを実行できない場合に、独自関数を定義できます。

組み込み関数

Spark SQL には、集計、配列/マップ、日付/タイムスタンプ、および JSON データ用のカテゴリがあります。このサブセクションでは、これらの関数の使用方法と説明を示します。

スカラー関数

集計のような関数

ジェネレータ関数

UDF(ユーザー定義関数)

ユーザー定義関数(UDF)は、システムの組み込み関数では目的のタスクを実行できない場合に、独自関数を定義できる Spark SQL の機能です。Spark SQL で UDF を使用するには、最初にその関数を定義し、次にその関数を Spark に登録し、最後に登録した関数を呼び出す必要があります。ユーザー定義関数は、1 つの行または複数の行を一度に実行できます。Spark SQL は、UDF、UDAF、および UDTF の既存の Hive 実装の統合もサポートしています。