関数

Spark SQL は、ユーザーの幅広いニーズに応えるために、組み込み関数とユーザー定義関数 (UDF) の 2 つの関数機能を提供しています。組み込み関数は、Spark SQL が事前定義した一般的なルーチンであり、関数の完全なリストは、組み込み関数 API ドキュメントで見つけることができます。UDF は、システムの組み込み関数では目的のタスクを実行するのに十分でない場合に、ユーザーが独自の関数を定義できるようにします。

組み込み関数

Spark SQL には、集計、配列/マップ、日付/タイムスタンプ、JSON データのために、頻繁に使用される組み込み関数のいくつかのカテゴリがあります。このサブセクションでは、これらの関数の使用法と説明を示します。

スカラ関数

集計ライク関数

ジェネレータ関数

UDF (ユーザー定義関数)

ユーザー定義関数 (UDF) は、システムの組み込み関数では目的のタスクを実行するのに十分でない場合に、ユーザーが独自の関数を定義できる Spark SQL の機能です。Spark SQL で UDF を使用するには、ユーザーはまず関数を定義し、次に Spark に関数を登録し、最後に登録した関数を呼び出す必要があります。ユーザー定義関数は、単一行に対して機能することも、複数行を一度に処理することもできます。Spark SQL は、既存の Hive の UDF、UDAF、UDTF の実装との統合もサポートしています。