CREATE FUNCTION

説明

CREATE FUNCTION ステートメントは、Spark に一時関数または永続関数を作成するために使用されます。一時関数はセッションレベルでスコープが設定されますが、永続関数は永続カタログに作成され、すべてのセッションで使用できます。USING 句で指定されたリソースは、初めて実行されるときにすべての実行プログラムで使用できるようになります。 SQLインターフェースに加えて、Sparkでは、Scala、Python、および Java API を使用してカスタムユーザー定義のスカラー関数と集計関数を作成できます。詳細については、スカラー UDF および UDAF を参照してください。

構文

CREATE [ OR REPLACE ] [ TEMPORARY ] FUNCTION [ IF NOT EXISTS ]
    function_name AS class_name [ resource_locations ]

パラメータ

OR REPLACE

指定した場合、関数のリソースがリロードされます。これは主に、関数の implemented に加えられた変更を反映するために役立ちます。このパラメータは IF NOT EXISTS と相互に排他的であり、一緒に指定することはできません。
TEMPORARY

作成される関数のスコープを示します。TEMPORARY が指定されている場合、作成された関数は現在のセッションで有効で、表示されます。これらの種類の関数については、カタログに永続的なエントリは作成されません。
IF NOT EXISTS

指定した場合、関数が存在しない場合にのみ関数を作成します。指定された関数がシステムに既に存在する場合、関数の作成は成功します (エラーはスローされません)。このパラメータは OR REPLACE と相互に排他的であり、一緒に指定することはできません。
function_name

作成する関数の名前を指定します。関数名には、オプションでデータベース名を付けることができます。

構文: [ database_name. ] function_name
class_name

作成される関数の implemented を提供するクラスの名前を指定します。 implemented するクラスは、次のように基底クラスのいずれかを拡張する必要があります。
- org.apache.hadoop.hive.ql.exec パッケージの UDF または UDAF を拡張する必要があります。
- org.apache.hadoop.hive.ql.udf.generic パッケージの AbstractGenericUDAFResolver、GenericUDF、または GenericUDTF を拡張する必要があります。
- org.apache.spark.sql.expressions パッケージの UserDefinedAggregateFunction を拡張する必要があります。
resource_locations

関数の implemented とその依存関係を含むリソースのリストを指定します。

構文: USING { { (JAR | FILE | ARCHIVE) resource_uri } , ... }

例

-- 1. Create a simple UDF `SimpleUdf` that increments the supplied integral value by 10.
--    import org.apache.hadoop.hive.ql.exec.UDF;
--    public class SimpleUdf extends UDF {
--      public int evaluate(int value) {
--        return value + 10;
--      }
--    }
-- 2. Compile and place it in a JAR file called `SimpleUdf.jar` in /tmp.

-- Create a table called `test` and insert two rows.
CREATE TABLE test(c1 INT);
INSERT INTO test VALUES (1), (2);

-- Create a permanent function called `simple_udf`. 
CREATE FUNCTION simple_udf AS 'SimpleUdf'
    USING JAR '/tmp/SimpleUdf.jar';

-- Verify that the function is in the registry.
SHOW USER FUNCTIONS;
+------------------+
|          function|
+------------------+
|default.simple_udf|
+------------------+

-- Invoke the function. Every selected value should be incremented by 10.
SELECT simple_udf(c1) AS function_return_value FROM test;
+---------------------+
|function_return_value|
+---------------------+
|                   11|
|                   12|
+---------------------+

-- Created a temporary function.
CREATE TEMPORARY FUNCTION simple_temp_udf AS 'SimpleUdf' 
    USING JAR '/tmp/SimpleUdf.jar';

-- Verify that the newly created temporary function is in the registry.
-- Please note that the temporary function does not have a qualified
-- database associated with it.
SHOW USER FUNCTIONS;
+------------------+
|          function|
+------------------+
|default.simple_udf|
|   simple_temp_udf|
+------------------+

-- 1. Modify `SimpleUdf`'s implementation to add supplied integral value by 20.
--    import org.apache.hadoop.hive.ql.exec.UDF;
  
--    public class SimpleUdfR extends UDF {
--      public int evaluate(int value) {
--        return value + 20;
--      }
--    }
-- 2. Compile and place it in a jar file called `SimpleUdfR.jar` in /tmp.

-- Replace the implementation of `simple_udf`
CREATE OR REPLACE FUNCTION simple_udf AS 'SimpleUdfR'
    USING JAR '/tmp/SimpleUdfR.jar';

-- Invoke the function. Every selected value should be incremented by 20.
SELECT simple_udf(c1) AS function_return_value FROM test;
+---------------------+
|function_return_value|
+---------------------+
|                   21|
|                   22|
+---------------------+

Spark SQL ガイド

CREATE FUNCTION

説明

構文

パラメータ

例

関連ステートメント