TRANSFORM

説明

TRANSFORM 句は、ユーザー指定のコマンドまたはスクリプトを実行して入力を変換するための、Hive スタイルの変換クエリ仕様を指定するために使用されます。

Spark のスクリプト変換は 2 つのモードをサポートしています

  1. Hive サポートが無効: Spark スクリプト変換は、spark.sql.catalogImplementation=in-memory を使用して、または SparkSession.builder.enableHiveSupport() なしで実行できます。この場合、Spark はスクリプト変換を ROW FORMAT DELIMITED のみで使用し、スクリプトに渡されるすべての値を文字列として扱います。
  2. Hive サポートが有効: spark.sql.catalogImplementation=hive で Spark を実行するか、SparkSession.builder.enableHiveSupport() で Spark SQL を起動すると、Spark は Hive SerDe と ROW FORMAT DELIMITED の両方でスクリプト変換を使用できます。

構文

SELECT TRANSFORM ( expression [ , ... ] )
    [ ROW FORMAT row_format ]
    [ RECORDWRITER record_writer_class ]
    USING command_or_script [ AS ( [ col_name [ col_type ] ] [ , ... ] ) ]
    [ ROW FORMAT row_format ]
    [ RECORDREADER record_reader_class ]

パラメータ

ROW FORMAT DELIMITED の動作

Spark が ROW FORMAT DELIMITED フォーマットを使用する場合

Hive SerDe の動作

Hive サポートが有効で Hive SerDe モードが使用されている場合

CREATE TABLE person (zip_code INT, name STRING, age INT);
INSERT INTO person VALUES
    (94588, 'Zen Hui', 50),
    (94588, 'Dan Li', 18),
    (94588, 'Anil K', 27),
    (94588, 'John V', NULL),
    (94511, 'David K', 42),
    (94511, 'Aryan B.', 18),
    (94511, 'Lalit B.', NULL);

-- With specified output without data type
SELECT TRANSFORM(zip_code, name, age)
   USING 'cat' AS (a, b, c)
FROM person
WHERE zip_code > 94511;
+-------+---------+-----+
|    a  |        b|    c|
+-------+---------+-----+
|  94588|   Anil K|   27|
|  94588|   John V| NULL|
|  94588|  Zen Hui|   50|
|  94588|   Dan Li|   18|
+-------+---------+-----+

-- With specified output with data type
SELECT TRANSFORM(zip_code, name, age)
   USING 'cat' AS (a STRING, b STRING, c STRING)
FROM person
WHERE zip_code > 94511;
+-------+---------+-----+
|    a  |        b|    c|
+-------+---------+-----+
|  94588|   Anil K|   27|
|  94588|   John V| NULL|
|  94588|  Zen Hui|   50|
|  94588|   Dan Li|   18|
+-------+---------+-----+

-- Using ROW FORMAT DELIMITED
SELECT TRANSFORM(name, age)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
    NULL DEFINED AS 'NULL'
    USING 'cat' AS (name_age string)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '@'
    LINES TERMINATED BY '\n'
    NULL DEFINED AS 'NULL'
FROM person;
+---------------+
|       name_age|
+---------------+
|      Anil K,27|
|    John V,null|
|     ryan B.,18|
|     David K,42|
|     Zen Hui,50|
|      Dan Li,18|
|  Lalit B.,null|
+---------------+

-- Using Hive Serde
SELECT TRANSFORM(zip_code, name, age)
    ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
    WITH SERDEPROPERTIES (
      'field.delim' = '\t'
    )
    USING 'cat' AS (a STRING, b STRING, c STRING)
    ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
    WITH SERDEPROPERTIES (
      'field.delim' = '\t'
    )
FROM person
WHERE zip_code > 94511;
+-------+---------+-----+
|    a  |        b|    c|
+-------+---------+-----+
|  94588|   Anil K|   27|
|  94588|   John V| NULL|
|  94588|  Zen Hui|   50|
|  94588|   Dan Li|   18|
+-------+---------+-----+

-- Schema-less mode
SELECT TRANSFORM(zip_code, name, age)
    USING 'cat'
FROM person
WHERE zip_code > 94500;
+-------+----------------+
|    key|           value|
+-------+----------------+
|  94588|    Anil K    27|
|  94588|    John V    \N|
|  94511|  Aryan B.    18|
|  94511|   David K    42|
|  94588|   Zen Hui    50|
|  94588|    Dan Li    18|
|  94511|  Lalit B.    \N|
+-------+----------------+