TRANSFORM

説明

TRANSFORM 句は、ユーザー指定のコマンドまたはスクリプトを実行して入力を変換するための、Hive スタイルの変換クエリ仕様を指定するために使用されます。

Spark のスクリプト変換は 2 つのモードをサポートしています

Hive サポートが無効: Spark スクリプト変換は、spark.sql.catalogImplementation=in-memory を使用して、または SparkSession.builder.enableHiveSupport() なしで実行できます。この場合、Spark はスクリプト変換を ROW FORMAT DELIMITED のみで使用し、スクリプトに渡されるすべての値を文字列として扱います。
Hive サポートが有効: spark.sql.catalogImplementation=hive で Spark を実行するか、SparkSession.builder.enableHiveSupport() で Spark SQL を起動すると、Spark は Hive SerDe と ROW FORMAT DELIMITED の両方でスクリプト変換を使用できます。

構文

SELECT TRANSFORM ( expression [ , ... ] )
    [ ROW FORMAT row_format ]
    [ RECORDWRITER record_writer_class ]
    USING command_or_script [ AS ( [ col_name [ col_type ] ] [ , ... ] ) ]
    [ ROW FORMAT row_format ]
    [ RECORDREADER record_reader_class ]

パラメータ

式 (expression)

値、演算子、SQL 関数の 1 つ以上を組み合わせたもので、結果として値が得られます。
row_format

入力と出力の行フォーマットを指定します。詳細な構文については、HIVE FORMAT を参照してください。
RECORDWRITER

カスタム RecordWriter の完全修飾クラス名を指定します。デフォルト値は org.apache.hadoop.hive.ql.exec.TextRecordWriter です。
RECORDREADER

カスタム RecordReader の完全修飾クラス名を指定します。デフォルト値は org.apache.hadoop.hive.ql.exec.TextRecordReader です。
command_or_script

データを処理するコマンドまたはスクリプトへのパスを指定します。

ROW FORMAT DELIMITED の動作

Spark が ROW FORMAT DELIMITED フォーマットを使用する場合

Spark は、デフォルトで文字 \u0001 をフィールド区切り文字として使用し、この区切り文字は FIELDS TERMINATED BY によって上書きできます。
Spark は、デフォルトで文字 \n を行区切り文字として使用し、この区切り文字は LINES TERMINATED BY によって上書きできます。
Spark は、リテラル文字列 NULL 値と区別するために、文字列 \N をデフォルトの NULL 値として使用します。この区切り文字は NULL DEFINED AS によって上書きできます。
Spark は、すべての列を STRING にキャストし、タブで結合してからユーザースクリプトに渡します。 ARRAY/MAP/STRUCT などの複合型の場合、Spark は to_json を使用して JSON 文字列にキャストし、from_json を使用して結果の JSON 文字列を ARRAY/MAP/STRUCT データに変換します。
COLLECTION ITEMS TERMINATED BY および MAP KEYS TERMINATED BY は、ARRAY/MAP/STRUCT などの複合データを分割するための区切り文字です。Spark は to_json および from_json を使用して JSON フォーマットで複合データ型を処理します。そのため、COLLECTION ITEMS TERMINATED BY および MAP KEYS TERMINATED BY は、デフォルトの行フォーマットでは機能しません。
ユーザースクリプトの標準出力は、タブ区切りの STRING 列として扱われます。文字列 \N のみを含むセルは、リテラル NULL 値として再解釈され、結果の STRING 列は col_type で指定されたデータ型にキャストされます。

実際の出力列数が指定された出力列数よりも少ない場合、追加の出力列は NULL で埋められます。たとえば

  output tabs: 1, 2
  output columns: A: INT, B INT, C: INT
  result: 
    +---+---+------+
    |  a|  b|     c|
    +---+---+------+
    |  1|  2|  NULL|
    +---+---+------+

実際の出力列数が指定された出力列数よりも多い場合、出力列は対応する列のみを選択し、残りの部分は破棄されます。たとえば、出力に 3 つのタブがあり、出力列が 2 つしかない場合
```
  output tabs: 1, 2, 3
  output columns: A: INT, B INT
  result: 
    +---+---+
    |  a|  b|
    +---+---+
    |  1|  2|
    +---+---+
```
USING my_script の後に AS 句がない場合、出力スキーマは key: STRING, value: STRING になります。key 列には最初のタブより前のすべての文字が含まれ、value 列には最初のタブより後の残りの文字が含まれます。タブがない場合、Spark は NULL 値を返します。たとえば
```
   output tabs: 1, 2, 3
   output columns: 
   result: 
     +-----+-------+
     |  key|  value|
     +-----+-------+
     |    1|      2|
     +-----+-------+
   
   output tabs: 1, 2
   output columns: 
   result: 
     +-----+-------+
     |  key|  value|
     +-----+-------+
     |    1|   NULL|
     +-----+-------+
```

Hive SerDe の動作

Hive サポートが有効で Hive SerDe モードが使用されている場合

Spark はデフォルトで Hive SerDe org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe を使用するため、列は STRING にキャストされ、タブで結合されてからユーザースクリプトに渡されます。
すべて Literal NULL 値は、リテラル NULL 値とリテラル文字列 NULL を区別するために、文字列 \N に変換されます。
ユーザースクリプトの標準出力は、タブ区切りの STRING 列として扱われます。文字列 \N のみを含むセルは NULL 値として再解釈され、結果の STRING 列は col_type で指定されたデータ型にキャストされます。
実際の出力列数が指定された出力列数よりも少ない場合、追加の出力列は NULL で埋められます。
実際の出力列数が指定された出力列数よりも多い場合、出力列は対応する列のみを選択し、残りの部分は破棄されます。
USING my_script の後に AS 句がない場合、出力スキーマは key: STRING, value: STRING になります。key 列には最初のタブより前のすべての文字が含まれ、value 列には最初のタブより後の残りの文字が含まれます。タブがない場合、Spark は NULL 値を返します。
これらのデフォルトは、ROW FORMAT SERDE または ROW FORMAT DELIMITED を使用して上書きできます。

例

CREATE TABLE person (zip_code INT, name STRING, age INT);
INSERT INTO person VALUES
    (94588, 'Zen Hui', 50),
    (94588, 'Dan Li', 18),
    (94588, 'Anil K', 27),
    (94588, 'John V', NULL),
    (94511, 'David K', 42),
    (94511, 'Aryan B.', 18),
    (94511, 'Lalit B.', NULL);

-- With specified output without data type
SELECT TRANSFORM(zip_code, name, age)
   USING 'cat' AS (a, b, c)
FROM person
WHERE zip_code > 94511;
+-------+---------+-----+
|    a  |        b|    c|
+-------+---------+-----+
|  94588|   Anil K|   27|
|  94588|   John V| NULL|
|  94588|  Zen Hui|   50|
|  94588|   Dan Li|   18|
+-------+---------+-----+

-- With specified output with data type
SELECT TRANSFORM(zip_code, name, age)
   USING 'cat' AS (a STRING, b STRING, c STRING)
FROM person
WHERE zip_code > 94511;
+-------+---------+-----+
|    a  |        b|    c|
+-------+---------+-----+
|  94588|   Anil K|   27|
|  94588|   John V| NULL|
|  94588|  Zen Hui|   50|
|  94588|   Dan Li|   18|
+-------+---------+-----+

-- Using ROW FORMAT DELIMITED
SELECT TRANSFORM(name, age)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
    NULL DEFINED AS 'NULL'
    USING 'cat' AS (name_age string)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '@'
    LINES TERMINATED BY '\n'
    NULL DEFINED AS 'NULL'
FROM person;
+---------------+
|       name_age|
+---------------+
|      Anil K,27|
|    John V,null|
|     ryan B.,18|
|     David K,42|
|     Zen Hui,50|
|      Dan Li,18|
|  Lalit B.,null|
+---------------+

-- Using Hive Serde
SELECT TRANSFORM(zip_code, name, age)
    ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
    WITH SERDEPROPERTIES (
      'field.delim' = '\t'
    )
    USING 'cat' AS (a STRING, b STRING, c STRING)
    ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
    WITH SERDEPROPERTIES (
      'field.delim' = '\t'
    )
FROM person
WHERE zip_code > 94511;
+-------+---------+-----+
|    a  |        b|    c|
+-------+---------+-----+
|  94588|   Anil K|   27|
|  94588|   John V| NULL|
|  94588|  Zen Hui|   50|
|  94588|   Dan Li|   18|
+-------+---------+-----+

-- Schema-less mode
SELECT TRANSFORM(zip_code, name, age)
    USING 'cat'
FROM person
WHERE zip_code > 94500;
+-------+----------------+
|    key|           value|
+-------+----------------+
|  94588|    Anil K    27|
|  94588|    John V    \N|
|  94511|  Aryan B.    18|
|  94511|   David K    42|
|  94588|   Zen Hui    50|
|  94588|    Dan Li    18|
|  94511|  Lalit B.    \N|
+-------+----------------+

Spark SQL ガイド

TRANSFORM

説明

構文

パラメータ

ROW FORMAT DELIMITED の動作

Hive SerDe の動作

例

関連ステートメント