CREATE HIVEFORMAT TABLE
説明
CREATE TABLE ステートメントは、Hive フォーマットを使用して新しいテーブルを定義します。
構文
CREATE [ EXTERNAL ] TABLE [ IF NOT EXISTS ] table_identifier
[ ( col_name1[:] col_type1 [ COMMENT col_comment1 ], ... ) ]
[ COMMENT table_comment ]
[ PARTITIONED BY ( col_name2[:] col_type2 [ COMMENT col_comment2 ], ... )
| ( col_name1, col_name2, ... ) ]
[ CLUSTERED BY ( col_name1, col_name2, ...)
[ SORTED BY ( col_name1 [ ASC | DESC ], col_name2 [ ASC | DESC ], ... ) ]
INTO num_buckets BUCKETS ]
[ ROW FORMAT row_format ]
[ STORED AS file_format ]
[ LOCATION path ]
[ TBLPROPERTIES ( key1=val1, key2=val2, ... ) ]
[ AS select_statement ]
注: 列定義句と AS SELECT 句の間の句は、任意の順序で指定できます。たとえば、`TBLPROPERTIES` の後に `COMMENT table_comment` を記述することができます。
パラメータ
-
table_identifier
データベース名でオプションで修飾できるテーブル名を指定します。
構文:
[ database_name. ] table_name -
EXTERNAL
テーブルは
LOCATIONとして指定されたパスを使用して定義され、このテーブルのデフォルトの場所は使用されません。 -
PARTITIONED BY
指定された列に基づいて、テーブルにパーティションが作成されます。
-
CLUSTERED BY
テーブルに作成されたパーティションは、バケット化のために指定された列に基づいて、固定バケットにバケット化されます。
注: バケット化は、バケット(およびバケット化列)を使用してデータパーティションを決定し、データシャッフルを回避する最適化手法です。
-
SORTED BY
バケット列の順序を指定します。オプションで、`SORTED BY` 句の列名の後に ASC を昇順に使用するか、DESC を降順に使用できます。指定しない場合、デフォルトで ASC が想定されます。
-
INTO num_buckets BUCKETS
CLUSTERED BY句で使用されるバケット番号を指定します。 -
row_format
入力および出力の行フォーマットを指定します。構文の詳細については、HIVE FORMAT を参照してください。
-
STORED AS
テーブルストレージのファイルフォーマット。TEXTFILE、ORC、PARQUET などが考えられます。
-
LOCATION
テーブルデータが格納されるディレクトリへのパス。HDFS などの分散ストレージへのパスである可能性があります。
-
COMMENT
テーブルを説明するための文字列リテラル。
-
TBLPROPERTIES
テーブル定義にタグを付けるために使用されるキーと値のペアのリスト。
-
AS select_statement
テーブルは、select ステートメントからのデータを使用して作成されます。
例
--Use hive format
CREATE TABLE student (id INT, name STRING, age INT) STORED AS ORC;
--Use data from another table
CREATE TABLE student_copy STORED AS ORC
AS SELECT * FROM student;
--Specify table comment and properties
CREATE TABLE student (id INT, name STRING, age INT)
COMMENT 'this is a comment'
STORED AS ORC
TBLPROPERTIES ('foo'='bar');
--Specify table comment and properties with different clauses order
CREATE TABLE student (id INT, name STRING, age INT)
STORED AS ORC
TBLPROPERTIES ('foo'='bar')
COMMENT 'this is a comment';
--Create partitioned table
CREATE TABLE student (id INT, name STRING)
PARTITIONED BY (age INT)
STORED AS ORC;
--Create partitioned table with different clauses order
CREATE TABLE student (id INT, name STRING)
STORED AS ORC
PARTITIONED BY (age INT);
--Use Row Format and file format
CREATE TABLE student (id INT, name STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
--Use complex datatype
CREATE EXTERNAL TABLE family(
name STRING,
friends ARRAY<STRING>,
children MAP<STRING, INT>,
address STRUCT<street: STRING, city: STRING>
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ESCAPED BY '\\'
COLLECTION ITEMS TERMINATED BY '_'
MAP KEYS TERMINATED BY ':'
LINES TERMINATED BY '\n'
NULL DEFINED AS 'foonull'
STORED AS TEXTFILE
LOCATION '/tmp/family/';
--Use predefined custom SerDe
CREATE TABLE avroExample
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
TBLPROPERTIES ('avro.schema.literal'='{ "namespace": "org.apache.hive",
"name": "first_schema",
"type": "record",
"fields": [
{ "name":"string1", "type":"string" },
{ "name":"string2", "type":"string" }
] }');
--Use personalized custom SerDe(we may need to `ADD JAR xxx.jar` first to ensure we can find the serde_class,
--or you may run into `CLASSNOTFOUND` exception)
ADD JAR /tmp/hive_serde_example.jar;
CREATE EXTERNAL TABLE family (id INT, name STRING)
ROW FORMAT SERDE 'com.ly.spark.serde.SerDeExample'
STORED AS INPUTFORMAT 'com.ly.spark.example.serde.io.SerDeExampleInputFormat'
OUTPUTFORMAT 'com.ly.spark.example.serde.io.SerDeExampleOutputFormat'
LOCATION '/tmp/family/';
--Use `CLUSTERED BY` clause to create bucket table without `SORTED BY`
CREATE TABLE clustered_by_test1 (ID INT, AGE STRING)
CLUSTERED BY (ID)
INTO 4 BUCKETS
STORED AS ORC;
--Use `CLUSTERED BY` clause to create bucket table with `SORTED BY`
CREATE TABLE clustered_by_test2 (ID INT, NAME STRING)
PARTITIONED BY (YEAR STRING)
CLUSTERED BY (ID, NAME)
SORTED BY (ID ASC)
INTO 3 BUCKETS
STORED AS PARQUET;