Spark SQL# PySparkにおけるApache Arrow PyArrow のインストールを確認する Arrow Table との相互変換 Pandas との相互変換を有効にする Pandas UDF (別名 Vectorized UDF) Pandas 関数 API Arrow Python UDF 使用上の注意 Pythonユーザー定義テーブル関数 (UDTF) Python UDTF の実装 出力スキーマの定義 出力行の発行 SQL での Python UDTF の登録と使用 Arrow 最適化 スカラー引数を使用した UDTF の例 入力テーブル引数を受け入れる PythonデータソースAPI 概要 簡単な例 Python データソースの作成 Python データソースのバッチリーダーとライターの実装 Python データソースのストリーミングリーダーとライターの実装 シリアライゼーション要件 Python データソースの使用 パフォーマンス向上のための直接 Arrow Batch をサポートする Python データソースリーダー 使用上の注意 PythonからSparkへの型変換 型変換の参照 設定 すべての変換 実践的な変換 - UDF 実践的な変換 - DataFrame の作成 実践的な変換 - ネストされたデータ型