IDEのセットアップ#
PyCharm#
このセクションでは、PyCharm で PySpark をセットアップする方法について説明します。GitHub からソースコードをダウンロードし、テストコードを正常に実行するプロセスをステップバイステップでガイドします。
まず、git url を使用して GitHub から Spark ソースコードをダウンロードします。以下のコマンドのように、git clone コマンドを使用してソースコードをダウンロードできます。Spark の元のリポジトリではなく、フォークされたリポジトリからコードをダウンロードしたい場合は、url を適切に変更してください。
git clone https://github.com/apache/spark.git
ダウンロードが完了したら、spark ディレクトリに移動してパッケージをビルドします。SBT ビルドは通常、Maven よりも高速です。ビルドに関する詳細は、こちら でドキュメント化されています。
build/sbt package
ビルドが完了したら、PyCharm を実行し、パス spark/python を選択します。
PyCharm のパス python/pyspark/tests に移動し、test_join.py のようなテストを実行してみてください。環境変数がまだ設定されていないため、KeyError: 'SPARK_HOME' が表示される場合があります。
実行 -> 設定の編集 に移動し、環境変数を以下のように設定します。/.../spark ではなく、ご自身のパスを SPARK_HOME に指定してください。変数の設定が完了したら、OK をクリックして変更を適用します。
SPARK_HOME が正しく設定されると、以下のようにテストを正常に実行できるようになります。