Dataprocエンジンのセットアップガイド
Alteryx One PlatformワークスペースをDataproc Serverlessアカウントに接続して、Dataprocエンジンを有効にします。Dataprocは、ワークスペースがプライベートデータストレージとしてのGCSで設定されている場合に、Designer Cloudワークフローを実行できる分散Sparkエンジンです。ワークスペースでDataprocエンジンを有効にするには、次の手順に従います。
必要条件
Alteryx Oneのワークスペース管理者である。
Alteryx OneワークスペースにプライベートデータストレージとしてのGCSが設定されている。
Dataprocバッチ(ジョブ)を実行するためのGCPサービスアカウントがある。
ターゲットのGCPプロジェクトへの管理アクセス権を所有している。
使用するすべてのリージョンのVPCネットワークを作成している。
使用するプロジェクトで、
constraints/compute.requireOsLoginの制約をfalseに設定している。
Dataprocエンジンのセットアップガイド
Alteryx OneワークスペースでDataprocエンジンを有効にするには、次の手順に従います。
GCPサービスアカウント
必要なサービスアカウントには、次の2種類があります。
GCS用のベースストレージサービスアカウント。このアカウントは、ワークスペースモードを使用する場合にのみ必要です。Alteryx Oneは、設計時にこのアカウントを使用してGCSにアクセスし、Dataprocバッチを作成します。アカウントには、Dataprocバッチを作成および監視する権限が必要です。推奨されるロールは次のとおりです。
注記
ユーザーモードを使用している場合、Alteryx Oneではベースストレージサービスアカウントを使用しません。代わりに、Alteryx OneではSSO IDを使用してDataprocバッチを起動します。ただし、ベースストレージサービスアカウントに記載されているロールと同じロールが必要です。
Dataprocを実行するプロジェクト内のDataproc編集者(
roles/dataproc.editor)Dataprocサービスアカウントのサービスアカウントユーザー(
roles/iam.serviceAccountUser) 詳細については、GCSロールのドキュメントを参照してください。
Dataprocサービスアカウント。Alteryx Oneは、Dataprocバッチの作成時に、このサービスアカウントを引数として渡します。実行先のプロジェクトにDataprocワーカーのロール(
roles/dataproc.worker)が必要です。
GCPプロジェクトの設定
使用するGoogle Cloud Platform (GCP)プロジェクトで、constraints/compute.requireOsLoginの制約をfalseに設定します。詳細については、GCSポリシーのドキュメントを参照してください。
VPCネットワークの設定
Dataprocジョブを実行するには、VCPネットワークが設定されている必要があります。このネットワークの設定方法に関する詳細については、Dataproc Serverlessのドキュメントを参照してください。
セットアップの完了
ワークスペース管理者は、管理者コンソールからワークスペース用にDataprocを設定できます。

ワークスペース管理者セクション> [データウェアハウス] > [Dataproc]セクションに移動します。
設定フォームに入力します
プロジェクトID | Dataprocバッチは、このGoogleプロジェクト内で実行されます。 |
VPCネットワーク名 | VPCネットワークを使用(この場合、自動のサブネットを持つネットワークが使用されているため、サブネット名を明示的に指定する必要はありません。ネットワークがカスタムのサブネットで設定されている場合は、サブネット名もこのフォームで指定する必要があります)。 |
リージョン | Dataprocバッチが実行されるリージョン。 |
サービスアカウント名 | Dataprocバッチの実行に使用するサービスアカウント。これは起動時にパラメーターとして指定され、必ずしもベースストレージと同じサービスアカウントとは限りません。 |