Dataproc-Engine – Einrichtungsleitfaden
Verbinden Sie Ihren Alteryx One Platform-Arbeitsbereich mit Ihrem Dataproc Serverless-Konto, um Dataproc-Engine zu aktivieren. Dataproc ist eine verteilte Spark-Engine, die Ihre Designer Cloud-Workflows ausführen kann, wenn Ihr Arbeitsbereich mit GCS als privater Datenspeicher eingerichtet ist. Um die Dataproc-Engine in Ihrem Arbeitsbereich zu aktivieren, führen Sie bitte diese Schritte aus:
Voraussetzungen
Sie müssen ein Arbeitsbereich-Administrator in Alteryx One sein.
Ihr Alteryx One-Arbeitsbereich muss mit GCS als privater Datenspeicher eingerichtet sein.
Ein GCP-Dienstkonto zur Ausführung von Dataproc-Batches (Aufträge).
Administrativer Zugriff auf das GCP-Zielprojekt.
Erstellen Sie ein VPC-Netzwerk für alle Regionen, die Sie verwenden möchten.
Setzen Sie
constraints/compute.requireOsLoginin dem Projekt, das Sie verwenden möchten, auffalse.
Dataproc-Engine – Einrichtungsleitfaden
Führen Sie diese Schritte aus, um die Dataproc-Engine in Ihrem Alteryx One-Arbeitsbereich zu aktivieren:
GCP-Dienstkonten
Es gibt 2 Arten von Dienstkonten, die Sie benötigen:
Basisspeicher-Dienstkonto für GCS. Beachten Sie, dass Sie dieses Konto nur dann benötigen, wenn Sie den Arbeitsbereichsmodus verwenden. Alteryx One verwendet dieses Konto, um während der Entwurfszeit auf GCS zuzugreifen und Dataproc-Batches zu erstellen. Das Konto muss über die Berechtigung verfügen, Dataproc-Batches zu erstellen und zu überwachen. Dies sind die empfohlenen Rollen:
Anmerkung
Wenn Sie den Benutzermodus verwenden, wird das Basisspeicher-Dienstkonto von Alteryx One nicht verwendet. Stattdessen verwendet Alteryx One Ihre SSO-Identität, um den Dataproc-Batch zu starten. Sie benötigen jedoch dieselben Rollen wie für das Basisspeicher-Dienstkonto.
Dataproc Editor (Dataproc-Redakteur) (
roles/dataproc.editor) im Projekt, das Dataproc ausführen soll.Service Account User (Dienstkontobenutzer) (
roles/iam.serviceAccountUser) im Dataproc-Dienstkonto. Weitere Informationen finden Sie in der Dokumentation der GCS-Rollen.
Dataproc-Dienstkonto. Alteryx One übergibt dieses Dienstkonto als Argument, wenn ein Dataproc-Batch erstellt wird. Es muss die Dataproc-Worker-Rolle (
roles/dataproc.worker) in dem Projekt haben, in dem es ausgeführt wird.
GCP-Projektkonfiguration
Setzen Sie die Bedingung constraints/compute.requireOsLogin im Google Cloud Platform-Projekt (GCP), das Sie verwenden möchten, auf false. Weitere Informationen finden Sie in der Dokumentation der GCS-Richtlinie.
VPC-Netzwerkkonfiguration
Um Dataproc-Aufträge ausführen zu können, muss ein VCP-Netzwerk eingerichtet sein. Weitere Informationen zur Konfiguration dieses Netzwerks finden Sie in der Dokumentation zu Dataproc Serverless.
Einrichtung abschließen
Der Arbeitsbereich-Administrator kann Dataproc für seinen Arbeitsbereich über die Admin-Konsole konfigurieren.

Gehen Sie zum Arbeitsbereich Abschnitt „Admin“ > Data Warehouses > Abschnitt „Dataproc“.
Konfigurationsformular ausfüllen
Projekt-ID | Der Dataproc-Batch wird innerhalb dieses Google-Projekts ausgeführt. |
Name des VPC-Netzwerks | Es wird ein VPC-Netzwerk verwendet (in diesem Fall wird ein Netzwerk mit automatischen Subnetzen verwendet, sodass der Subnetzname nicht explizit angegeben werden muss. Wenn das Netzwerk mit benutzerdefinierten Subnetzen konfiguriert ist, muss auch der Subnetzname im Formular angegeben werden). |
Region | Region, in der der Dataproc-Batch ausgeführt wird. |
Dienstkonto-Name | Dienstkonto, das zur Ausführung des Dataproc-Batches verwendet wird. Es wird zur Startzeit als Parameter angegeben und ist nicht notwendigerweise dasselbe Dienstkonto wie der Basisspeicher. |