Skip to main content

Dataproc-Engine – Einrichtungsleitfaden

Verbinden Sie Ihren Alteryx One Platform-Arbeitsbereich mit Ihrem Dataproc Serverless-Konto, um Dataproc-Engine zu aktivieren. Dataproc ist eine verteilte Spark-Engine, die Ihre Designer Cloud-Workflows ausführen kann, wenn Ihr Arbeitsbereich mit GCS als privater Datenspeicher eingerichtet ist. Um die Dataproc-Engine in Ihrem Arbeitsbereich zu aktivieren, führen Sie bitte diese Schritte aus:

Voraussetzungen

  • Sie müssen ein Arbeitsbereich-Administrator in Alteryx One sein.

  • Ihr Alteryx One-Arbeitsbereich muss mit GCS als privater Datenspeicher eingerichtet sein.

  • Ein GCP-Dienstkonto zur Ausführung von Dataproc-Batches (Aufträge).

  • Administrativer Zugriff auf das GCP-Zielprojekt.

  • Erstellen Sie ein VPC-Netzwerk für alle Regionen, die Sie verwenden möchten.

  • Setzen Sie constraints/compute.requireOsLogin in dem Projekt, das Sie verwenden möchten, auf false.

Dataproc-Engine – Einrichtungsleitfaden

Führen Sie diese Schritte aus, um die Dataproc-Engine in Ihrem Alteryx One-Arbeitsbereich zu aktivieren:

GCP-Dienstkonten

Es gibt 2 Arten von Dienstkonten, die Sie benötigen:

  1. Basisspeicher-Dienstkonto für GCS. Beachten Sie, dass Sie dieses Konto nur dann benötigen, wenn Sie den Arbeitsbereichsmodus verwenden. Alteryx One verwendet dieses Konto, um während der Entwurfszeit auf GCS zuzugreifen und Dataproc-Batches zu erstellen. Das Konto muss über die Berechtigung verfügen, Dataproc-Batches zu erstellen und zu überwachen. Dies sind die empfohlenen Rollen:

    Anmerkung

    Wenn Sie den Benutzermodus verwenden, wird das Basisspeicher-Dienstkonto von Alteryx One nicht verwendet. Stattdessen verwendet Alteryx One Ihre SSO-Identität, um den Dataproc-Batch zu starten. Sie benötigen jedoch dieselben Rollen wie für das Basisspeicher-Dienstkonto.

    1. Dataproc Editor (Dataproc-Redakteur) (roles/dataproc.editor) im Projekt, das Dataproc ausführen soll.

    2. Service Account User (Dienstkontobenutzer) (roles/iam.serviceAccountUser) im Dataproc-Dienstkonto. Weitere Informationen finden Sie in der Dokumentation der GCS-Rollen.

  2. Dataproc-Dienstkonto. Alteryx One übergibt dieses Dienstkonto als Argument, wenn ein Dataproc-Batch erstellt wird. Es muss die Dataproc-Worker-Rolle (roles/dataproc.worker) in dem Projekt haben, in dem es ausgeführt wird.

GCP-Projektkonfiguration

Setzen Sie die Bedingung constraints/compute.requireOsLogin im Google Cloud Platform-Projekt (GCP), das Sie verwenden möchten, auf false. Weitere Informationen finden Sie in der Dokumentation der GCS-Richtlinie.

VPC-Netzwerkkonfiguration

Um Dataproc-Aufträge ausführen zu können, muss ein VCP-Netzwerk eingerichtet sein. Weitere Informationen zur Konfiguration dieses Netzwerks finden Sie in der Dokumentation zu Dataproc Serverless.

Einrichtung abschließen

Der Arbeitsbereich-Administrator kann Dataproc für seinen Arbeitsbereich über die Admin-Konsole konfigurieren.

dataproc_setup_form.png
  1. Gehen Sie zum Arbeitsbereich Abschnitt „Admin“ > Data Warehouses > Abschnitt „Dataproc“.

  2. Konfigurationsformular ausfüllen

Tabelle 20. Beispiele für Standardwerte für diese Konfigurationen

Projekt-ID

Der Dataproc-Batch wird innerhalb dieses Google-Projekts ausgeführt.

Name des VPC-Netzwerks

Es wird ein VPC-Netzwerk verwendet (in diesem Fall wird ein Netzwerk mit automatischen Subnetzen verwendet, sodass der Subnetzname nicht explizit angegeben werden muss. Wenn das Netzwerk mit benutzerdefinierten Subnetzen konfiguriert ist, muss auch der Subnetzname im Formular angegeben werden).

Region

Region, in der der Dataproc-Batch ausgeführt wird.

Dienstkonto-Name

Dienstkonto, das zur Ausführung des Dataproc-Batches verwendet wird. Es wird zur Startzeit als Parameter angegeben und ist nicht notwendigerweise dasselbe Dienstkonto wie der Basisspeicher.