Guida alla configurazione dell'engine Dataproc
Connetti il tuo spazio di lavoro Alteryx One Platform al tuo account Dataproc Serverless per abilitare Engine Dataproc. Dataproc è un engine Spark distribuito in grado di eseguire i flussi di lavoro Designer Cloud negli spazi di lavoro configurati con GCS come archivio dati privato. Per abilitare l'engine Dataproc nello spazio di lavoro, procedi come segue…
Prerequisiti
Devi essere un Amministratore dello spazio di lavoro in Alteryx One.
Lo spazio di lavoro Alteryx One deve essere configurato con GCS come archivio dati privato.
Un account di servizio GCP per l'esecuzione dei batch Dataproc (processi).
Devi avere accesso amministrativo al progetto GCP di destinazione.
Crea una rete VPC per tutte le regioni che desideri utilizzare.
Imposta il vincolo
constraints/compute.requireOsLoginsufalsenel progetto che desideri utilizzare.
Guida alla configurazione dell'engine Dataproc
Per abilitare l'engine Dataproc nello spazio di lavoro Alteryx One, procedi come segue…
Account di servizio GCP
Sono necessari due tipi di account di servizio…
Account del servizio di archiviazione base per GCS. Questo account è necessario solo se si utilizza la modalità Spazio di lavoro. Alteryx One utilizza questo account per accedere a GCS durante la fase di progettazione e creare batch Dataproc. Tale account deve disporre dell'autorizzazione necessaria per creare e monitorare i batch Dataproc. I ruoli consigliati sono…
Nota
Se usi la modalità Utente, Alteryx One non utilizza l'account del servizio di archiviazione base, ma la tua identità SSO, per avviare il batch Dataproc. Tuttavia, sono necessari gli stessi ruoli elencati per l'account del servizio di archiviazione base.
Editor Dataproc (
roles/dataproc.editor) nel progetto in cui desideri eseguire Dataproc.Utente dell'account di servizio (
roles/iam.serviceAccountUser) nell'account di servizio Dataproc. Per ulteriori informazioni, consulta la documentazione dei ruoli GCS.
Account di servizio Dataproc. Alteryx One passa questo account di servizio come argomento durante la creazione di un batch Dataproc. Deve avere il ruolo Worker Dataproc (
role/dataproc.worker) nel progetto in cui viene eseguito.
Configurazione del progetto GCP
Imposta il vincolo constraints/compute.requireOsLogin su false nel progetto Google Cloud Platform (GCP) che desideri utilizzare. Per ulteriori informazioni, consulta la documentazione delle policy GCS.
Configurazione della rete VPC
Per eseguire i processi Dataproc è necessario configurare una rete VCP. Per ulteriori informazioni su come configurare questa rete, consulta la documentazione di Dataproc Serverless.
Completamento della configurazione
L'Amministratore dello spazio di lavoro può configurare Dataproc per il suo spazio di lavoro utilizzando la console di amministrazione.

Vai alla sezione Amministrazione spazio di lavoro > Data warehouse > sezione Dataproc.
Compila il modulo di configurazione.
ID progetto | Il batch Dataproc viene eseguito all'interno di questo progetto Google. |
Nome della rete VPC | Viene utilizzata una rete VPC. In questo caso viene utilizzata una rete con sottoreti automatiche, pertanto non è necessario specificare esplicitamente il nome della sottorete. Se la rete è configurata con sottoreti personalizzate, è necessario specificare anche il nome della sottorete nel modulo. |
Regione | Regione in cui viene eseguito il batch Dataproc. |
Nome dell'account del servizio | Account di servizio utilizzato per eseguire il batch Dataproc. Questo valore viene specificato come parametro al momento dell'avvio e non coincide necessariamente con l'account di servizio dell'archiviazione base. |