Skip to main content

Guide de configuration du moteur Dataproc

Connectez votre espace de travail Alteryx One Platform à votre compte Dataproc Serverless pour activer le Moteur Dataproc. Dataproc est un moteur Spark distribué qui peut exécuter vos workflows Designer Cloud si votre espace de travail est configuré avec GCS en tant que stockage de données privées. Procédez comme suit pour activer le moteur Dataproc dans votre espace de travail…

Conditions préalables

  • Être un Administrateur de l'espace de travail dans Alteryx One.

  • Votre espace de travail Alteryx One doit être configuré avec GCS en tant que stockage de données privées.

  • Disposer d'un compte de service GCP pour exécuter des lots Dataproc (tâches).

  • Disposer d'un accès administratif au projet GCP cible.

  • Créez un réseau VPC pour toutes les régions que vous souhaitez utiliser.

  • Définissez la contrainte constraints/compute.requireOsLogin sur false dans le projet que vous souhaitez utiliser.

Guide de configuration du moteur Dataproc

Procédez comme suit pour activer le moteur Dataproc dans votre espace de travail Alteryx One

Comptes de service GCP

Vous avez besoin de 2 types de comptes de service…

  1. Compte de service de stockage de base pour GCS. Notez que vous n'avez besoin de ce compte que si vous utilisez le mode espace de travail. Alteryx One utilise ce compte pour accéder à GCS pendant le temps de conception et crée des lots Dataproc. Le compte doit être autorisé à créer et à surveiller les lots Dataproc. Ce sont les rôles recommandés…

    Note

    Si vous utilisez le mode utilisateur, Alteryx One n'utilise pas le compte de service de stockage de base. À la place, Alteryx One utilise votre identité SSO pour lancer le lot Dataproc. Toutefois, vous avez besoin des mêmes rôles que ceux répertoriés pour le compte de service de stockage de base.

    1. Éditeur Dataproc (roles/dataproc.editor) dans le projet dans lequel vous souhaitez exécuter Dataproc.

    2. Utilisateur de compte de service (roles/iam.serviceAccountUser) dans le compte de service Dataproc. Pour plus d'informations, consultez la documentation relative aux rôles GCS.

  2. Compte de service Dataproc. Alteryx One transmet ce compte de service comme argument lors de la création d'un lot Dataproc. Il doit disposer du rôle de worker Dataproc (roles/dataproc.worker) dans le projet dans lequel il s'exécute.

Configuration du projet GCP

Définissez la contrainte constraints/compute.requireOsLogin sur false dans le projet Google Cloud Platform (GCP) que vous souhaitez utiliser. Pour plus d'informations, consultez la documentation relative aux politiques GCS.

Configuration du réseau VPC

Vous devez disposer d'un réseau VCP configuré pour exécuter des tâches Dataproc. Pour plus d'informations sur la configuration de ce réseau, consultez la documentation relative à Dataproc Serverless.

Terminer la configuration

L'Admin de l'espace de travail peut configurer Dataproc pour son espace de travail à l'aide de la console d'administration.

dataproc_setup_form.png
  1. Accédez à la section Admin de l'espace de travail > Entrepôts de données > section Dataproc.

  2. Renseigner le formulaire de configuration

Tableau 20. Exemples de valeurs par défaut pour ces configurations

ID de projet

Le lot Dataproc est exécuté dans le cadre de ce projet Google.

Nom du réseau VPC

Un réseau VPC est utilisé (dans ce cas, un réseau avec des sous-réseaux automatiques, de sorte qu'il ne soit pas nécessaire de spécifier explicitement le nom du sous-réseau. Si le réseau est configuré avec des sous-réseaux personnalisés, le nom du sous-réseau doit également être spécifié dans le formulaire).

Région

Région dans laquelle le lot Dataproc est exécuté.

Nom du compte de service

Le compte de service utilisé pour exécuter le lot Dataproc. Spécifié en tant que paramètre au moment du lancement, il ne s'agit pas nécessairement du même compte de service que le stockage de base.