Skip to main content

Dataproc 引擎设置指南

将您的 Alteryx One Platform 的工作区连接到 Dataproc Serverless 账户,以启用Dataproc 引擎。Dataproc 是一个分布式 Spark 引擎,如果您的工作区已设置好 GCS 作为私有数据存储,则可以运行您的 Designer Cloud 工作流。按照以下步骤在工作区中启用 Dataproc 引擎…

先决条件

  • 您必须是 Alteryx One 中的 工作区管理员 用户。

  • 您的 Alteryx One 工作区必须将 GCS 作为私有数据存储

  • 用于运行 Dataproc 批处理(作业)的 GCP 服务账户。

  • 拥有对目标 GCP 项目的管理权限。

  • 为您要使用的所有区域创建 VPC 网络。

  • 在您要使用的项目中,将限制条件 constraints/compute.requireOsLogin 设置为 false

Dataproc 引擎设置指南

按照以下步骤在 Alteryx One 工作区中启用 Dataproc 引擎…

GCP 服务账户

您需要两种类型的服务账户…

  1. GCS 的基本存储服务账户。请注意,只有在使用工作区模式时才需要此账户。Alteryx One 会在设计期间使用此账户访问 GCS 并创建 Dataproc 批处理作业。该账户必须拥有创建和监控 Dataproc 批处理作业的权限。以下是推荐的角色…

    注意

    如果使用用户模式,则 Alteryx One 不会使用基本存储服务账户。Alteryx One 会改为使用 SSO 身份来启动 Dataproc 批处理作业。但是,您需要的角色与为基础存储服务账户列出的角色相同。

    1. 在您要执行 Dataproc 的项目中,拥有 Dataproc Editor (roles/dataproc.editor)。

    2. 在 Dataproc 服务账户中,拥有 Service Account User (roles/iam.serviceAccountUser)。如需了解详情,请转至 GCS 角色文档

  2. Dataproc 服务账户。在创建 Dataproc 批处理作业时,Alteryx One 会将此服务账户作为参数进行传递。它必须在执行的项目中拥有 Dataproc Worker 角色 (roles/dataproc.worker)。

GCP 项目配置

在您要使用的 Google Cloud Platform (GCP) 项目中,将限制条件 constraints/compute.requireOsLogin 设置为 false。如需了解详情,请参阅 GCS 策略文档

VPC 网络配置

您必须设置 VCP 网络才能运行 Dataproc 作业。如需详细了解如何配置此网络,请转至 Dataproc Serverless 文档

完成设置

工作区管理员可以使用管理控制台为其工作区配置 Dataproc。

dataproc_setup_form.png
  1. 转至工作区的管理员部分 > 数据仓库 > Dataproc 部分

  2. 填写配置表单

表 20. 这些配置的默认值示例

项目 ID

Dataproc 批处理作业在此 Google 项目中执行。

VPC 网络名称

使用了 VPC 网络(在这种情况下,使用带有自动子网的网络,因此无需明确指定子网名称。如果网络配置有自定义子网,则还必须在表单中指定子网名称)。

地区

执行 Dataproc 批处理作业的区域。

服务账户名称

用于运行 Dataproc 批处理作业的服务账户。此账户在启动时被指定为参数,并且不一定与基本存储的服务账户相同。