Databricks
有关 Databricks 身份验证选项,请转至 Databricks 和 Alteryx 指南。
连接类型 | ODBC(64 位) |
驱动程序配置要求 | 主机必须是 Databricks 集群 JDBC/ODBC 服务器主机名。 为获得最佳性能,必须在驱动程序“高级选项”中启用“Fast SQLPrepare”选项,以允许 Alteryx 在不运行查询的情况下检索元数据。 必须在 DSN 中取消选中启用 CTAS 转换复选框。该复选框默认选中。 要使用可视化查询构建器,请在驱动程序的“高级选项”中选择“使用查询获取表”选项。 同时支持 AWS 和 Azure。 |
支持类型 | 读取和写入、数据库内 |
验证版本 | Databricks Interactive 和 SQL 端点集群、Simba Apache Spark 驱动程序 2.7.7.1017。 |
用于连接的 Alteryx 工具
标准工作流处理
数据库内工作流处理
如果在读写 Unicode® 字符时遇到问题,请访问 Simba Impala ODBC 驱动程序。在高级选项下,选择使用 SQL Unicode 类型。
字符串长度由驱动程序控制。您可以在 ODBC DSN 的“高级选项”中进行更改,也可以通过驱动程序安装文件夹中的“驱动程序配置的高级选项”进行更改。
读取支持
安装并配置 Apache Spark ODBC 驱动程序:
Spark 服务器类型:为您正在运行的 Apache Spark 版本选择相应的服务器类型。如果运行的是 Apache Spark 1.1 及更高版本,请选择 Apache SparkThriftServer。
身份验证机制:请参阅随 Simba Apache Spark 驱动程序下载的安装指南,以便根据您的设置进行配置。
要设置驱动程序高级选项,请参阅随 Simba Apache Spark 驱动程序下载的安装指南。
写入支持
对于标准工作流和数据库内工作流,请使用数据流传入工具向 Databricks 写入数据。通过 Databricks 批量加载器提供写入支持。转至管理数据库内连接 - 写入。
配置“写入”选项卡
选择 Databricks 批量加载器 (Avro) 或 Databricks批量加载器 (CSV)。要写入字段名称总计超过 4000 个字符的表格,请使用 CSV 而不是 Avro。CSV 使用的分隔符是标题开始 (SOH) 字符。
选择连接字符串下拉列表,然后选择新建 Databricks 连接。
选择现有的 ODBC 数据源,或者选择 ODBC 管理员创建一个。
输入用户名和密码。这些字段不能为空。
输入 Databricks URL
https://abc-abc123-123a.cloud.databricks.com
警告
在 URL 中添加尾随的“/”(例如 https://abc-abc123-123a.cloud.databricks.com/)将导致错误。
Databricks Delta Lake 批量连接
通过 Designer 2024.1,Redshift 批量连接支持 AWS IAM(身份和访问管理)身份验证。
按照以下步骤配置 Databricks Delta Lake 批量连接。
重要
Databricks Delta Lake 批量连接仅在 Designer 版本 2022.1 及更高版本中可用。
选择 Databricks Delta Lake 批量加载器 (Avro) 或 Databricks Delta Lake批量加载器 (CSV)。要写入字段名称总计超过 4000 个字符的表格,请使用 CSV 而不是 Avro。
选择连接字符串下拉列表,然后选择新建数据库连接。
选择现有的 ODBC 数据源,或者选择 ODBC 管理员创建一个。
输入用户名和密码。这些字段不能为空。Alteryx 支持个人访问令牌。用户名为“token”。密码是个人访问令牌。
选择暂存方法(同时支持 AWS 和 Azure):
对于 Amazon S3
输入 AWS 访问密钥和密钥进行身份验证;
选择端点或保留为默认值;
选择使用 Signature V4 进行身份验证;
选择所需的服务器端加密级别,默认值为“无”;
选择要用作暂存位置的存储桶名称。
通过 Designer 2024.1,Databricks 批量加载器支持 AWS IAM(身份和访问管理)身份验证。
对于 Azure ADLS
重要
对于 Azure 批量加载,仅支持 ADLS Gen 2。
选择 ADLS 容器;
输入共享密钥;
输入存储帐户;
输入可选的临时目录。输入临时目录时,不要重复输入容器名称。
示例
如果文件夹结构为 Container/MyTempFolder/TempTables,则仅输入“MyTempFolder/TempTables”。
如果此处输入的目录尚不存在,Alteryx 将创建一个。
Alteryx 将使用每个暂存表格的表格名称创建一个子文件夹。
选择确定以应用。
借助 Designer 2023.2,Databricks 批量加载器支持对 ADLS 暂存进行 Azure AD 身份验证。此功能允许组织对存储帐户中的单个容器进行粒度管理,从而提高了 Databricks 批量加载器的安全性。
配置代理详细信息
创建或编辑 Databricks 连接时,可指定代理服务器详细信息。这些设置将传递至 Simba ODBC 驱动程序,以建立连接。
以下代理字段可用:
代理主机:代理服务器的主机名。
代理端口:代理服务器使用的端口号。
代理用户名:用于代理身份验证的用户名凭据。
代理密码:用于代理身份验证的密码凭据。
注意
这些设置仅适用于 Databricks 连接。其他数据源不使用这些代理配置。


