精确匹配工具
精确匹配工具对字符串数据执行类似模糊匹配的操作,将同一短语的不同变体标准化为单个值。如果数据包含同一短语的多种拼写(例如,color 和 colour,或 US 和 United States),可使用精确匹配工具。
注意
GenAI 辅助工具目前处于公开预览版阶段。它们可能存在已知问题,可能不包括所有预期功能,且如有更改,恕不另行通知。
工具组件
精确匹配工具有 5 个锚点(3 个输入和 2 个输出):
M 输入锚点:使用 M 输入锚点连接来自 LLL 覆盖工具的模型连接设置。
D 输入锚点:使用 D 输入锚点连接要标准化的字符串数据。
R 输入锚点(可选):使用 R 输入锚点连接到参考数据集,其中包含想要 LLM 使用的标准化短语。
D 输出锚点:使用 D 输出锚点将匹配的输入数据传递到下游。
M 输出锚点:使用 M 输出锚点将 LLM 输出的映射表传递至下游。
配置工具
在画布上添加精确匹配工具。
将 M 输入锚点连接到 LLM 覆盖工具。
将 D 输入锚点连接到要在工作流中使用的分类字符串数据。精确匹配工具仅适用于分类数据(例如,名称或地点)。
(可选)将 R 输入锚点连接到包含标准化短语列表的参考数据集。如果您偏好使用标准化短语,请使用此锚点。否则,LLM 会根据其内置的提示词自主决策。
接受 Alteryx 预览条款和条件。
从字段下拉列表中选择包含要标准化的数据的列。
从参考下拉列表中选择包含标准化短语的列。
如需强制使用参考值,请选中严格仅使用参考数据集中的值复选框。
在您希望如何输出结果?部分,您可以选择…
替换所选列:用标准化短语替换您选择的列。
附加为新列:在数据集中创建一个包含标准化短语的新列。(可选)输入新列的名称。
如果您的输入数据未发生变化,且希望使用缓存的映射表格,请选中使用缓存的映射表格?复选框。在处理工作流的其他部分时,使用此选项可减少 LLM 请求。
如果您的工作流包含动态输入,且希望避免潜在的大量 LLM 请求,可以设置一个行计数阈值,超过该阈值时工作流会停止并报错。在如果类别数量超过以下值则报错参数中输入行阈值。
运行工作流。
输出
精确匹配工具包含 2 个输出锚点,均以两种方式将标准化短语传递至下游:
D 输出锚点将匹配的输入数据传递至下游。根据您在您希望如何输出结果?部分中选择的选项,D 输出锚点...
当选择替换所选列时,使用标准化短语更新所选字符串列。
当选择附加为新列时,在数据中附加标准化短语。
M 输出锚点包含 LLM 用于标准化数据的映射表。映射表包含原始字符串值列和标准化字符串值列。
