PDF 转文本
使用“PDF 转文本”工具从 PDF 文件中提取文本。PDF 文件可能包含文本字符和文本图像的组合。文本图像需要通过光学字符识别 (OCR) 来提取文本字符。“PDF 转文本”工具可以直接从 PDF 文件中提取文本字符。这款工具还可以利用光学字符识别功能从包含文本的图像中提取文本。对于通过扫描形成的图像文档(例如 JPG、PNG 和 BMP 文件),请使用图像转文本工具。
要求 Alteryx Intelligence Suite
此工具是 Alteryx Intelligence Suite 的一部分,需要用于 Designer 的附加组件安装程序。安装 Designer 后,请安装 Intelligence Suite 并开始您的免费试用。
语言支持
如果选择仅读取文本内容,那么“PDF 转文本”工具没有语言限制。
如果您选择读取文本和图像内容或编码为图形的文本的风险评分,那么该工具支持阿拉伯语、英语、法语、德语、意大利语、日语、葡萄牙语、简体中文和西班牙语。
工具组件
“PDF 转文本”工具有 3 个锚点(2 个输入和 1 个输出):
配置工具
在画布上添加“PDF 转文本”工具。
(可选)使用 D 输入锚点将 PDF 文件路径列表或包含 PDF 文件的目录列表传递到“PDF 转文本”工具。
(可选)使用 T 输入锚点传递“图像模板”工具中的注释。如果您已连接图像模板工具,并且所有页面的布局相同,请选择将图像模板中的第一页注释应用到所有页面。
如果您已连接到 D 输入锚点,请选择包含文件路径的列。
如果您尚未连接 D 输入锚点,请输入 PDF 文件路径。您也可以编辑指向某个文件夹的文件路径,然后该工具会读取相应文件夹中的所有 PDF。
根据 PDF 文件内容选择一个文本提取选项。
要处理 PDF 中的特定页面范围,请选中页面范围复选框,然后输入起始页和结束页。处理大型或复杂 PDF 文件时,使用此选项可提升性能并降低内存占用。
选择输出选项。
运行工作流。
文本提取选项
读取文本和图像内容
PDF 文件可能包含文本字符和文本图像的组合。文本图像需要通过光学字符识别 (OCR) 来提取文本字符。对于带有文本图像的文件,使用读取文本和图像内容直接提取文本字符,并对文本图像执行 OCR(光学字符识别)。增加光学字符识别功能之后,可以全面识别文件中的所有文本。
仅读取文本内容
直接从 PDF 文件中读取文本字符。仅提取文本字符速度比光学字符识别快10倍,而且通常更准确。
以编码为图形的文本的风险评分指导是否需要光学字符识别来提取页面上的所有文本。此选项比光学字符识别快 2 倍。输出页面图形的图像选项能在工具输出中包含页面图形的图像。
如果页面风险评分为中或高,请使用“图像”工具检查页面图形内容。如果“PDF 转文本”工具遗漏了图形中的重要文本,请使用读取文本和图像内容选项重新运行该页面。
输出选项
一页为一条记录。页面上所有文本作为一个字符串。包括换行字符。
行:每行文本为一条记录。由单个字符串代表。
竖线分隔表格:一页为一条记录。页面上所有文本的竖线分隔表格。
Alteryx 表格:每行文本为一条记录。列中包括基于文本内水平空间重叠的细分文本。
如果选择多个格式,则输出将包括不同行中的每种格式。
T 输入锚点(可选)
当您使用 T 输入锚点时,“PDF 转文本”工具的输出会发生变化。
另一个输出列标识每个记录的标记区域。
您选择的所有输出格式都包括字符串和表格区域。
“PDF 转文本”工具可裁剪图像区域,并将其输出为图像 Blob 文件。使用“图像”工具查看图像 Blob 文件。
