Da PDF a testo
Requisiti dei ruoli utente
Ruolo utente* | Accesso a strumento/funzione |
|---|---|
Utente completo | ✓ |
Utente base | X |
*Si applica ai clienti che utilizzano le edizioni Professional ed Enterprise di Alteryx One con Designer versione 2025.1 o successiva.
Utilizza lo strumento Da PDF a testo per estrarre il testo dai file PDF. I file PDF possono contenere un mix di caratteri di testo e immagini di testo. Le immagini di testo richiedono il riconoscimento ottico dei caratteri (OCR) per estrarre i caratteri di testo. Lo strumento Da PDF a testo può estrarre i caratteri del testo direttamente dai file PDF. Lo strumento può anche applicare il riconoscimento ottico dei caratteri (OCR) per estrarre il testo dalle immagini in cui è presente. Per i documenti scansionati che rappresentano immagini (ad esempio file JPG, PNG e BMP), utilizza lo strumento Immagine in un testo.
Alteryx Intelligence Suite necessario
Questo strumento fa parte di Alteryx Intelligence Suite e richiede un programma di installazione aggiuntivo per Designer. Dopo aver installato Designer, installa Intelligence Suite e avvia la versione di prova gratuita.
Supporto linguistico
Se selezioni Leggi solo contenuto di testo, lo strumento Da PDF a testo non prevede restrizioni linguistiche.
Se selezioni Leggi contenuto di testo e immagini o Punteggio di rischio per testo codificato come grafica, lo strumento supporta arabo, inglese, francese, tedesco, italiano, giapponese, portoghese, cinese semplificato e spagnolo.
Componenti dello strumento
Lo strumento Da PDF a testo ha 3 ancoraggi (2 di input e 1 di output):
Ancoraggio di input D: (facoltativo) utilizza l'ancoraggio di input D per collegare un elenco di percorsi di file PDF o di directory che contengono file PDF. Esistono diversi modi per collegare l'elenco di directory o percorsi di file:
Per aggiungere un elenco di directory o percorsi di file da un file CSV, XLSX o TXT, utilizza lo strumento Dati di input.
Inserisci manualmente le directory o i percorsi dei file nello strumento Input di testo.
Per generare un elenco di percorsi di file all'interno di una cartella, utilizza lo strumento Directory.
Ancoraggio di input T: (facoltativo) utilizza l'ancoraggio di input T per collegare le annotazioni dallo strumento Modello immagine. Identifica le aree per l'estrazione del testo con annotazioni in stringhe e tabelle. Ritaglia le immagini per l'elaborazione a valle con annotazioni delle immagini.
Ancoraggio di output: utilizza l'ancoraggio di output per trasferire i dati di testo estratti a valle.
Configurazione dello strumento
Aggiungi uno strumento Da PDF a testo all'area di disegno.
(Facoltativo) Utilizza l'ancoraggio di input D per passare allo strumento Da PDF a testo un elenco di percorsi di file PDF o un elenco di directory che contengono file PDF.
(Facoltativo) Utilizza l'ancoraggio di input T per passare le annotazioni dallo strumento Modello immagine. Se è stato collegato lo strumento Modello immagine e tutte le pagine hanno lo stesso layout, seleziona Applica la prima pagina di annotazioni in Modello immagine su tutte le pagine.
Se hai eseguito il collegamento all'ancoraggio di input D, seleziona la colonna che contiene i percorsi dei file.
Se non hai eseguito il collegamento all'ancoraggio di input D, inserisci il percorso dei file PDF. Puoi modificare il percorso del file in modo che punti a una cartella; in tal caso, lo strumento legge tutti i file PDF da tale cartella.
Seleziona una delle opzioni di estrazione del testo, in base al contenuto del file PDF.
Per elaborare uno specifico intervallo di pagine del file PDF, seleziona la casella di spunta Intervallo pagine, quindi inserisci i valori desiderati in Pagina iniziale e Pagina finale. Questa opzione consente di migliorare le prestazioni e ridurre il consumo di memoria quando si utilizzano file PDF molto ampi o complessi.
Seleziona le Opzioni di output desiderate.
Esegui il flusso di lavoro.
Opzioni di estrazione del testo
Leggi contenuto di testo e immagini
I file PDF possono contenere un mix di caratteri di testo e immagini di testo. Le immagini di testo richiedono il riconoscimento ottico dei caratteri (OCR) per estrarre i caratteri di testo. Per i file con immagini di testo, l'opzione Leggi contenuto di testo e immagini consente di leggere direttamente i caratteri di testo e applicare il riconoscimento ottico dei caratteri (OCR) alle immagini di testo. L'aggiunta del riconoscimento ottico (OCR) dei caratteri fornisce una copertura completa di tutto il testo del file.
Leggi solo contenuto di testo
Puoi leggere i caratteri di testo direttamente dal file PDF. L'estrazione dei soli caratteri di testo è fino a 10 volte più veloce del processo OCR ed è solitamente più accurata.
Utilizza Punteggio di rischio per testo codificato come grafica per indicare se la funzione OCR è necessaria per estrarre tutto il testo nella pagina. Questa opzione è fino a due volte più veloce rispetto alla funzione OCR. Utilizza Immagine di output della grafica della pagina per includere un'immagine della grafica della pagina nell'output dello strumento.
Se il punteggio di rischio di una pagina è medio o alto, utilizza lo strumento Immagine per esaminare il contenuto grafico della pagina. Se lo strumento Da PDF a testo non è riuscito a rilevare un testo importante nella grafica, rileggi la pagina con l'opzione Leggi contenuto di testo e immagini.
Opzioni di output
Stringa: un record per pagina. Stringa singola per tutto il testo della pagina. Include caratteri di ritorno a capo.
Linee: un record per riga di testo. Stringa singola per la riga di testo.
Tabella delimitata da barre verticali: un record per pagina. Tabella delimitata da barre verticali per tutto il testo della pagina.
Tabella Alteryx: un record per riga di testo. Le colonne includono testo suddiviso in base alla sovrapposizione spaziale orizzontale all'interno del testo.
Se selezioni più di un formato, l'output include ogni formato su righe diverse.
Ancoraggio di input T (opzionale)
Quando utilizzi l'ancoraggio di input T, l'output dello strumento Da PDF a testo cambia.
Una colonna di output aggiuntiva identifica l'area di annotazione per ogni record.
Le aree di stringa e tabella vengono generate in tutti i formati di output selezionati.
Lo strumento Da PDF a testo ritaglia le aree dell'immagine e le genera come file blob di immagine. Per visualizzare i file blob di immagine, puoi utilizzare lo strumento Immagine.
