Per le intelligenze artificiali i PDF sono un problema

È un formato diffusissimo ma difficile da leggere per le macchine: l'obiettivo a lungo termine è sostituirlo

Che si tratti di moduli per la pubblica amministrazione, documenti di lavoro o progetti personali, ogni giorno milioni di persone scaricano e inviano file in PDF. Il formato, creato da Adobe nel 1993, è ormai uno standard universale, ma con la diffusione dei programmi di intelligenza artificiale (AI) i suoi limiti tecnici sono diventati sempre più evidenti.

I PDF (da Portable Document Format) sono stati infatti creati per essere usati dagli utenti, più che dalle macchine. La scarsa leggibilità dei PDF da parte dei sistemi informatici è un problema noto da tempo, ed è diventato ancora più urgente negli ultimi anni. A dispetto della loro capacità di comprendere e generare contenuti di vario tipo, infatti, i modelli linguistici come GPT-5 continuano ad avere grossi limiti nella lettura (o parsing) dei documenti in PDF.

Chiunque abbia mai provato a copiare il contenuto di un PDF per incollarlo su un editor di testo avrà notato che il risultato finale è spesso lontano dall’originale. Il problema si verifica soprattutto se il documento contiene titoli, grafici o tabelle, o se il testo è organizzato in più colonne (come spesso avviene con gli articoli accademici). Lo stesso succede anche quando un programma di intelligenza artificiale prova a leggerlo: finisce per confondere l’ordine in cui leggere le varie parti di testo, con risultati incomprensibili.

Il problema risale alle origini stesse del formato. Il PDF, infatti, nacque per permettere a chiunque di aprire un documento su qualsiasi computer, mantenendone l’aspetto inalterato. Col tempo, si impose come il formato ideale sia per la stampa che per la visualizzazione su schermo dei documenti, fino a essere riconosciuto come standard universale nel 2008 dall’ISO, il principale organismo internazionale di standardizzazione tecnica.

I PDF possono essere visti come delle fotografie, un documento statico che contiene le istruzioni per riprodurlo sempre uguale. Per analizzarli, quindi, è necessario ricorrere a dei software di riconoscimento ottico dei caratteri (OCR), che permettono di trasformare le immagini in dati o testi.

Un OCR è in grado di estrarre i dati da un documento in PDF semplice, senza elementi grafici o un’impaginazione particolare, ma incontra problemi quando il documento è scansionato o scritto a mano. Al contrario dei PDF altri formati, come l’HTML, sono molto più semplici da analizzare per le intelligenze artificiali, perché i contenuti sono accompagnati da semplici comandi chiamati “tag”, che ne specificano la struttura (come titoli, sottotitoli o testo in grassetto).

Questo è un doppio problema per il settore dell’AI. Da un lato, gli utenti incontrano difficoltà dovute all’incapacità di questi servizi di processare correttamente i documenti in PDF che danno loro in pasto. Dall’altro lato, finché non trovano un modo per leggere facilmente i PDF, le aziende del settore non possono accedere a un vasto archivio di testi di alta qualità, prezioso per l’addestramento dei modelli linguistici.

Nel corso degli anni, aziende come OpenAI, Anthropic, Google e Meta hanno usato contenuti di ogni tipo, spesso presi dal web in modi controversi o illegali, per migliorare i propri modelli. I PDF, però, sono stati a lungo ignorati proprio per via di questi limiti tecnici. La necessità continua di nuovi contenuti da usare in fase di addestramento sta spingendo le aziende a cercare un modo per poter accedere anche a questo tipo di documenti.

Non si tratta di un problema limitato alle aziende del settore AI. Secondo alcune stime, tra l’80 e il 90 per cento di tutti i dati disponibili alle aziende è conservato in formati che sono difficili da analizzare per i programmi informatici. Questo tipo di dati vengono detti “non strutturati” e possono includere, oltre ai PDF, anche registrazioni audio o video, o pagine web.

Lo scorso gennaio, la startup israeliana Factify ha raccolto più di 70 milioni di dollari di investimenti per lo sviluppo di un nuovo formato di file che abbia tutti i vantaggi dei PDF ma possa essere analizzato facilmente dai sistemi di intelligenza artificiale. L’obiettivo dell’azienda, secondo il suo fondatore Matan Gavish, è di «rimpiazzare» il PDF, che ritiene ormai obsoleto nell’era dell’intelligenza artificiale. «È giunto il momento di un nuovo standard», ha detto.

Anche Mistral, la principale azienda europea nel settore dell’AI, ha tentato l’anno scorso di risolvere il problema con Mistral OCR, un sistema per il riconoscimento dei caratteri che sfrutta le AI per ottenere risultati migliori. Tuttavia, il software non sembra offrire prestazioni migliori di altri servizi simili. Inoltre usare i modelli linguistici per potenziare gli OCR li espone a una serie di problemi tipici delle AI, come le “allucinazioni”.

Tag: ai-intelligenze artificiali-pdf