Il lavoro di chi rivede gli articoli scientifici si è molto complicato
I chatbot di intelligenza artificiale stanno moltiplicando gli studi e infestandoli di “sbobba”

Nel 2023 il ricercatore americano Dave Karpf, esperto di media digitali, ricevette un’email di uno studente che gli chiedeva gentilmente una copia di un suo articolo del 2010. Non ricordava di aver scritto un articolo con quel titolo, e chiese altri dettagli della pubblicazione: il nome e il numero della rivista. Scoprì che la rivista scientifica esisteva davvero, ma in quel numero non c’era nessun articolo con quel titolo, né suo né di altri.
A quel punto lo studente smise di rispondere, e Karpf ipotizzò che la citazione provenisse da una risposta di ChatGPT, il chatbot basato sull’intelligenza artificiale la cui prima versione esisteva da pochi mesi. «Credo che stesse cercando di usarlo nel modo giusto», scrisse Karpf: lo studente stava in effetti verificando le fonti. Di fatto avevano però entrambi perso tempo per una “citazione fantasma”, poi diventato un genere comune di errore possibile dei chatbot.
Conteneva almeno sette citazioni fantasma, per esempio, anche la prima versione del rapporto sul progetto “Make America Healthy Again” (“rendiamo di nuovo sana l’America”), un’iniziativa del segretario per la Salute americano Robert F. Kennedy Jr., pubblicato a maggio del 2025. Il dipartimento della Salute, che ritirò subito quella versione, lo descrisse come un «problema di formattazione». Ma la presenza di errori o inesattezze riconducibili all’uso dei chatbot, che superano la revisione e finiscono negli studi scientifici, è un problema ormai sistemico e non limitato alle pubblicazioni di riviste di basso livello.
Ne ha scritto l’Atlantic in un recente articolo, ma tra gli addetti ai lavori è un argomento di cui si discute da anni, e più intensamente da qualche mese. «I canali attraverso cui la conoscenza del mondo naturale fluisce nella nostra cultura», scrive l’Atlantic, sono sempre più intasati dai contenuti senza ordine e senza senso logico prodotti con uno sforzo minimo usando l’intelligenza artificiale: un genere noto con l’espressione AI slop (“sbobba fatta con l’AI”).
Un’opinione abbastanza condivisa è che l’intelligenza artificiale non abbia provocato dei nuovi problemi, ma abbia accelerato l’evoluzione di quelli che in parte già esistevano. Il principale riguarda la peer review (revisione paritaria), il sistema di valutazione preliminare delle ricerche scientifiche da parte di revisori volontari non retribuiti e non coinvolti nella ricerca. Si regge sul presupposto che i revisori valutino con attenzione il lavoro altrui, e che gli autori restituiscano poi il favore revisionando a loro volta altre ricerche, con la stessa scrupolosità.
– Leggi anche: Il sistema della “peer review” è pieno di problemi
Dopo la diffusione dei modelli linguistici di grandi dimensioni (LLM), che servono a far funzionare ChatGPT e altri chatbot, i revisori hanno cominciato a fare sempre più fatica a stare dietro alle richieste di revisione che ricevono dalle riviste scientifiche. Sono arrivate a un livello senza precedenti, in parte perché i software di intelligenza artificiale hanno straordinariamente aumentato la produttività, soprattutto tra gli scienziati non anglofoni, che usano ChatGPT per rendere formalmente più presentabili i loro lavori.
In moltissimi casi quegli stessi strumenti sono però utilizzati anche da chi cerca di rendere plausibili lavori scadenti. E individuare errori e inesattezze è diventato per editor e revisori molto più oneroso in termini di tempo, oltre che più difficile tecnicamente. Non è un problema nuovo: errori e inesattezze sono un rischio da molto prima di ChatGPT, anche per le riviste autorevoli, perché la revisione paritaria in sé non è garanzia di qualità degli studi, specialmente quando gli studi sono interdisciplinari e i revisori coinvolti hanno soltanto una o due delle competenze specialistiche necessarie per valutarli.
L’intelligenza artificiale ha però fornito agli autori molti più strumenti e opportunità per assecondare la pressione a pubblicare il più possibile per avere successo in ambito accademico (un problema spesso definito con l’aforisma publish or perish, “pubblica o muori”). Li ha forniti anche a chi cerca di scovare e contrastare questi usi, ma è comunque difficile stare dietro a tutti.
L’Atlantic ha parlato con Adam Day, direttore di Clear Skies, un’azienda che si occupa di scovare frodi scientifiche tramite software di intelligenza artificiale. Day ha detto che gran parte del loro lavoro si concentra non su singoli autori, ma sulle cosiddette «fabbriche di articoli». Sono aziende che vendono grandi quantità di articoli ai loro clienti autori di ricerche, e che quindi tendono a riciclare i loro materiali. È un fenomeno che interessa molti ambiti di ricerca, soprattutto quelli su cui si concentrano molte attenzioni e interessi: la stessa ricerca sull’intelligenza artificiale, per esempio, ma anche settori fondamentali delle scienze naturali.
Nel 2024, per esempio, si parlò molto della pubblicazione di uno studio – poi ritirato – che includeva un’illustrazione senza senso di un ratto con enormi testicoli su una rivista scientifica di biologia. Era stata creata con un software di intelligenza artificiale, ma nessun revisore si era accorto di quell’immagine. Fu un caso clamoroso ma tutto sommato di scarsa importanza, perché isolato ed evidentissimo: è più preoccupante, per esempio, la capacità dell’intelligenza artificiale di generare immagini convincenti di campioni di tessuto istologico e altre molto comuni nella ricerca biomedica, del tipo che è possibile vedere soltanto al microscopio.
– Leggi anche: C’è un dibattito su un articolo scientifico con immagini senza senso
L’impatto degli LLM sulla ricerca scientifica è diventato evidente anche dai volumi di condivisione degli articoli preprint (quelli che devono ancora essere sottoposti a revisione paritaria) sulle piattaforme apposite. Una recente analisi della rivista Science su più di 2 milioni di preprint ha mostrato che su tre grandi piattaforme dedicate a questo formato di articoli (arXiv, bioRxiv e Social Science Research Network) la produzione è aumentata notevolmente dal 2023, dopo la diffusione di ChatGPT.
Per gli autori che sembravano avere usato software di intelligenza artificiale la produzione era aumentata, rispetto a prima del 2023, da un minimo del 23,7 a un massimo dell’89,3 per cento, a seconda del campo scientifico e del background dell’autore. Dall’analisi è emerso anche che a causa dell’uso di questi software alcuni tradizionali segni di qualità scientifica, come la complessità linguistica, stanno diventando indicatori di merito inaffidabili: moltissimi studi sono linguisticamente complessi, ma sostanzialmente deludenti.
«Con l’avanzare dei sistemi di intelligenza artificiale, questi metteranno in discussione i nostri presupposti fondamentali sulla qualità della ricerca, sulla comunicazione accademica e sulla natura del lavoro intellettuale», hanno scritto gli autori dell’analisi.
Richard Sever, responsabile scientifico dell’organizzazione non profit che gestisce bioRxiv e medRxiv (le piattaforme di preprint per biologia e medicina), ha spiegato all’Atlantic che le comunità scientifiche hanno sempre dovuto eliminare la «spazzatura», o almeno una parte, dai server di preprint. Questa pratica però ha senso soltanto quando il rapporto tra «segnale» e «rumore» è ragionevole: «non se 99 articoli su 100 sono fake o prefabbricati».
Un approccio suggerito da alcuni ricercatori per provare a contrastare gli effetti negativi dell’uso degli LLM nella ricerca scientifica è «combattere il fuoco con il fuoco»: usare strumenti di revisione basati sull’intelligenza artificiale. In parte è già così: secondo un sondaggio del gruppo editoriale Frontiers su circa 1.600 ricercatori in 111 paesi, oltre il 50 per cento ha detto di aver usato l’intelligenza artificiale nella revisione paritaria degli articoli inediti. E lo fa «in contrasto con le raccomandazioni di non caricare gli articoli inediti su strumenti di terze parti», ha detto Elena Vicario, responsabile dell’integrità della ricerca di Frontiers, che vieta ai revisori di caricare gli articoli sui siti dei chatbot, per mantenere la riservatezza dei dati.
Il rischio di questo approccio, secondo altri ricercatori, è che nella peggiore delle ipotesi potrebbe portare a una situazione in cui la ricerca scientifica diventa una sorta di dialogo automatizzato (qualcosa di simile alla “teoria dell’Internet morta”). I software che funzionano grazie agli LLM scriverebbero e revisionerebbero la maggior parte degli articoli, e questo scambio sarebbe poi utilizzato per addestrare nuovi modelli di intelligenza artificiale. Citazioni fantasma, affermazioni e immagini senza senso si insinuerebbero nei sistemi di conoscenza in modo sempre più profondo e difficile da filtrare, ha detto all’Atlantic Arthur Boston, ricercatore della Murray State University, in Kentucky.



