Che cosa può andar storto tra AI e medicina
«Gli algoritmi di AI usati in ospedale sono i miei “pazienti”, nel senso che il mio lavoro consiste nel diagnosticare i malfunzionamenti di queste macchine digitali e possibilmente di trovare delle cure. In sostanza non faccio che pormi la stessa domanda in tante salse diverse: come si possono rompere le AI?»

Una delle due sedi dell’ospedale universitario di Amsterdam è un gigantesco palazzone brutalista che tenta invano di nascondersi dietro a due filari di alberi; quando le facciate in cemento a vista furono erette nel 1980, era il più grande edificio d’Europa. Ci arrivo in metropolitana o in bici insieme a migliaia di altri dipendenti, tra cui medici, infermieri, amministrativi e ricercatori come me. Chi non ha bisogno di arrivare sul posto di lavoro attraversando il centro nelle piovose giornate olandesi sono gli algoritmi di intelligenza artificiale (AI) che lavorano a fianco dello staff ospedaliero.
A questo punto del racconto ci si può trovare davanti a un bivio: da una parte c’è chi si immagina un robot in camice bianco che batte il cinque allo specializzando con le occhiaie e gli dice «Anche oggi hai salvato una vita, Michael, sono fiero di te»; dall’altra c’è chi penserebbe subito alle macchine malvagie di Matrix o Terminator. La realtà è molto più prosaica: sono dei programmi per il computer.
A oggi nell’ospedale universitario di Amsterdam ce n’è una dozzina, attivi in vari reparti, e molti altri sono in costruzione o già in via di implementazione. Si occupano di attività disparate che possiamo raggruppare in due categorie: o fanno cose facili per gli umani ma molto più velocemente, o fanno cose che agli umani riescono difficili. Un esempio del primo tipo è una AI che scrive bozze di email per rispondere ai pazienti, un esempio del secondo caso è una AI che stima il livello di rischio per un paziente affetto da malattie cardiovascolari.
– Leggi anche: Stiamo costruendo troppi data center per l’intelligenza artificiale?
Questa divisione riflette anche una duplicità di obiettivi; nel primo caso ci si propone soprattutto di alleviare il carico di lavoro del personale, nel secondo invece ci si aspetta di migliorare la qualità della cura e dunque la salute dei pazienti. Entrambi gli obiettivi contribuiscono alla necessità di incrementare la produttività nel settore sanitario a fronte di costi in costante crescita e di personale in diminuzione. Ma ora basta non parlare di me.
Sono arrivato nei Paesi Bassi nel lontano 2011 come studente, poi una cosa ha tirato l’altra e ora mi trovo qui in pianta stabile. Dopo aver lavorato per diversi anni in una azienda che questi algoritmi li costruisce e implementa, ho intravisto alcuni dei problemi legati a questa tecnologia e ho deciso di farne il mio tema di ricerca in ambito universitario. Gli algoritmi di AI usati in ospedale sono i miei “pazienti”, nel senso che il mio lavoro consiste nel diagnosticare i malfunzionamenti di queste macchine digitali e possibilmente di trovare delle cure.
In sostanza non faccio che pormi la stessa domanda in tante salse diverse: come si possono rompere le AI? E cosa succede se questi guasti avvengono in un contesto sanitario? Ve ne racconto un paio.
– Leggi anche: Chi studia l’intelligenza artificiale non la fermerebbe nemmeno potendo
Problema tipico 1. Nel 2018 mi sono fatto male a un polso partecipando a uno di quegli stupidi bootcamp estemporanei dopo il lavoro a cui non hai nessuna voglia di andare, ma a cui ti aggreghi perché vanno tutti e non vuoi sembrare asociale. Insomma in uno di quei bei momenti in cui sei sfatto di fatica e il personal trainer ti dice «Spingiti al limite!», lo prendi in parola e ti rompi un tendine. È seguita la visita dal medico di famiglia che mi ha mandato dallo specialista in chirurgia plastica, non perché sono brutto, ma perché in Olanda – ops, Paesi Bassi – gli specialisti di chirurgia plastica si occupano anche di piccole articolazioni. Scettico, gli ho chiesto: «Ma cosa ne sa lei di polsi?». Serafico, mi ha risposto: «In effetti ho studiato chirurgia facciale, ma un’occhiata al polso gliela posso dare».
Ecco, ho pensato io, qui una AI si romperebbe: se a un’AI addestrata a fare chirurgie facciali noi chiedessimo consulti per i tendini del polso, questa AI direbbe delle fesserie, cosa che in effetti avrebbe potuto fare anche lo specialista con il mio polso. La cosa può sembrare ovvia, ma non lo è. Il punto è che i pazienti cambiano.
Fate conto che io abbia addestrato un’AI a predire il rischio di infarto usando i dati degli infarti registrati nella città di Monza dal 2000 al 2018, e ipotizzate che venga usata in un ospedale della città. All’inizio l’AI funziona bene: i pazienti che vede sono molto simili a quelli su cui ha imparato e quindi fa predizioni accurate. Ma dopo qualche anno vicino all’ospedale apre un’azienda che assume un sacco di persone giovani; si scopre che c’è stato uno sversamento di inquinanti che per qualche tempo è finito nelle tubature dell’acqua; il comune introduce una politica aggressiva che riduce il numero dei fumatori. Tutti questi eventi influenzano le caratteristiche della popolazione (età, assunzione di sostanze nocive, fumo) che hanno ripercussione sul rischio di infarto. A quel punto l’AI comincerà a vedere pazienti diversi rispetto a quelli su cui era stata addestrata – magari pazienti giovani e non fumatori che sono stati esposti a sostanze tossiche – e su questi pazienti potrebbe sbagliarsi di grosso.
Questa storia non è un esempio estremo, ma la norma: i pazienti – e dunque i loro dati – cambiano in continuazione perché il mondo cambia e noi continuiamo a cambiare la sanità (nuove terapie, nuovi macchinari, nuovi protocolli e via discorrendo) e le malattie evolvono, come la pandemia da COVID-19 ci ha insegnato. Questo significa che tutte le tecnologie sanitarie che si basano sull’analisi dei dati, come l’AI, sono vulnerabili: come lo specialista chirurgo facciale, rischiano di sbagliare quando hanno a che fare con nuovi pazienti che non conoscono. Il problema è che il nuovo avanza inesorabilmente: i pazienti che sottoponiamo ai programmi di AI prima o poi diventeranno diversi da quelli che gli erano stati sottoposti in fase di addestramento, e così occorrono continue contromisure perché questi programmi rimangano affidabili. Se non si fa, si danneggerà la salute dei pazienti.
Problema tipico 2. Quando ero piccolo i miei genitori mi portarono a visitare una abbazia di monaci benedettini in cui si raccoglievano e spremevano le olive. Rimasi molto impressionato da questo processo, in particolare dalla molitura fatta ancora con antiche macchine a freddo, e decisi che fare l’olio era la mia vocazione. Quando, poco tempo dopo, qualcuno mi chiese «Giovanni, cosa vuoi fare da grande?», io risposi convinto «Il monaco».
Questo è un classico errore da AI. I programmi medici basati sull’AI che stiamo costruendo sono tradizionalisti perché si basano sull’“apprendimento supervisionato” (in inglese supervised learning), il più comune in medicina. Imparano dal passato, cioè da dati raccolti in precedenza. Come uno scolaro troppo ligio, l’AI impara non solo quello che vogliamo insegnarle, ma da tutto quello che vede, anche da quello di cui non ci accorgiamo, incluse coincidenze e sviste, ma anche razzismo, misoginia, e così via. Va inevitabilmente a riproporre risposte basate sul “come si faceva una volta” e, se non ci si accorge per tempo di tendenze indesiderate, questo malfunzionamento può avere conseguenze molto serie.
Nel sistema giudiziario statunitense ci sono stati casi eclatanti di AI “razziste” o di programmi AI di selezione del personale “misogini” che non volevano assumere donne, ma storture simili possono accadere anche in ambito medico. Diverse ricerche hanno dimostrato la presenza di stereotipi razzisti che influenzano la misurazione del dolore nei pazienti e la conseguente distribuzione di antidolorifici. Una conseguenza, per esempio, è che negli Stati Uniti una persona di colore ha meno probabilità di ricevere un antidolorifico rispetto a una persona caucasica, a parità di livello di dolore. Così se addestriamo una AI a suggerire la prescrizione di antidolorifici basandoci su dati statunitensi e tra le caratteristiche del paziente includiamo l’etnia, allora imparerà che le persone di colore ricevono meno antidolorifici di quelle caucasiche, e continuerà a discriminare le persone di colore e a farle soffrire di più.
Nonostante il sapore distopico, non c’è nulla di sconcertante: dai cattivi maestri si imparano sempre comportamenti sbagliati e la rigidità è nemica della comprensione. In questo l’AI è tale e quale a noi, quella che cambia è la scala. Il danno che può fare un medico razzista è limitato al numero di pazienti che può vedere al giorno e al numero di colleghi che può influenzare, mentre una AI non solo non si stanca, non fa pause pranzo e non va in pensione, ma può dare consulti immediati a milioni di pazienti. Se i dati su cui è stata addestrata portano il programma a fare previsioni e dare suggerimenti razzisti, l’AI può fare molti danni a molte persone molto in fretta.
Problema tipico 3. Quando mi sento giù di morale faccio spesso una cosa che mi diverte tanto, ovvero cerco online dei grafici su correlazioni assurde. Lo so che suona nerd, ma fa davvero ridere, specialmente se ci sono persone che tentano di trovare una spiegazione razionale per queste correlazioni statistiche. Uno dei grandi classici è la correlazione tra i morsi degli squali ai bagnanti e il consumo di gelato: dai grafici si vede subito che nei periodi in cui si comincia a mangiare più gelato gli squali cominciano ad avere l’acquolina in bocca.
Ovviamente questo fenomeno non è dovuto al fatto che mangiare gelato ci renda più appetitosi, ma a una causa comune ai due fenomeni: la temperatura. Quando fa più caldo si tende a mangiare più gelato e anche a fare il bagno in mare, e dunque a rischiare di essere addentati da uno squalo. Cosa c’entra questo con l’AI? È presto detto: se non si prendono precauzioni specifiche l’AI troverebbe la correlazione tra gelati e squali e, in questo caso, potrebbe suggerirci di mangiare meno gelati se vogliamo evitare gli attacchi degli squali. Questa, però, è una storia vera.
Alcuni ricercatori statunitensi svilupparono un’AI per predire il rischio di mortalità per pazienti ricoverati in ospedale con la polmonite, distinguendo tra quelli a basso rischio, curabili dal medico di famiglia, e quelli ad alto rischio che richiedevano l’ospedalizzazione. Nonostante il programma sembrasse accurato, ci si accorse che i pazienti asmatici venivano classificati a basso rischio perché – come risultava dai dati di addestramento – in ospedale avevano ricevuto cure intensive che avevano portato a una mortalità più bassa rispetto agli altri pazienti con polmonite. In altre parole, siccome dai dati storici risultava che gli asmatici avevano una mortalità in media più bassa per via delle cure intensive, avere l’asma era correlato a una bassa mortalità. Il cortocircuito: se i pazienti asmatici fossero stati davvero classificati a basso rischio e mandati a casa, non avrebbero ricevuto cure adeguate e probabilmente sarebbero morti in numero maggiore rispetto a quando a valutarli erano solo medici umani. (Per fortuna il programma non venne implementato).
È un problema fondamentale: se quello che ci interessa è cambiare il modo in cui agiamo – per esempio il percorso di cura dei pazienti con polmonite – imparare dalle correlazioni che emergono nei dati del passato non è furbissimo. Bisogna sempre risalire alle cause che stanno dietro agli eventi e chiedersi: perché gli squali attaccano di più quando si mangia il gelato? Perché i pazienti asmatici avevano un basso rischio?
L’AI in medicina può essere un’innovazione utilissima, ma ogni tecnologia ha costi e conseguenze, e se i possibili malfunzionamenti dell’AI non si prevedono in anticipo, i successivi effetti collaterali possono essere molto gravi. È bene ricordarselo in questi giorni di corse forsennate verso la nuova versione di AI.
– Leggi anche: Quanto fidarsi delle AI per la nostra salute












