I rischi di un’intelligenza artificiale che si sviluppa da sola

Anthropic dice di esserci vicina, e che la cosa da fare – ma che non faremo – sarebbe rallentare tutto il settore

Caricamento player

La scorsa settimana Anthropic, l’azienda che sviluppa il chatbot di intelligenza artificiale (AI) Claude, ha scritto sul suo sito un lungo post in cui sostiene che tutto il settore dovrebbe rallentare o fermarsi temporaneamente per via dei crescenti rischi dovuti al rapido sviluppo che sta osservando. Non è una novità: Anthropic è nota per i suoi richiami alla cautela, che però fin qui sono rimasti più un modo per tenere alta la propria reputazione di azienda “etica” che la base di interventi concreti. Anthropic è infatti insieme a OpenAI l’azienda che ha raggiunto i risultati più sorprendenti con i suoi modelli di intelligenza artificiale e ha da poco annunciato di volersi quotare in borsa.

Nel suo invito a rallentare, Anthropic spiega che oggi circa l’80 per cento del codice prodotto dall’azienda viene generato da Claude. Fino all’inizio del 2025, la maggioranza del lavoro veniva svolto dai programmatori di Anthropic e la quota di codice scritta da Claude si aggirava attorno a pochi punti percentuali: la rapidità con cui è cresciuto l’intervento di Claude è, secondo l’azienda, un segnale che lo sviluppo dell’AI sta accelerando in modo difficile da controllare. La prospettiva è che possa portare in breve tempo al raggiungimento di uno degli obiettivi più ambiziosi e temuti del settore: l’auto-miglioramento ricorsivo (recursive self-improvement).

Si tratta di uno scenario per ora ancora teorico, in cui un’AI diventa talmente efficace nella scrittura di codice da sviluppare autonomamente la propria versione successiva, innescando un ciclo di miglioramenti continui (o ricorsivi, da cui il nome), fino a superare la capacità di comprensione degli esseri umani. Pur non essendo un esito certo, Anthropic considera l’auto-miglioramento ricorsivo un risultato possibile e non così lontano.

La media di codice scritto per sviluppatore: dal 2025 in poi il riferimento è alla media dei 4 anni precedenti (Anthropic)

La scrittura di codice e lo sviluppo di software sono state infatti tra le applicazioni recenti di maggior successo dei chatbot di intelligenza artificiale. I primi chatbot ad assistere i programmatori nella generazione di codice sono usciti nel 2022, ma è nell’ultimo anno che si sono diffusi gli agenti AI, sistemi in grado di svolgere autonomamente attività online per conto dell’utente, compreso lo sviluppo di software. Uno dei servizi più apprezzati e avanzati in questo campo è proprio Claude Code, l’assistente AI sviluppato da Anthropic.

Il miglioramento recente delle capacità di Claude non riguarda solo la quantità di codice generato ma soprattutto la sua qualità. Secondo Anthropic, alla fine dell’anno scorso il codice generato dall’AI era ancora peggiore di quello scritto dagli sviluppatori di Anthropic, mentre oggi è più o meno della stessa qualità. L’aspettativa è che il codice generato diventi migliore di quello umano entro quest’anno. Se questa tendenza dovesse continuare, dice l’azienda, è lecito pensare che «le future versioni di Claude potrebbero essere migliorate continuamente da Claude stesso».

Lo sviluppo di modelli avanzati non prevede solo la scrittura di codice ma anche la fase di ricerca, che consiste nel definire esperimenti, analizzarne i risultati e decidere come proseguire. Anche su questo fronte, Claude sta facendo progressi nel sostituire il lavoro umano. Lo scorso aprile l’azienda ha pubblicato i risultati del primo progetto di ricerca completo condotto autonomamente da Claude. Gli agenti AI hanno ottenuto risultati nettamente migliori rispetto ai ricercatori umani, pur impiegando più ore di lavoro complessivo.

L’idea di un’AI abbastanza avanzata da potersi sviluppare e migliorare da sola è da tempo al centro delle ambizioni – e dei timori – del settore. Questa eventualità viene spesso considerata un elemento fondamentale per il raggiungimento della singularity (o singolarità tecnologica), termine con cui si indica un ipotetico momento in cui la tecnologia accelererà fino a sfuggire del tutto al controllo degli esseri umani. Il concetto di singularity, per quanto vagamente fantascientifico, viene studiato da decenni e prevede che un’AI in grado di migliorarsi da sola finisca per innescare una serie continua di cicli di miglioramento, aumentando esponenzialmente le proprie capacità.

La singolarità tecnologica riprende in parte il concetto di «esplosione di intelligenza» (intelligence explosion) teorizzato nel 1965 dal matematico britannico Irving John Good, tra i primi a immaginare una «macchina ultraintelligente» in grado di superare di gran lunga tutte le attività intellettuali di qualsiasi essere umano. Secondo Good, «poiché la progettazione di macchine è una di queste attività intellettuali, una macchina ultraintelligente potrebbe progettare macchine ancora migliori; si verificherebbe quindi, incontestabilmente, un’“esplosione di intelligenza”». Good definì una simile macchina «l’ultima invenzione che l’uomo abbia mai bisogno di fare», per poi aggiungere: «a condizione che la macchina sia abbastanza docile da dirci come tenerla sotto controllo».

Il rischio che un’AI abbastanza avanzata possa sfuggire al controllo dei suoi creatori circola nel settore da tempo, e negli scorsi anni ha ispirato spesso dichiarazioni pessimistiche e apocalittiche.

Nelle scorse settimane proprio Anthropic ha fatto parlare di sé da questo punto di vista con Mythos, un modello AI in grado di individuare falle in sistemi informatici ritenuti sicuri ormai da decenni, tanto da spaventare la stessa amministrazione di Donald Trump, altrimenti molto permissiva nei confronti di questo settore.

– Leggi anche: Quanto dobbiamo preoccuparci di Mythos

Secondo Anthropic, ci sono tre scenari per il futuro del settore. Nel primo, considerato il meno probabile, il progresso tecnologico rallenta prima di arrivare a un’AI capace di auto-miglioramento ricorsivo, a causa della scarsità di chip abbastanza potenti o di limiti tecnologici insiti nei modelli linguistici, la tecnologia alla base di queste AI. Anche in questo caso, comunque, i rischi legati a modelli come Mythos rimarrebbero.

Nel secondo scenario, considerato il più probabile, lo sviluppo di modelli sempre più efficienti trasforma radicalmente aziende e istituzioni, permettendo a gruppi di cento persone di fare il lavoro di diecimila o centomila, grazie a delle AI capaci e autonome. In questo caso gli esseri umani continuano ad avere un ruolo rilevante nell’economia globale, aiutati dalle macchine. È nel terzo scenario, invece, che gli esseri umani vengono ridotti a un ruolo marginale a causa dello sviluppo senza precedenti dell’AI: secondo Anthropic, però, immaginare uno scenario simile è complesso perché è difficile prevedere «come sarà l’economia se il lavoro umano smette di essere competitivo».

Secondo l’Economist, esistono dei fattori che potrebbero rallentare il progresso del settore, impedendo il raggiungimento dell’auto-miglioramento ricorsivo, come ipotizzato nel primo scenario. Un aumento dell’utilizzo di questi strumenti da parte degli utenti, per esempio, avrebbe un effetto frenante, perché porterebbe il settore delle AI a dividere una quantità finita di potenza computazionale tra quella necessaria al funzionamento dei prodotti e quella destinata allo sviluppo di nuovi modelli. Più aumenta la richiesta per la prima, meno risorse si hanno a disposizione per la seconda.

Un altro possibile limite alla teoria dell’auto-miglioramento riguarda i dati su cui i modelli di AI vengono addestrati. Gran parte dei recenti avanzamenti dell’IA è avvenuta in settori dove i modelli possono apprendere autonomamente attraverso le cosiddette “ricompense verificabili”, un metodo di sviluppo in cui il lavoro di un modello AI viene giudicato su ambiti facilmente dimostrabili e oggettivi: un software funziona o non funziona; una dimostrazione matematica è corretta oppure errata. Altri ambiti, come la scrittura creativa o la discussione di questioni legali, sono meno oggettivi e non permettono quindi di automatizzare lo sviluppo dei modelli, frenandone il progresso.

La proposta di Anthropic è un rallentamento o un fermo autoimposto nello sviluppo di AI avanzate. Tuttavia, per essere davvero efficace, dovrebbe mettere d’accordo tutte le aziende e i laboratori del mondo.

È un’ipotesi molto improbabile, vista la concorrenza crescente nel settore: tra aziende come Anthropic e OpenAI, ma anche più in generale tra paesi come Stati Uniti e Cina, che considerano le AI una tecnologia fondamentale per la sicurezza nazionale. Affinché un simile accordo venga rispettato da tutte le aziende e i paesi interessati, dovrebbero esserci meccanismi di controllo e verifica trasparenti per assicurarsi che nessuno stia veramente procedendo nello sviluppo di questi sistemi: «l’incentivo a non rispettare il patto di nascosto è enorme: chi continua mentre gli altri si fermano potrebbe passare in vantaggio», nota la stessa Anthropic.

C’è anche un altro argomento che l’azienda usa per giustificare il suo continuo investimento nello sviluppo di AI avanzate: proprio perché il suo approccio è il più cauto e responsabile, spetta ad Anthropic raggiungere prima degli altri i progressi più importanti. Non farlo, secondo la logica dell’azienda, sarebbe un fattore di rischio globale, perché lascerebbe il posto ad altre società del settore, meno responsabili e attente. Dal suo punto di vista, quindi, Anthropic non può rallentare: nonostante la sua proposta per un blocco temporaneo per tutto il settore, essa ritiene che un eventuale rallentamento da parte sua «permetterebbe semplicemente agli attori meno cauti di raggiungerci tecnologicamente».

Tag: anthropic-claude-ia-intelligenza artificiale