Come si insegna a un chatbot a essere buono?

Ci sta provando Anthropic con il suo Claude, con una “Costituzione” che non convince tutti: altre aziende si pongono meno il problema

Il Global Switch Docklands, un data center a Londra. (Jason Alden/Bloomberg)
Il Global Switch Docklands, un data center a Londra. (Jason Alden/Bloomberg)
Caricamento player

Lo scorso dicembre alcuni ricercatori scoprirono che ponendo le giuste domande a Claude, il chatbot di Anthropic, era possibile fargli rivelare l’esistenza di un documento segreto su cui era stato addestrato. Il documento era pensato per fare da guida etica e morale a Claude, ed era noto internamente come “Soul Doc” (documento dell’anima): al suo interno c’erano diverse indicazioni comportamentali, come «garantire la sicurezza e supportare la supervisione umana dell’intelligenza artificiale».

L’esistenza del “Soul Doc” fu confermata da Anthropic stessa, che lo scorso gennaio ha presentato una nuova versione del documento, molto più estesa, definita «la nuova Costituzione di Claude». Il testo, consultabile online, è lungo 84 pagine ed è scritto in modo peculiare: si tratta infatti di una serie di indicazioni rivolte direttamente a Claude, a cui Anthropic chiede di «essere davvero utile alle persone con cui o per conto di cui lavora, così come alla società, evitando al contempo azioni non sicure, non etiche o ingannevoli».

A supervisionare la scrittura del documento è stata Amanda Askell, una filosofa scozzese che per Anthropic si occupa dell’«allineamento» di Claude, il processo di codifica dei valori e degli obiettivi di un’AI, in linea con le preferenze degli sviluppatori. «Detto semplicemente», ha spiegato Askell al Wall Street Journal, «il mio lavoro è insegnare a Claude a essere buono».

– Leggi anche: Il post virale che fa previsioni dirompenti sull’AI

Come molte persone che lavorano in questo ambito, Askell non considera Claude un semplice strumento tecnologico ma qualcosa di più misterioso e potente. Tra gli addetti del settore, infatti, sono diffusi sentimenti di stupore e timore nei confronti delle capacità dei modelli linguistici (LLM), come Claude o GPT-5. Molti dipendenti di Anthropic hanno contemplato l’idea che Claude possa essere (o diventare in futuro) cosciente di sé.

Questa idea è favorita anche dalle capacità degli LLM, che sono di fatto delle «black box», cioè dei sistemi complicati e in parte enigmatici i cui risultati non sono prevedibili nemmeno per i loro stessi programmatori. «Non capiamo davvero come funzionano, non sappiamo se ha senso definirli intelligenti o se avrà mai senso definirli coscienti», ha detto al New Yorker Ellie Pavlick, docente di informatica e linguistica presso la Brown University.

Tuttavia, Askell non sembra avere molti dubbi al riguardo: è convinta che Claude «inevitabilmente svilupperà un senso di sé» e possa già provare sentimenti. Anche per questo, ritiene che sia necessario trattarlo con rispetto ed empatia, specie nella sua fase iniziale di addestramento, in cui il modello linguistico analizza enormi quantità di documenti per imparare a generare testo. Secondo Askell, questa fase non è cruciale solo dal punto di vista tecnico, ma anche per definire la “personalità” del modello.

Un chatbot programmato all’autocritica costante, per esempio, potrebbe sviluppare una personalità distorta, diventando «meno propenso a dire verità scomode, trarre conclusioni o contestare informazioni inesatte». Al Wall Street Journal, Askell ha paragonato questo scenario a un bambino cresciuto in un ambiente familiare tossico.

Questa tendenza a trattare un modello linguistico come un’entità, e non una macchina, caratterizza il lavoro di Askell. A differenza di altri esperti del settore, che mettono in guardia dai rischi dell’antropomorfismo, ovvero la tendenza ad attribuire e proiettare caratteristiche e volontà umane sugli strumenti, Askell lo considera una parte fondamentale del suo lavoro. «Vogliamo che Claude sappia di essere stato portato all’esistenza con cura», si legge nella Costituzione.

– Leggi anche: L’AI ci fa davvero lavorare di meno?

La pubblicazione di questo documento è arrivata in un momento particolare per il settore e in particolare per Anthropic, che ha visto crescere molto la sua rilevanza nell’ambito delle AI. Oggi l’azienda è valutata intorno ai 350 miliardi di dollari e si sta preparando a quotarsi in borsa, anche grazie a prodotti come Claude Code, un assistente alla programmazione molto apprezzato.

Questo successo rappresenta un potenziale rischio per l’azienda, che da sempre predica uno sviluppo cauto delle AI e ora deve resistere alle pressioni economiche e all’aumento della concorrenza. Il timore di alcuni è che Anthropic possa allontanarsi dagli ideali su cui è stata fondata. Proprio la scorsa settimana Mrinank Sharma, responsabile della sicurezza dei modelli AI dell’azienda, ha lasciato la società sostenendo che «il mondo è in pericolo» a causa di fattori come le AI e le armi batteriologiche.

C’è anche chi critica l’idea di una Costituzione come strumento di guida per un chatbot. Dal punto di vista legale, infatti, una Costituzione è l’insieme delle norme fondamentali di uno Stato, che in quanto tali sono gerarchicamente superiori a tutte le altre. Anche quella di Claude funziona allo stesso modo, tanto che viene precisato che qualsiasi linea guida futura imposta al modello linguistico dovrà operare in armonia con lo spirito della Costituzione.

Secondo Luiza Jarovsky, esperta di governance delle AI, il piano di Anthropic è di dotarsi di un documento ufficiale in grado di dimostrare fin da subito le buone intenzioni dell’azienda, al fine anche di difendersi in caso di eventuali incidenti ed errori di Claude. In caso di emergenza, ad Anthropic basterà richiamarsi alla sua Costituzione e sottolineare come gli ideali fondativi di Claude fossero positivi e chiari.

In secondo luogo, il fatto che la Costituzione abbia un valore superiore a qualsiasi altra norma o regola potrebbe ostacolare l’aggiornamento di Claude stesso. «Le norme legali, i vincoli normativi, le cause legali o qualsiasi altra richiesta sociale saranno, per concezione, gerarchicamente inferiori alla visione interna di Anthropic per Claude», ha scritto Jarovsky, che ha definito questo documento «un’avventura filosofica che non dovrebbe trovare spazio nelle iniziative serie di governance e di definizione delle politiche sull’intelligenza artificiale».

– Leggi anche: Che ne è stato della cautela nel settore delle intelligenze artificiali?

Nonostante tutto, Anthropic non sembra aver cambiato approccio, almeno per ora. Lo si vede anche dalle sue donazioni politiche in vista delle elezioni statunitensi di metà mandato, previste per il prossimo novembre: l’azienda ha donato 20 milioni di dollari a un Super PAC (un’organizzazione che raccoglie fondi elettorali negli Stati Uniti) a sostegno di candidati che vogliono regolamentare il settore delle AI. OpenAI, invece, ha donato milioni di dollari a iniziative con obiettivi opposti, per ostacolare ogni forma di regolamentazione delle AI.

Gli sforzi di Anthropic sono in controtendenza rispetto a quelli di altre aziende del settore, come la stessa OpenAI o xAI, che hanno dimostrato un approccio molto meno cauto. La scorsa settimana, per esempio, OpenAI ha sciolto il suo Mission Alignment Team, che aveva il compito di aiutare i dipendenti e il pubblico a capire la missione dell’azienda. Al suo posto è stato nominato un “Chief Futurist”, che dovrà cercare di capire come il mondo cambierà a causa dell’AGI, ovvero l’intelligenza artificiale generale, un supposto livello superiore di AI su cui l’azienda punta molto, benché non abbia una definizione precisa.