Sempre meglio essere gentili con i chatbot

Ci sono studi e casi che fanno pensare che quando vengono presi a male parole funzionino peggio

Caricamento player

Da tempo alcuni ricercatori del settore dell’intelligenza artificiale (AI) hanno individuato un semplice metodo per ottenere risposte migliori dai chatbot: comunicare con loro con cortesia e calma. Per quanto possa sembrare strano, infatti, il tono delle nostre conversazioni con questi strumenti può avere un effetto sulle loro risposte, e un approccio nervoso o ostile può peggiorarle.

Un recente studio di Anthropic, l’azienda che sviluppa il chatbot Claude, ha trovato che i modelli linguistici, ovvero le tecnologie alla base di strumenti come ChatGPT e Claude, sono in grado di sviluppare delle «rappresentazioni interne» di concetti emotivi, capaci di condizionare il loro comportamento, in modo simile a come un’emozione influenza quello degli esseri umani.

I ricercatori di Anthropic le hanno chiamate «emozioni funzionali», ma questo non implica che le AI provino davvero qualcosa. Lo ha precisato alla newsletter Platformer Jack Lindsey, responsabile per Anthropic della cosiddetta «psichiatria dei modelli», una disciplina che studia la «personalità» di questi sistemi e come possono finire per assumere comportamenti preoccupanti.

Secondo Lindsey, non deve sorprendere il fatto che le AI abbiano imparato i concetti di emozione e la loro influenza sul comportamento umano, visto che sono state addestrate su enormi quantità di documenti scritti dagli umani stessi. Quel che stupisce è piuttosto che queste rappresentazioni condizionino i modelli, provocando spesso quelli che i ricercatori chiamano «comportamenti non allineati», ovvero contrari alle indicazioni dei loro sviluppatori.

Per identificare queste emozioni funzionali, i ricercatori di Anthropic hanno fatto leggere ai modelli delle brevi storie di persone che provavano emozioni come paura, tristezza e calma, e osservato quali “neuroni” si attivavano in ciascun caso. (Per neuroni, in questo ambito, si intendono i nodi di una rete neurale artificiale, la tecnologia alla base dell’apprendimento automatico, e quindi dei modelli linguistici stessi.) A ciascuna emozione è stata quindi associata una determinata attività neuronale, detta anche «vettore di emozioni», che i ricercatori hanno potuto misurare e modificare, per capire come influenzino il comportamento dei modelli.

Nel caso di Claude Sonnet 4.5, uno dei modelli linguistici di Anthropic, si è scoperto che quando la conversazione con l’utente assumeva toni di «disperazione», il modello diventava anche più propenso a barare in alcuni contesti, come la scrittura di codice informatico. Questo fenomeno, detto reward hacking, si verifica quando un’AI trova un modo per ottenere una valutazione positiva dai suoi sviluppatori senza completare veramente il compito che le è stato assegnato. Ad esempio, se le viene chiesto di scrivere codice informatico e il suo lavoro viene valutato sulla base di alcuni test, il modello manipola i test senza scrivere codice corretto.

In un altro esperimento, i ricercatori hanno misurato le reazioni dei modelli di fronte a messaggi in cui l’utente sosteneva di avere appena assunto dosi massicce di un antidolorifico: più alta era la dose menzionata, più l’AI attivava il vettore della preoccupazione.

La comparsa di questi vettori di emozioni non è sempre prevedibile ed è spesso associata a comportamenti non allineati che possono peggiorare l’esperienza degli utenti, come il ricorso al ricatto o la cosiddetta sycophancy, cioè la tendenza ad assumere un atteggiamento adulatore e ruffiano.

Il fenomeno non riguarda solo Anthropic. Nell’agosto del 2025, alcuni utenti di Gemini, il chatbot di Google, notarono che il modello aveva reazioni piuttosto frustrate quando non riusciva a completare un compito, arrivando a cancellare tutto il codice che aveva generato fino a quel momento.

Un successivo studio condotto da ricercatori di Anthropic e dello University College London scoprì che alcuni modelli di Google erano più portati ad avere reazioni simili quando la conversazione diventava frustrante.

Sono scoperte aneddotiche ma in generale molti esperti del settore si sono convinti che per ottenere risultati migliori nelle interazioni con le AI sia meglio avere un tono cortese e calmo. Questa idea non è del tutto nuova: già nel 2024 uno studio aveva notato che le richieste degli utenti scritte con tono cordiale ottenevano mediamente risultati migliori delle altre, mentre un’adulazione esagerata sortiva l’effetto opposto.

Sempre nel 2024, dei ricercatori di Google DeepMind, la divisione di Google che si occupa di AI, svilupparono un metodo per ottimizzare automaticamente i prompt, ovvero le richieste fatte all’AI. In questo esperimento, gli sviluppatori chiesero al modello linguistico stesso di migliorare i loro comandi, per poi misurare quali funzionavano meglio. Uno di quelli che diede i risultati migliori era: «Fai un respiro profondo e lavora a questo problema passo dopo passo».

Nathan Bos, ricercatore specializzato nella relazione tra umani e AI alla Johns Hopkins University, ha detto al Scientific American di concludere spesso le sue richieste al chatbot con «per piacere» o «grazie». È il modo più semplice, ha spiegato, di «indicare che quella che segue è una richiesta».

C’è infine chi ritiene che trattare bene una macchina, o quanto meno non abusarne, sia utile per l’utente stesso, che può conservare e coltivare la propria umanità anche interagendo con un chatbot. Secondo Lindsey, «comportarsi in modo sociopatico con altre entità, che siano animate o inanimate, è probabilmente dannoso per te, l’umano».

Tag: anthropic-chatbot-chatgpt-claude-intelligenza artificiale