Come imparano gli assistenti vocali

Devono ascoltare molto, per questo chi li produce ha bisogno di registrare e conservare suoni e conversazioni in ogni lingua e dialetto

di Jing Cao e Dina Bass – Bloomberg

Echo di Amazon ha reso tangibile la promessa di avere in ogni casa un assistente personale dotato di intelligenza artificiale. Chi possiede il dispositivo ad attivazione vocale (che colloquialmente viene chiamato Alexa, dal nome della sua assistente vocale, e non è ancora disponibile in Italia) tende a fare proselitismo facendo leva sul suo fascino ed elogiando la sue capacità, che permettono di prenotare un’auto di Uber, ordinare una pizza o controllare i compiti di matematica di uno studente al secondo anno delle superiori. Amazon dice che oltre 5.000 persone al giorno professano il loro amore per Alexa. D’altra parte, però, i devoti del dispositivo sanno anche che se non le si parla in modo molto chiaro e lento, è probabile che la sua risposta sia: «Mi dispiace! Non ho la risposta a questa domanda». «La amo, la odio e la amo», ha scritto un cliente sul sito di Amazon, assegnando comunque cinque stelline ad Alexa nella sua recensione. «Imparerete molto velocemente come parlarle in un modo che riesca a capire, e come non sia molto diverso da parlare con un bambino fastidioso».

Negli ultimi anni la tecnologia di riconoscimento vocale ha fatto molta strada, ma non è ancora abbastanza efficiente da diffondersi per un uso quotidiano e dare inizio a una nuova era di interazioni tra esseri umani e macchine, permettendoci di parlare con tutti i nostri dispositivi come auto, lavatrici e televisioni. Nonostante i progressi del riconoscimento vocale, la maggior parte delle persone continua a usare le dita per scorrere, dare colpetti e cliccare sullo schermo, e probabilmente continuerà a farlo nel prossimo futuro. Cosa sta frenando il progresso? In parte l’intelligenza artificiale che alimenta queste tecnologie ha margini di miglioramento. Ma c’è anche una seria carenza di dati: nello specifico, di tracce audio di voci umane che parlano in lingue, accenti e dialetti diversi, spesso in presenza di un rumore in sottofondo, che possono non essere compresi dal software. Per questo Amazon, Apple, Microsoft e Baidu, la società che gestisce il principale motore cinese della Cina, hanno iniziato a cercare in tutto il mondo terabyte di discorsi umani. Microsoft ha creato finti appartamenti in diverse città del mondo per registrare le conversazioni di alcuni volontari in ambienti domestici. Amazon carica ogni ora in un magazzino digitale le domande fatte ad Alexa. Baidu si sta dando da fare per raccogliere dati su tutti i dialetti cinesi. Queste società usano poi i dati per insegnare ai loro computer ad analizzare, comprendere e reagire a comandi e domande.

La sfida è trovare un modo per registrare conversazioni naturali e reali. Il 95 per cento di precisione non è abbastanza, ha detto Adam Coates, che gestisce il laboratorio di intelligenza artificiale di Baidu a Sunnyvale, in California. «Il nostro obiettivo è ridurre la percentuale di errore all’uno per cento», ha detto, «a quel punto si può davvero confidare nel fatto che il dispositivo capisca quello che viene detto: sarà una trasformazione».

Fino a non molto tempo fa la tecnologia per il riconoscimento vocale era così rudimentale da essere comica. Nel 2006, durante una dimostrazione davanti a un pubblico di analisti e investitori, una versione iniziale della tecnologia di Microsoft integrata all’interno di Windows trascrisse la parola “mum” (“mamma”) come “aunt” (“zia”). Quando cinque anni fa Apple presentò Siri, i suoi errori – mostrava risultati sbagliati o non riusciva a capire le domande – furono molto presi in giro. Quando le si chiedeva se l’attrice Gillian Anderson fosse britannica, Siri rispondeva fornendo una lista di ristoranti inglesi. Oggi Microsoft sostiene che la sua tecnologia di riconoscimento vocale faccia lo stesso numero di errori dei trascrittori professionisti, o addirittura meno. L’assistente vocale di Apple si sta faticosamente guadagnando il rispetto degli utenti, mentre Alexa ci ha permesso di dare un’occhiata affascinante al futuro.

Gran parte di questi progressi si devono alla magia delle reti neurali, una forma di intelligenze artificiali che si ispirano alla struttura del cervello umano. Le reti neurali riescono a imparare senza essere esplicitamente programmate per farlo, ma di solito richiedono un enorme numero di dati eterogenei. Più dati un motore di riconoscimento vocale consuma, meglio impara a comprendere voci diverse e più si avvicina all’obiettivo finale di ottenere una conversazione naturale in un gran numero di lingue e situazioni diverse. Da qui la corsa globale per registrare una serie di voci diverse. «Più dati registriamo nei nostri sistemi, migliori saranno le prestazioni», ha detto Andrew Ng, il capo degli scienziati di Baidu, «per questo il riconoscimento vocale è una tecnologia che richiede forti investimenti di capitale. Non ci sono molte organizzazioni che hanno così tanti dati».

Quando negli anni Novanta il settore tecnologico iniziò a lavorare seriamente sul riconoscimento vocale, società come Microsoft si affidavano su dati pubblici di istituti di ricerca come il Linguistics Data Consortium, un deposito di dati vocali e testuali fondato nel 1992 con il sostegno del governo americano, che si trova all’interno della University of Pennsylvania. Le aziende tecnologiche iniziarono poi a raccogliere autonomamente dati vocali, in alcuni casi grazie a volontari che venivano registrati mentre leggevano dei testi. Ora che i software a controllo vocale stanno diventando più popolari, queste società raccolgono gran parte dei dati attraverso i loro prodotti e servizi.

Quando chiedete al vostro telefono di cercare qualcosa, far partire una canzone o portarvi da qualche parte, è possibile che un’azienda vi stia registrando (Apple, Google, Microsoft e Amazon sottolineano che rendono i dati anonimi per tutelare la privacy dei loro clienti). Quando chiedete ad Alexa che tempo fa o qual è il risultato di una partita, il dispositivo sfrutta le domande per migliorare la sua capacità di comprendere il linguaggio naturale (Alexa però non ascolta le vostre conversazioni, a meno che non diciate il suo nome). «Alexa è progettata per diventare più intelligente man mano che la si usa», ha detto Nikko Strom, senior principal scientist del programma.

Una delle sfide principali è far sì che la tecnologia raggiunga una buona conoscenza di lingue, accenti e dialetti diversi. Il posto dove questo fattore è più importante forse è la Cina. Nel tentativo di raccogliere dati sui dialetti di tutto il paese, quest’anno Baidu ha avviato una campagna di marketing durante il capodanno cinese. La società ha chiamato il progetto “Iniziativa per la conversazione in dialetto”, e ha promesso agli utenti che contribuendo avrebbero aiutato a raggiungere un futuro in cui avrebbero potuto parlare a Baidu nel loro dialetto. In due settimane la società ha registrato oltre mille ore di discorsi da inserire nei suoi computer. Molte persone hanno partecipato semplicemente perché erano orgogliosi dei loro dialetti nativi. Il programma ha entusiasmato un insegnante delle superiori della provincia cinese dello Sichuan al punto di arrivare a chiedere a una classe di suoi studenti di registrare oltre mille poesie antiche in sichuanese.

Un’altra sfida è insegnare alla tecnologia di riconoscimento vocale a cogliere comandi pronunciati in presenza di un rumore di fondo, come il baccano di un aperitivo o la cacofonia di uno stadio. Microsoft ha sviluppato un’app per Xbox chiamata Voice Studio per raccogliere le conversazioni sopra il chiasso degli utenti che sparavano ai cattivi dei videogiochi o guardavano un film. In cambio della partecipazione, la società ha offerto dei punti o dei vestiti digitali per gli avatar degli utenti, attirando centinaia di persone disposte a contribuire all’iniziativa di Microsoft con le conversazioni pronunciate mentre giocavano. Il programma ha avuto un successo enorme in Brasile, dove una società locale controllata da Microsoft ha promosso molto l’app sulla pagina principale di Xbox. I dati raccolti sono poi stati usati per creare la versione di Cortana in portoghese brasiliano, uscita quest’anno.

Le varie società stanno anche progettando sistemi di riconoscimento vocale pensati per situazioni specifiche. Microsoft sta testando una tecnologia in grado di rispondere alle richieste dei viaggiatori senza farsi distrarre dagli annunci continui degli aeroporti. Al momento un’altra tecnologia della società viene usata per un sistema di ordinazione automatico nei McDrive di McDonald’s, ed è sviluppata in modo da ignorare i suoni stridenti, le urla dei bambini e gli “ehm” dei clienti, riuscendo poi a elaborare un ordine complicato azzeccando persino i condimenti. Amazon sta svolgendo dei test nelle auto, cercando di far funzionare Alexa in modo efficace anche in presenza di rumori stradali e con i finestrini aperti.

Anche se setacciano il mondo in cerca di dati, le aziende stanno cercando modi per migliorare il riconoscimento vocale usandone meno. La tecnologia che sta testando Microsoft a McDonald’s è più precisa di altri sistemi che usano molti più dati, ha detto Xuedong Huang, capo della società che da vent’anni lavora al riconoscimento vocale di Microsoft. «Si possono ottenere innovazioni anche senza usare così tanti dati», ha detto Huang.

Generalmente Google segue la filosofia del fare-di-più-con-meno. Per migliorare il suo servizio, Google adotta un approccio graduale che sfrutta unità di suono indecifrabili per costruire poi parole ed espressioni. Con il suo sistema di riconoscimento vocale Google punta a risolvere diversi problemi facendo solo un cambiamento, e mette insieme decine di migliaia di frammenti audio che di solito durano dai due ai cinque secondi. Il processo richiede meno potenza computazionale e può essere facilmente testato e modificato, ha detto il ricercatore di Google Françoise Beaufays. Baidu, invece, sta lavorando ad algoritmi più efficienti, per i quali imparare una sola lingua rende più facile impararne altre dodici. È una cosa particolarmente importante per le lingue parlate da decine di migliaia di persone, piuttosto che per quelle parlate da milioni, per le quali in ogni caso non ci sarebbero grandi raccolte di dati, ha detto il capo scienziato di Baidu.

Se si chiede loro quando sarà possibile parlare in modo naturale agli assistenti personali, i ricercatori diventano pensierosi. Nessuno lo sa dire davvero. Le reti neurali continuano a essere un mistero anche per quelli che le capiscono meglio. La maggior parte del lavoro è fatto per tentativi ed errori: si fanno aggiustamenti senza mai essere davvero sicuri di quali saranno i risultati. Ma Ng, Huang, Beaufays e gli altri scienziati sostengono che non si può mai sapere quando arriverà un’innovazione in grado di catapultare in avanti la ricerca e trasformare Alexa e Siri in veri conversatori.