Questo articolo non l’ho scritto

I sistemi di riconoscimento vocale degli smartphone sono migliorati moltissimo negli ultimi anni, spiega Will Oremus su Slate

di Will Oremus – Slate

Questo articolo non lo sto scrivendo, lo sto dettando al mio iPhone mentre attraverso gli affollati marciapiedi di New York, camminando verso il mio ufficio nel West Village.

A dire il vero le funzioni di riconoscimento vocale dell’iPhone non era [sic] state pensate per comporre lunghi articoli di giornale. Scusate, quello avrebbe dovuto essere “erano”. Alcuni errori di trascrizione sono inevitabili, ma sto facendo questo esperimento per mostrarvi una cosa: i nostri telefonini sono diventati incredibilmente bravi a comprendere la nostra voce, e sono probabilmente molto meglio di quanto vi ricordiate se non avete provato a parlare loro da un po’ di tempo.

La tecnologia di riconoscimento vocale ricevette molta attenzione quando Apple presentò per la prima volta Siri, quattro anni fa, in questi giorni. Tuttavia, se siete come la maggior parte delle persone che hanno un iPhone, è probabile che vi siate presto autenticati della voce canora del vostro assistente derubricandola a giochino con cui fare quattro risate tra amici, a una festa. (Scusate ancora, quello avrebbe dovuto essere “dimenticati”, non “autenticati”; e “sonora”, non “canora”). Le continue incomprensioni con viri, volevo dire: levantine incomprensioni con Siri – oh dannazione, intendevo: le continue incomprensioni con Siri – le hanno attribuito un valore comico piuttosto che pratico.

Ma che ci crediate o no, nonostante gli errori qui sopra, le cose non stanno più così. Non solo Siri ci capisce meglio di prima ma le “note” di Apple e le app per le email comprendono ottime funzioni per dettare. E per quanto sia migliorata la funzione di riconoscimento vocale di Apple, comunque, quella che Google ha messo sui suoi telefoni Android potrebbe anche essere meglio. In entrambi i casi, dettare a voce è spesso più facile e agevole che scrivere con la tastiera del touch screen, specialmente se si è in giro. Nella prossima generazione di dispositivi “wearable”, come i Google Glass, i comandi vocali sostituiranno del tutto quelli digitali. Intanto la grande novità del sistema per guardare la tv che ha appena presentato Amazon – Amazon fire TV – è che i comandi vocali funzionano davvero.

Chiaramente la tecnologia non è ancora perfetta. Le parole omofobe creano ancora qualche problema, per esempio. Le parole omofone, volevo dire, creano ancora qualche problema, anche se i software di Google sono diventati piuttosto bravi a riconoscere le parole in base al contesto. Inoltre se vuoi la punteggiatura devi dirlo ad alta voce. Per esempio devi dire la parola. Per concludere una frase. Scusate, dicevo: dovete dire la parola “punto” per concludere una frase.

Ora sono tornato al mio computer, un po’ perché mi servono degli appunti e un po’ perché sono sicuro che sia voi lettori che il mio caporedattore ne abbiate abbastanza dei refusi (No, no, va bene! ndr). E anche perché, per essere sincero, mormorando dolcemente al mio telefonino mentre camminavo su Hudson Street, ho cominciato a sentirmi come Joaquin Phoenix in Her.

Ad ogni modo, un paio di anni fa non mi sarei mai nemmeno sognato di scrivere una breve email di lavoro dettandola al mio telefono, non parliamo di un intero articolo. Ora la prima delle due cose la faccio regolarmente e per alcune cose facili, come chiamare un numero nella mia rubrica o scrivere la lista della spesa, ormai la tastiera non la uso quasi più, a meno che non sia costretto. Il che mi fa venire in mente una cosa: per usare le funzioni di riconoscimento vocale serve quasi sempre una connessione a Internet.

Il fatto che le funzioni vocali dei telefonini si basino sulla tecnologia delle cloud è allo stesso tempo la loro più grande forza e il loro più grande limite. Vi sarete resi conto che quando dettate qualcosa passa un instante prima che la parola appaia sullo schermo. La ragione è che il telefono spedisce il segnale della vostra voce a un server che lo elabora e lo rimanda indietro sullo schermo.

Una delle ragioni per cui la tecnologia di Google è migliorata così velocemente, mi ha spiegato il capo ingegnere di Google Scott Huffman, è che tutti i dati sulla voce che vengono trasmessi dai telefonini sono raccolti da Google e servono a migliorare l’algoritmo che sta alla base del servizio. Una seconda ragione è che l’algoritmo stesso è diventato più potente. «Uno dei miglioramenti più significativi degli ultimi anni – ha spiegato Huffman – è stato iniziare a usare un nuovo tipo di tecnologia di apprendimento automatico distribuita su tantissimi computer. Noi la chiamiamo “rete neurale profonda”. Ora possiamo usare un enorme sistema di computazione parallela per interpretare le parole che vengono dette ai sistemi di riconoscimento vocali».

Il primo compito del software è quello di capire quali suoni sono delle parole e quali dei rumori di sottofondo o delle parole pronunciate da qualcun altro: per un non umano questa è un operazione più difficile di quanto possiate pensare. Poi il software deve analizzare le tue frasi e valutare non solo le parole ma anche il contesto linguistico in cui sono inserite, come le persone fanno inconsciamente quando si ascoltano parlare l’un l’altra.

A volte si può anche notare il software ricalibrarsi al volo. Una volta ho detto a un’app di Google: «Ricordami di scrivere a Ben alle 4 in punto». Prima ho visto che aveva scritto «Ricordami di scrivere bene le 4 in punto», poi si è reso conto che avevo più plausibilmente detto “Ben alle” di “bene le” e ha corretto.

Questo è esattamente il tipo di problema su cui Google è diventato particolarmente bravo. Il prodotto principale di Google, le ricerche su Internet, si basano sulla loro capacità di intuire le intenzioni dietro una certa stringa di chiavi di ricerca, anche se sono scritte sbagliate o ambiguamente. Una ricerca con la parola “banca” vi darà risultati diversi in base a dove vi trovate e alle vostre precedenti ricerche. Tecniche simili potrebbero essere presto applicate ai software di riconoscimento vocale, ha detto Huffman. Se per esempio ti trovi a Boston, è più probabile che Google interpreti una ricerca per le parole red sox (letteralmente: calze rosse) come Red Sox (la squadra di baseball di Boston), specialmente se siete dei fan del baseball.

Quelli di Apple non sono altrettanto disponibili e aperti a parlare delle loro tecnologie, ma è chiaro che stanno lavorando duramente per cercare di tenere il ritmo della concorrenza. Siri era stata progettata in una cooperazione con Nuance, la società che ha progettato Dragon, il più importante sistema di riconoscimento vocale per computer. Più recentemente pare che abbiano acquisito un’altra società che si occupa di riconoscimento vocale, la Novauris Technologies, che ha lavorato su tecnologie in grado di elaborare la voce sui diversi dispositivi senza doverla mandare al server. Questo potrebbe aiutare Apple a tenere il passo con i rivali, come Intel, che sperano di battere Apple e Google riuscendo a eliminare la necessità di una connessione internet.

Più le tecnologie si fanno sofisticate, meno usiamo le tastiere. Un sondaggio informale tra i miei colleghi mi ha fatto scoprire che molti di loro usano le funzioni di riconoscimento vocale per fare diverse cose, da regolare la sveglia a risolvere una di quelle infinite discussioni da bar. Se sei in giro con amici, tirare fuori il telefono e mettersi a digitare può essere una cosa un po’ antisociale, ma chiedere qualcosa a Google ad alta voce e sentirsi rispondere sempre a voce rende tutto parte della conversazione.

E non sono solo i giovani smanettoni che usano queste funzioni. Molte persone con cui ho parlato mi hanno detto che anche i loro genitori usano le funzioni di riconoscimento vocale con una certa frequenza, sono quelli che più di tutti non sopportano digitare sulla tastierina del touch screen. «Ho fatto una gara con mio papà del tipo “Kasparov contro Deep Blue” – mi ha raccontato il redattore di Slate Forrest Wickman – Lui pensava di potermi battere: io digitavo con la tastiera, lui usando il riconoscimento vocale».
Il padre di Wickmann ha perso, ma scommetto che in un paio di anni la situazione sarà cambiata.

©Slate 2014

Tag: google-riconoscimento vocale-scrittura-siri-smartphone-WP