AlphaGo non ha più bisogno di noi per batterci

La nuova versione dell'intelligenza artificiale di Google è diventata il "giocatore più forte di sempre" imparando da sola le strategie del complicatissimo gioco da tavola

(ED JONES/AFP/Getty Images)
(ED JONES/AFP/Getty Images)

Una nuova versione di AlphaGo, l’intelligenza artificiale (AI) della divisione DeepMind di Google, ha imparato da sola a giocare a “go” – il famoso gioco strategico ideato in Cina più di 2500 anni fa – senza alcun intervento da parte umana. È stata chiamata AlphaGo Zero ed è molto più abile della sua versione precedente, al punto da essere in grado di battere l’AI che a inizio anno aveva ottenuto ripetute vittorie contro il campione mondiale di go. Come spiegano i ricercatori di DeepMind in uno studio da poco pubblicato sulla rivista scientifica Nature, la divisione di Google si sta avvicinando sempre di più alla creazione di algoritmi che potranno affrontare in modo intelligente problemi di ogni tipo, soprattutto nel campo della ricerca, progettando modelli matematici più accurati per prevedere gli effetti del cambiamento climatico, oppure per identificare nuove molecole da usare nei principi attivi dei farmaci.

I giochi da tavola, come gli scacchi e la dama, sono spesso utilizzati per sperimentare i sistemi di intelligenza artificiale, perché hanno regole chiare e che non cambiano nel tempo: sono ideali per le simulazioni. A go si gioca in due, davanti a una griglia 19 x 19 che viene chiamata goban. Per vincere è necessario conquistare una porzione di goban superiore a quella dell’avversario, collocando le proprie pedine sulla griglia. Ogni giocatore può catturare una o più pedine dell’avversario se riesce a circondarle completamente con le proprie. Deve quindi muoversi cercando di bilanciare la necessità di espandere il controllo sulla griglia con quella di difendersi dall’avversario. Il gioco finisce quando entrambi i giocatori passano a vicenda una mano, cosa che indica il fatto che nessuno dei due ha ulteriori possibilità di espandere il proprio territorio o di ridurre gli spazi occupati dall’avversario. Su un singolo goban ci sono 4,63 x 10170 diverse posizioni possibili, dato che fa ben capire quale sia l’enorme livello di complessità del gioco.

Per imparare a giocare a go, la versione originale di AlphaGo aveva bisogno dell’aiuto dell’esperienza umana. Semplificando, era stata istruita da quelli di DeepMind sottoponendole un ampio set di dati, che comprendeva circa 100mila diverse partite, sulle quali basare il proprio apprendimento. Per AlphaGo Zero è stata invece seguita una strada diversa: l’AI è stata programmata con le sole regole del gioco, mentre tutto il resto è stato imparato autonomamente dal sistema, un po’ come avviene con un giocatore umano quando inizia a cimentarsi con un nuovo gioco da tavola. AlphaGo Zero ha fatto pratica giocando contro se stessa: ha iniziato producendo mosse a caso sulla scacchiera, registrando gli esiti dei movimenti e le eventuali vittorie, delle quali ha tenuto nota imparando qualcosa di nuovo ogni volta. Ha ripetuto il processo di continuo, per milioni e milioni di volte, diventando sempre più abile nel gioco.

I ricercatori di DeepMind spiegano che dopo tre giorni da autodidatta, AlphaGo Zero era già in grado di battere AlphaGo, la versione che aveva rimediato le prime vittorie contro il campione mondiale di go. Dopo 40 giorni, l’AI è ulteriormente migliorata riuscendo a battere nel 90 per cento dei casi una versione più elaborata dell’originale AlphaGo cui avevano lavorato nei mesi scorsi i ricercatori. L’abilità raggiunta da AlphaGo Zero è tale da far dire a DeepMind di avere creato il giocatore più forte a go di tutto i tempi.

Nel corso di una conferenza stampa, il programmatore capo di AlphaGo Zero, David Silver, ha spiegato che la sua AI “ha iniziato a giocare in modo molto ingenuo come un essere umano alle prime armi, ma nel corso del tempo ha giocato partite difficili da distinguere da quelle degli umani professionisti. Ha scoperto le mosse, le ha sperimentate, poi ha deciso cosa preferiva fare”. Nel processo, AlphaGo Zero ha riscoperto in poche decine di giorni tecniche e strategie del gioco da tavola che erano state sperimentate e perfezionate in millenni.

Oltre alle abilità acquisite autonomamente, ciò che sta interessando altri ricercatori ed esperti è il fatto che l’AI abbia ottenuto questi risultati potendo contare su una potenza di calcolo molto inferiore rispetto a quella usata per l’AlphaGo originale. I calcoli sono stati eseguiti grazie a 4 TPU (processori sviluppati da Google per le AI), contro i 48 usati dalla prima versione dell’intelligenza artificiale. AlphaGo Zero ha inoltre imparato a giocare usando un set di dati molto piccolo – le regole del gioco e basta – se confrontato con quello enormemente più grande usato dall’originale AlphaGo con l’archivio di migliaia di partite giocate dagli esseri umani. Minore necessità di potenza di calcolo e di dati di partenza rendono la nuova AI molto più flessibile, e quindi più semplice da riprogrammare per svolgere compiti diversi da quelli richiesti per un gioco da tavolo.

Satinder Singh, docente d’informatica presso l’Università del Michigan (Stati Uniti) e autore di un articolo di accompagnamento alla ricerca pubblicata su Nature, ha spiegato a The Verge che il risultato di AlphaGo Zero è molto importante per il campo dell’apprendimento per rinforzo, dove l’AI ha come “ricompensa” un rinforzo basato su una valutazione autonoma dei risultati, che deve raggiungere senza avere ottenuto istruzioni precise. È un ambito delle AI molto affascinante e al tempo stesso più complicato dell’apprendimento supervisionato, dove l’intervento umano per guidarle è maggiore. Singh dice che: “Negli ultimi 5-6 anni, l’apprendimento per rinforzo è uscito dalle università e ha iniziato ad avere un impatto più ampio nel mondo, e DeepMind può assumersene il merito. Il fatto che siano stati in grado di costruire un giocatore di go migliore con meno dati, potenza di calcolo e tempo, utilizzando solo l’apprendimento per rinforzo, è un risultato molto importante. E siccome l’apprendimento per rinforzo è una fetta molto ampia dell’AI, possiamo considerarlo un grande passo avanti in generale”.

Ora che la tecnologia esiste e si è rivelata affidabile, altri gruppi di ricerca di DeepMind hanno iniziato a sperimentarne gli algoritmi per applicare l’AI ad ambiti diversi da quelli del gioco. Il sistema può essere riprogrammato per la ricerca di soluzioni in problemi piuttosto intricati. Le ricerche si stanno concentrando sulla possibilità di usare AlphaGo Zero per scoprire nuovi farmaci, analizzare il comportamento delle particelle, studiare le interazioni delle proteine o progettare materiali innovativi, come superconduttori di nuova generazione.

Il passaggio da un ambiente di ricerca finito e con regole definite, come quello di un gioco da tavolo, a uno con molte più variabili e imprevisti non sarà comunque semplice da compiere, nemmeno per gli algoritmi di AlphaGo Zero. Al momento DeepMind ha creato un’intelligenza artificiale che può occuparsi di ricerche e soluzioni di problemi specifici, ma non ha ancora prodotto una macchina che pensa da sola come facciamo noi e con l’abilità di decidere su qualsiasi cosa. Siamo insomma ancora lontani da un’intelligenza artificiale totalmente compiuta, come quelle dei film di fantascienza. Il risultato di DeepMind è comunque strabiliante e avvicina alla soluzione di alcuni dei problemi più complessi nella costruzione delle macchine che pensano da sole.