Microsoft ha fatto un’app che riconosce e descrive le immagini

Si chiama CaptionBot: ci azzecca quasi sempre ed è un po' inquietante

Microsoft ha messo online una nuova applicazione sperimentale che prova a identificare automaticamente il contenuto delle immagini e scriverne una descrizione. Si chiama CaptionBot e, benché sia ancora in una fase sperimentale, fornisce già didascalie piuttosto accurate delle cose che vede nelle immagini. L’applicazione è a disposizione di tutti e funziona sia caricando una fotografia, sia inserendo l’indirizzo di un’immagine già pubblicata da qualche altra parte online (se si caricano proprie immagini, Microsoft si riserva il diritto di utilizzarle in futuro per perfezionare il suo sistema, quindi è meglio non inviarne di troppo personali).

captionbot2

CaptionBot funziona utilizzando due sistemi di intelligenza artificiale: uno si occupa di identificare forme e colori nell’immagine e di confrontarli con fotografie simili per comprendere il contenuto, il secondo ha invece il compito di scrivere le descrizioni con un linguaggio naturale e colloquiale. Le descrizioni contengono di solito alcune cautele come “Penso che si tratti di” o “Non sono molto sicuro, ma credo che sia”. In alcuni casi CaptionBot aggiunge anche degli emoji per rendere ulteriormente amichevoli e colloquiali le sue descrizioni.

captionbot3

A volte CaptionBot non riesce proprio a interpretare l’immagine e si arrende, dicendo di non avercela fatta. Lo abbiamo messo alla prova con molte fotografie, e in effetti c’è qualche margine di miglioramento: l’applicazione non ha riconosciuto la Torre Eiffel in una fotografia e nemmeno Bill Gates, il cofondatore di Microsoft, in un paio di fotografie, ma al terzo tentativo ha indovinato. L’app ha dato inoltre qualche problema con il browser Chrome, mentre su Firefox tutto liscio. Ogni descrizione fornita da CaptionBot può essere valutata, attribuendo da 1 a 5 stelline, in modo da aiutare il sistema a migliorarsi.

captionbot1

Microsoft non è l’unica azienda che sta facendo esprimenti con l’intelligenza artificiale per descrivere le immagini: Google utilizza da tempo algoritmi di vario tipo per riconoscere i contenuti delle fotografie, mentre Facebook ha di recente annunciato un nuovo sistema per analizzare le immagini nei post, in modo da rendere il suo social network più accessibile per le persone non vedenti. In passato Microsoft aveva sperimentato altre applicazioni per l’analisi automatica delle immagini, come “How Old Do I Look?” per indovinare l’età delle persone mostrate nelle fotografie.