Le AI hanno imparato a generare immagini che sembrano foto brutte
E sono quindi ancora più realistiche

Lo scorso novembre Google ha presentato Nano Banana Pro, l’ultima versione del suo modello di intelligenza artificiale in grado di generare immagini sulla base di descrizioni testuali. Fin da subito il modello ha colpito per il suo realismo e la sua precisione, anche nella generazione di fotografie.
Spesso, infatti, le fotografie generate dall’AI hanno un’estetica artificiale facilmente riconoscibile, con volti e superfici lisce e innaturali. Le immagini di Nano Banana Pro risultano più convincenti perché sembrano foto reali, con i loro difetti e limiti. In particolare, il modello replica le caratteristiche tipiche della fotografia da smartphone, basata su lenti e sensori non particolarmente avanzati, che producono foto con meno profondità e contrasto delle macchine fotografiche professionali.
Il maggiore realismo raggiunto da Nano Banana Pro rappresenta ovviamente un potenziale problema, vista l’applicazione di tecnologie simili nella disinformazione e nelle truffe, ma rappresenta anche un notevole passo avanti per il settore.
Ci sono vari motivi per cui le fotografie sintetiche (ovvero generate con le AI) hanno solitamente un aspetto innaturale. Il primo è legato all’addestramento di questi programmi, che vengono sviluppati attraverso l’analisi di milioni di immagini di ogni tipo, molte delle quali provengono dal web, dove abbondano immagini stock e stilizzate, che hanno tipicamente un’estetica molto patinata.
Un altro è la tecnica con cui queste AI vengono addestrate, chiamata diffusione. Dopo aver sviluppato programmi in grado di riconoscere gli elementi di un’immagine, gli sviluppatori sottopongono loro dei contenuti corrotti digitalmente, cioè con pixel aggiuntivi che confondono il quadro generale, tipo l’effetto neve delle vecchie televisioni. Col tempo, il modello impara a riconoscere e a rimuovere questo “rumore” per ricostruire l’immagine sottostante; una volta imparato a farlo, il passo successivo è partire da puro rumore per generare un’immagine qualsiasi, che sarà quindi estremamente pulita.
Secondo Valentina Tanni, storica dell’arte e autrice di Antimacchine. Mancare di rispetto alla tecnologia, modelli come Nano Banana Pro stanno «attenuando l’effetto patinato e l’estetica iper-dettagliata, ossia le caratteristiche che tendiamo ad associare alle immagini fake, costruite, manipolate». La diffusione delle AI generative, infatti, ha già cambiato i criteri con cui determiniamo il realismo di una fotografia: «un’immagine imperfetta ci appare spesso molto più reale e autentica, perché allontana il sospetto della manipolazione».
Silvio Lorusso, scrittore e autore de Il designer senza qualità, concorda sul fatto che, in pochi anni, l’intelligenza artificiale abbia «completamente scardinato la nostra idea di realismo». Prima di queste tecnologie, infatti, per creare una foto ben fatta servivano luci, scene, macchine e personale di qualità, oltre che tempo; oggi, invece, questi modelli permettono di creare immagini di ogni tipo in pochi secondi.
Nano Banana Pro dimostra che c’è un’altra strada per aumentare il fotorealismo delle AI: non il perfezionamento anatomico del corpo umano (è noto che i modelli abbiano difficoltà a rendere correttamente le dita della mano, ad esempio) ma l’imitazione dei mezzi con cui le fotografie vengono scattate. Inclusi i loro difetti e le loro limitazioni tecniche, quali «bassa risoluzione, grana digitale, vignettatura, effetto occhi rossi, e così via», dice Lorusso.
Secondo Ben Sandofsky, co-fondatore dell’app fotografica Halide, «Google potrebbe aver aggirato la uncanny valley», ovvero quel sentimento di disgusto e inquietudine che si prova verso robot, macchine e bambole che sono realistiche, ma non del tutto.
Come spiega il sito The Verge, Google non è l’unica a offrire modelli in grado di farlo: anche Meta AI e il programma Adobe Firefly permettono di gestire «l’intensità visiva» delle immagini, rendendole meno lucide e più “imperfette”.
Lo stesso succede anche nella generazione di video. I due principali modelli del settore, Sora 2 di OpenAI e Veo 3 di Google, sono in grado di generare video sgranati e a bassa risoluzione, come fossero stati ripresi da dispositivi di scarsa qualità. Sono proprio questi i contenuti sintetici che più spesso vengono presi per veri dagli utenti, come dimostra il recente caso di un video virale che imitava le registrazioni delle fototrappole notturne per animali.



