La pubblicazione di un nuovo software di intelligenza artificiale prodotto in Cina ha provocato scompiglio, preoccupazione e anche una certa ammirazione nel settore tecnologico. Lo ha reso disponibile lo scorso 20 gennaio DeepSeek, un laboratorio di ricerca cinese che fino a pochi giorni fa non era particolarmente noto, e si tratta di un modello linguistico di grandi dimensioni (LLM), lo stesso tipo di tecnologia alla base del funzionamento di ChatGPT, Claude e Google Gemini.

Si chiama DeepSeek-R1 e, secondo l’azienda stessa, sarebbe in grado di «rivaleggiare con o1 di OpenAI», ovvero con il modello più avanzato sul mercato. Il modello o1 è infatti noto come un “reasoning model”, perché in grado di simulare il ragionamento umano: questo tipo di tecnologia è «progettata per pensare più a lungo prima di rispondere» e risulta migliore nella risoluzione di problemi più complessi, secondo OpenAI.

Negli ultimi giorni DeepSeek-R1 è diventato uno degli argomenti più discussi nel settore tecnologico, con conseguenze concrete: lunedì, alla riapertura della borsa statunitense dopo il weekend, l’indice Nasdaq Composite, che include molte società di tecnologia, ha perso il 3,5 per cento e Nvidia, azienda statunitense produttrice di chip che hanno consentito il grande sviluppo del settore delle intelligenze artificiali, ha perso il 13 per cento. Le caratteristiche di DeepSeek, infatti, rimettono in discussione alcune convinzioni sulle intelligenze artificiali, o perlomeno hanno introdotto alcune preoccupazioni finanziarie dove fino a poco tempo fa regnava soprattutto l’ottimismo.

Non si tratta solo delle capacità di DeepSeek, ma anche del fatto che sia una tecnologia sviluppata in Cina, che ambisce a competere con l’azienda più avanzata nel settore delle intelligenze artificiali generative, ovvero OpenAI. A rendere l’annuncio del nuovo modello più discusso, inoltre, c’è il fatto che sia arrivato nel corso della prima settimana della presidenza di Donald Trump, nel corso della quale è stato presentato Stargate (un ambizioso piano di investimenti privati per l’intelligenza artificiale da circa 500 miliardi di dollari) e si è discusso di un possibile “ban” di TikTok, proprio a causa della sua proprietà cinese.

E poi ci sono i costi: lo sviluppo di DeepSeek (la cosiddetta fase di addestramento del modello linguistico) è costato 5,6 milioni di dollari, come riportato dal Wall Street Journal, molto meno rispetto agli standard occidentali per questo genere di lavoro. L’anno scorso Dario Amodei, CEO di Anthropic, società statunitense di AI che ha ricevuto miliardi di dollari in investimenti sia da Google che da Amazon, dichiarò che questi costi erano destinati ad aumentare, e i nuovi modelli più avanzati sarebbero costati tra i cento milioni e il miliardo di dollari (a maggio Amodei disse che i modelli del futuro sarebbero costati ancora di più, fino a cento miliardi di dollari).

Oltre ai costi economici, a stupire è stato il ridotto investimento nell’hardware da parte dell’azienda cinese. Per sviluppare V3, un altro modello di DeepSeek, l’azienda sostiene siano stati sufficienti duemila chip di Nvidia, l’azienda produttrice di unità di elaborazione grafica (o GPU), essenziali nello sviluppo delle AI. Un numero molto inferiore alle 16mila GPU che, secondo il New York Times, sono necessarie ad altri modelli di dimensioni e capacità simili. È stato in particolare questo dettaglio a determinare le perdite in borsa dei titoli di Nvidia e di altre aziende del settore.

Nelle stesse ore, l’applicazione di DeepSeek ha raggiunto la prima posizione nelle classifiche dell’App Store di Apple, superando quella di ChatGPT, che da mesi è in cima ai download gratuiti su iOS. Lo scorso venerdì, su X, l’investitore Marc Andreessen, a capo del fondo Andreessen Horowitz e consigliere di Donald Trump, ha definito DeepSeek-R1 «uno dei progressi più incredibili e impressionanti che abbia mai visto».

DeepSeek nacque nel 2023 per volere di Liang Wenfeng, imprenditore e co-fondatore di High-Flyer, azienda che da anni si occupa di analisi di dati finanziari. Come ricostruito da Wired, Liang scelse sin da subito di assumere personale molto giovane per la nuova azienda: «La maggior parte delle nostre posizioni tecniche è ricoperta da persone che si sono laureate negli ultimi due anni,» spiegò nel 2023. DeepSeek adottò anche un approccio aperto, sviluppando progetti di tipo open source e collaborativi. Per molte aziende cinesi di questo settore, lo sviluppo di progetti simili aiuta a colmare il divario con le loro controparti occidentali, perché attirano più utenti e collaboratori, che a loro volta fanno crescere il modello.

In quanto progetto open source, inoltre, DeepSeek può essere scaricato dagli utenti ed eseguito nei loro computer (per riuscirci serve una macchina piuttosto potente). In questo modo il modello funziona «localmente», cioè senza scambio di dati con l’azienda. Prima di DeepSeek la principale azienda ad aver puntato sui modelli locali era Meta con il modello Llama. Non è un caso che, secondo il sito The Information, proprio Meta sia tra le aziende più preoccupate e scosse da DeepSeek.

La vicenda di DeepSeek fa discutere perché interseca molti piani, che vanno dal tecnologico al politico. Nel corso dell’amministrazione di Biden, infatti, gli Stati Uniti avevano imposto severe restrizioni alla vendita dei chip più avanzati, progettati espressamente per lo sviluppo di AI, allo scopo di rallentare la crescita del settore cinese. La scelta di un approccio open source da parte di DeepSeek può essere vista come una reazione alle limitate risorse tecnologiche a disposizione della Cina.

Come ha scritto la rivista Technology Review del MIT, «piuttosto che indebolire le capacità di intelligenza artificiale della Cina, le sanzioni sembrano spingere startup come DeepSeek a innovare in modi che privilegiano l’efficienza, la condivisione delle risorse e la collaborazione». Più precisamente DeepSeek ha supplito alle mancanze in fatto di hardware «puntando sull’ottimizzazione delle risorse basata sul software», come ha detto Marina Zhang, docente della University of Technology di Sydney in un’intervista a Wired.

Non tutti concordano con questa versione dei fatti. Uno dei punti più controversi e dibattuti riguarda infatti la dotazione di chip di DeepSeek. La Technology Review ha riportato che l’azienda avrebbe comprato una «scorta consistente» di chip Nvidia di tipo A100, nel 2023, poco prima che le sanzioni statunitensi ne bloccassero la vendita in Cina. Secondo la rivista cinese 36Kr l’azienda sarebbe in possesso di circa 10mila unità di questo tipo, ma secondo Dylan Patel della società di consulenza SemiAnalysis sarebbero in realtà almeno 50mila. Comunque sia, secondo questa ricostruzione, Liang fu veloce nell’intuire l’urgenza di fare scorta di chip avanzati, da usare poi in combinazione con altri meno potenti per sviluppare i modelli linguistici.

Il successo di DeepSeek potrebbe quindi non rappresentare uno smacco così grande per il settore tecnologico statunitense, e nemmeno le restrizioni imposte dal suo governo. Jordan Schneider, autore della newsletter ChinaTalk, ha infatti sottolineato come sia forse troppo presto per misurare il vero impatto delle sanzioni nel settore tecnologico cinese, poiché questo tipo di sanzioni «operano con un ritardo temporale e non hanno ancora avuto il tempo di fare effetto».

Di conseguenza, ad oggi, in Cina sono attivi molti data center dotati di «decine di migliaia di chip pre-restrizioni». Nel frattempo, però, le aziende statunitensi ne stanno costruendo di nuovi con centinaia di migliaia di chip di questo tipo: quando questi saranno finalmente attivi, lo scarto tra i due paesi sarà più evidente. E un impatto ancora maggiore lo avranno i modelli di prossima generazione, che potrebbero richiedere «centomila chip per l’addestramento», secondo Schneider.

Lo stesso Liang ha confermato l’esistenza di un divario tra Cina e Stati Uniti in un’intervista a ChinaTalk, in cui ha sottolineato il «divario nell’efficienza dell’addestramento» tra i due paesi, sia nell’architettura dei modelli che nelle tecniche di addestramento. Secondo Liang, «potrebbe esserci anche un divario doppio nell’efficienza dei dati, cioè dobbiamo consumare il doppio dei dati di addestramento e della potenza di calcolo per ottenere gli stessi risultati. Quello che stiamo cercando di fare è continuare a colmare questi divari».

Infine, DeepSeek è potenzialmente interessata dagli stessi timori che circondano da tempo TikTok, la cui chiusura negli Stati Uniti è discussa da tempo (e potrebbe essere vicina). Nel caso di TikTok, il governo statunitense teme l’influenza del governo cinese nel potente algoritmo del social network, ma DeepSeek rappresenta forse un pericolo ancora più evidente. È noto da tempo il legame tra l’industria militare e il settore delle AI – tanto che anche OpenAI ha stretto di recente accordi con un’azienda del settore bellico – e il successo di DeepSeek potrebbe spingere Trump o il Congresso a prendere provvedimenti per motivi di sicurezza nazionale.

A confermare i sospetti di chi teme che dietro a DeepSeek possa esserci il governo cinese ci sono i molti video diffusi online in cui gli utenti provano a chiedere al modello pareri su argomenti sensibili, come Taiwan e le rivolte di piazza Tienanmen. In tutti questi casi, DeepSeek comincia a formulare una risposta per poi fermarsi e rispondere che quel tipo di domande «vanno oltre il suo scopo attuale».