Come l’Internet Archive vuole contrastare la disinformazione

L'associazione che archivia le copie di milioni di siti web è diventata una risorsa preziosa nella lotta alle fake news

La sede dell'Internet Archive a San Francisco (Wikimedia Commons)

Dal 1996 esiste un’associazione che lavora per archiviare miliardi di contenuti digitali, dalle pagine dei siti web ai libri, i video e la musica che si possono trovare su Internet. Si chiama Internet Archive ed è un’organizzazione no-profit fondata da Brewster Kahle, in cui lavorano più di 100 persone e il cui funzionamento costa circa 18 milioni di dollari l’anno (poco più di 16 milioni di euro): vi sono archiviati 330 miliardi di pagine web, 20 milioni tra libri e altri testi, 8,5 milioni di registrazioni audio e video, 3 milioni di immagini e 200mila di software.

La maggior parte di questi contenuti è disponibile gratuitamente a tutti, mentre altri sono accessibili solo a persone che ne fanno richiesta per motivi di studio. I contenuti vengono archiviati tramite l’utilizzo di tremila crawler, software in grado di analizzare le pagine web pubbliche e di scattare delle istantanee che vengono memorizzate. La sua sede si trova in una ex chiesa di San Francisco, dove c’è anche il principale server con tutti i dati archiviati, ma altre copie sono conservate per sicurezza a Redwood City e a Richmond, sempre in California, e altre versioni parziali sono conservate in Canada, nei Paesi Bassi e ad Alessandria d’Egitto.

Uno dei progetti più conosciuti dell’Internet Archive è la Wayback Machine, che a partire dal 2000 mette a disposizione di chiunque le homepage di moltissimi siti di tutto il mondo (qui potete vedere un po’ di vecchie homepage del Post, per esempio). È uno strumento molto utile per studiare come si è evoluta Internet nel corso degli anni, ma anche per recuperare pagine web che sono state pubblicate e poi rimosse. In questo senso l’Internet Archive è una risorsa fondamentale per la lotta alla disinformazione, che negli ultimi anni è diventata un tema sempre più centrale tra quelli che riguardano il web.

Questo è successo in particolare in seguito alle elezioni del 2016 negli Stati Uniti, che hanno mostrato per la prima volta su grande scala quanto facilmente potesse avvenire la manipolazione delle informazioni, e quanto altrettanto facilmente questi contenuti potessero essere promossi attraverso i social network. In questo senso il ruolo dell’Internet Archive negli ultimi tre anni ha acquisito ancora più importanza, al fine di trasmettere al pubblico le prove di ciò che viene diffuso su Internet.

Intervistato dal Financial Times, Kahle ha spiegato come le persone siano esposte quotidianamente a una quantità enorme di informazioni, ma spesso senza nessuna fonte affidabile. «Stiamo allevando una generazione che legge su uno schermo, senza avere però una biblioteca di informazioni accessibile tramite quello stesso schermo», ha detto Kahle, secondo cui alcuni hanno approfittato di tutto questo, dando come risultato «Trump e Brexit».

Per questo motivo l’Internet Archive nel 2016, dopo l’elezione di Donald Trump alla Casa Bianca, ha avviato diversi progetti per contrastare la disinformazione, tra cui uno chiamato “Trump Archive” che raccoglie più di 6mila video di apparizioni televisive del presidente statunitense, e un altro che registra tutti i tweet di Trump, in modo che ne rimanga sempre una copia permanente. Un’altra cosa in cui l’Internet Archive si può rivelare utile è la lotta ai video “deepfake”: video manipolati con l’utilizzo dell’intelligenza artificiale che negli ultimi anni hanno raggiunto livelli di credibilità mai visti prima, e che possono essere facilmente presi per veri se non si hanno strumenti adatti a smentirli. Per questo motivo i video catalogati dall’Internet Archive potranno servire come prova per scoprire quando un video è stato manipolato.

Mark Graham, responsabile della Wayback Machine, ha specificato però che l’obiettivo di questi progetti non è eliminare i contenuti falsi pubblicati su Internet. Esattamente come una biblioteca, l’Internet Archive deve catalogare tutto quello che viene pubblicato, in modo da fornire a studiosi e persone qualunque di poter accedere alle informazioni e valutare con tutti gli strumenti possibili cosa sia vero e cosa no. «Non si tratta di provare ad archiviare solo le cose vere, ma di archiviare l’intera conversazione globale. Cioè ciò che la gente sta vivendo», ha detto Graham. In questo senso anche i contenuti che incitano all’odio non dovrebbero essere eliminati, ma conservati e resi disponibili a ricercatori e politici per motivi di studio.

Il lavoro dell’Internet Archive – che è finanziato da donazioni, sovvenzioni e pagamenti da parte di chi richiede la digitalizzazione di uno specifico contenuto – è però reso difficile dal sempre maggiore numero di pagine web al mondo: per quanto finora si stiano salvando tutte le pagine dei siti più importanti, ce ne sono molte altre che l’Internet Archive non è in grado di registrare. Anche di YouTube, la più grande piattaforma di video online al mondo, è stata archiviata solo una piccola parte dei video che sono stati caricati.

Tag: disinformazione-fake news-internet arvhive-wayback machine