Cos’è successo lunedì a Facebook, Instagram e WhatsApp

Sono rimasti inaccessibili per mezza giornata a causa di un problema tecnico piuttosto complesso, provocando diversi guai

Nella sera di lunedì 4 ottobre Facebook e tutti i servizi di proprietà della stessa azienda, compresi Instagram e WhatsApp, sono stati inaccessibili agli utenti di tutto il mondo per più di sei ore, a causa di un malfunzionamento che ha provocato una delle più grandi crisi della piattaforma social negli ultimi anni. I primi malfunzionamenti erano iniziati lunedì pomeriggio (ora italiana) quando Facebook, come ha scritto il New York Times, «nel giro di qualche minuto è sparito da internet». Le cose sono tornate lentamente alla normalità soltanto nella notte.

Per ora, sia Facebook sia osservatori ed esperti esterni sono concordi nel sostenere che la causa dei malfunzionamenti non sia stato un attacco informatico: si è trattato di un problema tecnico piuttosto complesso.

I servizi di Facebook sono usati complessivamente da 3,5 miliardi di persone, non soltanto per comunicare e condividere contenuti ma anche per lavorare: in molti paesi Facebook, Messenger e WhatsApp hanno un’importante utenza business che utilizza i servizi per gestire il proprio negozio o la propria attività. Facebook vende anche servizi di automazione delle abitazioni usati da milioni di persone per gestire televisori, termostati e altri apparecchi, che sono stati inaccessibili esattamente come le piattaforme social.

Malfunzionamenti di uno o due dei servizi controllati da Facebook non sono molto rari. È molto meno comune che tutti e tre smettano di funzionare contemporaneamente, anche se è avvenuto più volte in passato: l’ultima nel 2019. Il ripetersi di malfunzionamenti tecnici di Facebook è un serio problema per la reputazione dell’azienda, già accusata in passato di avere un’infrastruttura poco stabile.

Nel caso di lunedì, la crisi è stata particolarmente grave, anche dentro a Facebook. Come hanno raccontato diversi dipendenti a The Verge, molti di loro non sono stati in grado di entrare negli edifici dell’azienda perché il sistema di ingressi tramite badge non funzionava. Anche gli impiegati di Facebook, ovviamente, usano Facebook e i servizi collegati, e per ore le comunicazioni interne sono state impossibili, o sono state fatte tramite servizi concorrenti, come FaceTime di Apple.

Anche i tecnici inviati negli edifici dove Facebook custodisce i propri server per capire dove fosse il problema sono stati in qualche caso tenuti fuori dal sistema di ingresso automatico.

Dopo più di sei ore, quando ormai la crisi era risolta, Facebook ha pubblicato sul suo blog interno una sintetica spiegazione di quello che era avvenuto: «Il nostro team di ingegneri ha scoperto che dei cambi di configurazione nei router principali che coordinano il traffico tra i nostri data center hanno provocato problemi che hanno interrotto queste comunicazioni. Questa interruzione al traffico di rete ha avuto un effetto domino sul modo in cui i data center comunicano, e ha portato all’interruzione del servizio».

Diversi esperti hanno ricostruito in maniera più dettagliata ciò che probabilmente è successo, e hanno individuato il problema nei protocolli BGP (“border gateway protocol”). Come ha scritto The Verge, per spiegare cosa sono i BGP sono state usate numerose metafore, come quella dei controllori di volo e degli smistatori delle lettere negli uffici postali, ma la più azzeccata è probabilmente quella della mappa: i BGP sono le mappe che indicano il percorso che i dati di un utente devono fare per raggiungere Facebook, e viceversa, nel modo più rapido ed efficace possibile. Se le mappe non funzionano, i dati non sanno dove andare, e Facebook diventa irraggiungibile.

Secondo alcuni esperti, i primi problemi ai BGP sarebbero stati creati da errori in un aggiornamento di routine, che poi ha provocato danni a cascata. Senza i BGP, hanno scritto i tecnici della società Cloudflare, «Facebook e i suoi siti si sono staccati da soli da Internet».

I malfunzionamenti dei BGP hanno provocato problemi anche ai DNS, (“domain name server”), ovvero il sistema che serve a fare in modo che i nomi dei siti (come www.ilpost.it) corrispondano proprio ai contenuti di quel sito (traducendoli in indirizzi IP). In pratica, se i BGP sono le mappe di una rete, i DNS sono gli indirizzi.

Il New York Times ha scritto che l’origine del problema sarebbe stata in un data center a Santa Clara, in California, al quale i tecnici di Facebook hanno dovuto accedere fisicamente per ripristinare i sistemi.

Mentre le cose tornavano lentamente alla normalità, Mark Zuckerberg, il fondatore e amministratore delegato dell’azienda, ha chiesto scusa agli utenti. Mentre i malfunzionamenti erano in corso, diversi dirigenti dell’azienda sono stati costretti a usare altri social network, soprattutto Twitter, per comunicare con il pubblico.

Zuck weighs in on the outage: "Sorry for the disruption today — I know how much you rely on our services to stay connected with the people you care about." pic.twitter.com/6MIPQYGZeU

— Alex Kantrowitz (@Kantrowitz) October 4, 2021

In generale, Twitter e gli altri social network che hanno continuato a funzionare hanno accolto la notizia dei problemi di Facebook con una certa soddisfazione, man mano che gli utenti di Facebook si spostavano sui social rivali, almeno momentaneamente. L’account principale di Twitter, social network che ha quasi un settimo degli utenti di Facebook, ha pubblicato un tweet per salutare tutti quelli che di solito non lo usano: «Ciao, letteralmente a tutti».