Un refuso ha messo offline migliaia di siti

Amazon ha ricostruito cosa è successo ai suoi server a inizio settimana: un comando scritto male ne ha messi offline più del previsto, creando un grande effetto a cascata (rileggete sempre!)

A inizio settimana, migliaia di siti Internet sono rimasti irraggiungibili per molte ore a causa di un problema tecnico a S3, il servizio di hosting di Amazon, uno dei più grandi al mondo (i servizi di hosting sono quelli che materialmente ospitano i dati di un sito o di una app, rendendoli accessibili dalla rete). Il problema ha interessato siti di ogni tipo, compreso alcuni piuttosto famosi come Quora e Trello, e ne ha rallentati diversi altri che fanno affidamento su S3 solo per la gestione di parte dei loro contenuti, come per esempio le immagini che occupano molto spazio. A distanza di qualche giorno dal disservizio, Amazon ha ricostruito che cosa è successo: un refuso ha messo in crisi buona parte del suo sistema.

Nella mattina di martedì negli Stati Uniti (in Italia era tardo pomeriggio), un gruppo di tecnici stava lavorando per risolvere alcuni errori in un sistema secondario. Per farlo, i tecnici hanno dovuto portare offline un piccolo numero di server, cioè i computer che materialmente contengono ed elaborano i dati dei siti. Sfortunatamente per Amazon e per i suoi clienti, nel comando inviato per mettere offline i server c’era un errore di digitazione, che ha determinato la rimozione dalla rete di un numero molto più cospicuo di server. Non solo, da alcuni dei server messi offline ne dipendevano altri, inseriti in alcuni sottosistemi, che si sono quindi a loro volta disattivati. Il problema ha interessato a cascata altri server portando ai disservizi.

Nonostante migliaia di siti fossero non raggiungibili, paradossalmente la pagina di S3 che mostra lo stato dei server per ore non ha segnalato la presenza di problemi. Le anomalie non sono state riportate perché la pagina stessa non poteva essere aggiornata per un motivo un po’ imbarazzante: perché il suo sistema di amministrazione dipende dagli stessi servizi di S3 che erano offline.

Amazon ha anche avuto serie difficoltà a riportare online i suoi sistemi, perché hanno dovuto fare un riavvio completo, un’operazione piuttosto lunga che richiede controlli incrociati per fare in modo che le migliaia di server siano sincronizzate tra loro. S3 è studiato per gestire con relativa facilità una improvvisa riduzione di server, trasferendo dati e informazioni di riserva ai sistemi ancora funzionanti, ma per stessa ammissione di Amazon in questa occasione si è rivelato carente nel gestire il riavvio dei server.

Oltre a scusarsi con i suoi clienti e con gli utenti in generale, Amazon si è ripromessa di trarre qualche insegnamento dall’inciampo di inizio settimana. I sistemi per il riavvio dei server saranno rivisti per renderli più rapidi. Saranno introdotte anche nuove regole e limitazioni per i tecnici, per evitare che un banale errore di digitazione porti offline un pezzo significativo dei server compresi i loro sottosistemi.