Facebook down: spento e riacceso

Nelle scorse ore Facebook è stato irraggiungibile per circa due ore e mezza. Si tratta della più lunga interruzione del servizio degli ultimi quattro anni. Al di là delle reazioni "liberatorie" che sappiamo alcuni di voi avranno, è davvero singolare il modo con il quale la questione è stata risolta.

Il tutto è raccontato in una nota di Robert Johnson (Facebook Director of Software Engineering dal 2006 ad oggi) su Facebook. Vediamo per sommi capi cos'è accaduto, grazie anche alla spiegazione del Guardian. Per gestire la mole di dati Facebook ovviamente non concentra i propri server in un unico luogo. I datacenter sono diversi e sparsi per il mondo. La gestione non è semplice, ma cerchiamo di riassumere il funzionamento semplificandolo il più possibile. Esiste un sistema di cache che viene aggiornato periodicamente, in modo che i vari server possano replicare il contenuto. Questa rete di server, che l'utente non nota durante la propria navigazione, è chiamata "The Facebook Network" aka tfbnw.net. E' però visibile quando si effettua un traceroute su Facebook.com. Come in ogni struttura complessa gli errori possono sempre avvenire: generalmente vengono corretti in automatico dal sistema stesso. Questa volta non è andata così, una modifica al database ha provocato un errore che a sua volta ha generato un sovraccarico da tfbnw.net verso il database stesso.

Quale poteva essere la soluzione? Lo scrive direttamente Robert Johnson: "The way to stop the feedback cycle was quite painful – we had to stop all traffic to this database cluster, which meant turning off the site. Once the databases had recovered and the root cause had been fixed, we slowly allowed more people back onto the site." Ebbene si: per fermare il circolo vizioso i tecnici hanno dovuto fermare il traffico verso il database e quindi spegnere la macchina. Ne più ne meno di quanto il vostro servizio tecnico vi chiede "hai provato a spegnere e riaccendere il pc?". Un sistema antico, brutale, ma che a quanto pare funziona ancora nell'era del web 2.0 e del cloud computing.

Nel video, che dedichiamo sia a chi lavora nei vari uffici IT/Help Desk sia agli appassionati di telefilm esteri, una spassosa scena tratta da IT Crowd: "Have you tried turning it off and on again?"

  • shares
  • Mail
10 commenti Aggiorna
Ordina: