Questo post non interesserà ai più ma a me ha fatto un pochino leggere del fatto che mi ha spinto a scriverne memore del mio passato remoto da sistemista.
Nota a margine: sistemista è un job title che si usa ancora o appartiene solo ai dinosauri come me?
Capita che alcuni dei servizi cloud di Amazon soffrano di gravi problemi. Problemi tanto gravi da influire sul buon funzionamento di altre aziende che dipendono direttamente dai servizi del gigante di Seattle.
Amazon è una azienda seria e dopo avere risolto il disastro racconta per filo e per segno quello che è successo, le cause che hanno generato il problema e le azioni correttive che sono state messe in atto per evitare che il problema accada di nuovo.
Per coloro che sono curiosi di conoscere i dettagli, questi possono essere letti qui.
Ecco il passaggio che mi ha fatto sorridere:
At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended.
Si è quindi trattato di un errore umano. Un ingegnere di Amazon ha lanciato un comando con un parametro errato e da questo errore si è propagato il disastro.
Questo mi fa sorridere perchè alla quasi totalità dei sistemisti è capitato qualcosa del genere. Magari non qualcosa che avesse le proporzioni di quello che è successo ad Amazon ma qualcosa di simile di sicuro.
Io ricordo una edizione di SMAU in cui l’azienda per cui lavoravo allora, ICL, doveva presentare uno dei nuovissimi “computer dipartimentali” basato su architettura Intel con a bordo un bel sistema Unix System V Release 2 un pochino rimaneggiato.
Era una gran bella macchina, parente povero del più prestigioso DRS 6000 con architettura SPARC.
Era una bella lavatrice ed io dovevo installare il babilocco in SMAU facendo sfoggio di alcuni applicativi sviluppati con MicroFocus CIS-COBOL. Parto armato di tutte le mie belle cartucce per l’installazione del software e dopo un paio d’ore la macchina è pronta per essere utilizzata. Manca un’oretta all’apertura delle porte ma ho fatto in tempo a concludere prima del tempo.
Ovviamente tutto questo lo fai da superuser e quindi sei il Dio onnipotente del sistema operativo.
Per scrupolo decido di fare pulizia in un paio di directory in cui avevo lasciato dei file temporanei che avevo utilizzato per caricare dei dati su un database di test.
Molto di fretta digito “rm -rf *”… dopo un paio di secondi mi dico “Ma quanto cavolo ci sta mettendo per cancellare tredici files”. Passano altri due secondi e scatta l’imprecazione. In tutta fretta premo CTRL-C per interrompere il disastro ma è troppo tardi. Ho cancellato tutti, o quasi, i file sul disco.
Le porte si aprono. Non mi rimane altro che spegnere il frigorifero e lasciarlo in bella vista, nascondere dietro di lui un vecchio DRS-2 che avevo portato come backup dei dati e delle applicazioni e fargli impersonare il DRS3000.
Caro ingegnere di Amazon, io il giorno dopo avevo ancora un lavoro. Mi auguro sentitamente che sia lo stesso per te.
Ti abbraccio forte.