12 Punkte von xguru 2019-07-21 | 5 Kommentare | Auf WhatsApp teilen

Eine Zusammenfassung des Vorfalls und der Reaktionen durch den CTO von Cloudflare – ein Text, der zeigt, wie in großen Organisationen Probleme entstehen und wie darauf reagiert wird

5 Kommentare

 
blurblah 2019-07-24

Auch der Anhang des Originals ist interessant. Dort gibt es eine ausführliche Erklärung, warum das problematische Muster .*.*=.* die CPU ausgelastet hat, und es scheint sinnvoll, dass man nicht nur über eine Korrektur des regulären Ausdrucks nachgedacht hat, sondern alternativ auch einen Austausch der Engine in Betracht gezogen hat.

 
curioe 2019-07-21

Das ist wirklich ein hervorragender Incident-Report. Schon die detaillierte Erklärung, wie sie darauf reagiert haben, ist beeindruckend, aber noch lehrreicher ist, dass sie es nicht einfach als Fehler eines einzelnen Engineers betrachtet, sondern die komplexen Ursachen identifiziert und sie einzeln behoben haben. Obwohl es zu einem Ausfall kam, habe ich eher das Gefühl, dass dadurch das Vertrauen in das Unternehmen noch gewachsen ist.

 
mytory 2019-07-23

Ich kann das sehr gut nachvollziehen. Mich hat auch beeindruckt, dass die komplexen Ursachen herausgearbeitet wurden. Dass man es nicht nur als Fehler eines einzelnen Engineers betrachtet, scheint mir besonders lehrreich zu sein.

 
quake21 2019-07-22

Allerdings. Vielleicht gibt es dort sogar einen leitenden Verantwortlichen nur für Störungsberichte? Es ist beeindruckend, dass sie die Ursachen so detailliert aufspüren und analysieren können, aber der Bericht ist auch so gut geschrieben, dass man sich fast fragt, ob er wirklich so ausführlich sein musste.

 
lifthrasiir 2019-07-22

John Graham-Cumming, der CTO von Cloudflare und Autor dieses Beitrags, ist ohnehin schon ein bekannter Blogger. https://blog.jgc.org/