Bericht zur Cloudflare-Störung vom 2. Juli 2019 [Übersetzung]
(ryanking13.github.io)Eine Zusammenfassung des Vorfalls und der Reaktionen durch den CTO von Cloudflare – ein Text, der zeigt, wie in großen Organisationen Probleme entstehen und wie darauf reagiert wird
5 Kommentare
Auch der Anhang des Originals ist interessant. Dort gibt es eine ausführliche Erklärung, warum das problematische Muster
.*.*=.*die CPU ausgelastet hat, und es scheint sinnvoll, dass man nicht nur über eine Korrektur des regulären Ausdrucks nachgedacht hat, sondern alternativ auch einen Austausch der Engine in Betracht gezogen hat.Das ist wirklich ein hervorragender Incident-Report. Schon die detaillierte Erklärung, wie sie darauf reagiert haben, ist beeindruckend, aber noch lehrreicher ist, dass sie es nicht einfach als Fehler eines einzelnen Engineers betrachtet, sondern die komplexen Ursachen identifiziert und sie einzeln behoben haben. Obwohl es zu einem Ausfall kam, habe ich eher das Gefühl, dass dadurch das Vertrauen in das Unternehmen noch gewachsen ist.
Ich kann das sehr gut nachvollziehen. Mich hat auch beeindruckt, dass die komplexen Ursachen herausgearbeitet wurden. Dass man es nicht nur als Fehler eines einzelnen Engineers betrachtet, scheint mir besonders lehrreich zu sein.
Allerdings. Vielleicht gibt es dort sogar einen leitenden Verantwortlichen nur für Störungsberichte? Es ist beeindruckend, dass sie die Ursachen so detailliert aufspüren und analysieren können, aber der Bericht ist auch so gut geschrieben, dass man sich fast fragt, ob er wirklich so ausführlich sein musste.
John Graham-Cumming, der CTO von Cloudflare und Autor dieses Beitrags, ist ohnehin schon ein bekannter Blogger. https://blog.jgc.org/