- Im globalen Netzwerk von Cloudflare kam es zu einer internen Service-Degradation, wodurch mehrere Dienste zeitweise und intermittierend beeinträchtigt wurden
- Wichtige Dienste wie Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers waren vorübergehend von Störungen betroffen
- Das Engineering-Team identifizierte das Problem und arbeitete an einer Behebung; WARP- und Access-Dienste wurden zuerst wiederhergestellt
- Danach normalisierten sich Fehlerrate und Latenz weltweit schrittweise, und auch der Dashboard-Dienst wurde wiederhergestellt
- Derzeit laufen alle Dienste wieder normal, und der Vorfall ist vollständig behoben
Überblick über den Vorfall
- Cloudflare erlitt eine interne Service-Degradation (Internal Service Degradation), wodurch einige Dienste intermittierend ausfielen
- Zu den betroffenen Diensten gehörten Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers
- Das Unternehmen leitete umgehend Wiederherstellungsmaßnahmen ein und aktualisierte fortlaufend den Stand der Problemlösung
Identifizierung des Problems und erste Reaktion
- Cloudflare bestätigte während der Phase Investigating eine interne Service-Degradation
- Einige Kunden erlebten intermittierende Fehler und erhöhte Latenzen
- Das Engineering-Team arbeitete parallel an Ursachenanalyse und Wiederherstellung
- Anschließend wurde die Ursache identifiziert (Identified) und mit der Behebung begonnen
- Während der Korrekturmaßnahme wurde der WARP-Zugang in der Region London vorübergehend deaktiviert, wodurch Nutzer dort Verbindungsabbrüche zum Internet erlebten
Fortschritt bei der Service-Wiederherstellung
- Nach den Korrekturmaßnahmen wurden die Access- und WARP-Dienste zuerst wiederhergestellt, und die Fehlerrate kehrte auf das Niveau vor dem Vorfall zurück
- Der WARP-Zugang in der Region London wurde wieder aktiviert
- Danach folgten Wiederherstellungsmaßnahmen für Kunden der Application Services
- Änderungen zur Wiederherstellung des Dashboard-Dienstes wurden ausgerollt
- Einige Kunden hatten weiterhin Probleme mit dem Login oder der Nutzung des Dashboards, diese wurden jedoch durch weitere Korrekturen behoben
Stabilisierung des gesamten Netzwerks
- Weltweit gingen Fehlerrate und Latenz (latency) schrittweise zurück und normalisierten sich
- Die Berechnung der Bot Scores von Bot Management war vorübergehend beeinträchtigt, normalisierte sich jedoch im Verlauf der Wiederherstellung
- Das Engineering-Team beseitigte verbleibende Fehler und beschleunigte die Wiederherstellung des gesamten Netzwerks
- Danach funktionierten alle Dienste wieder ordnungsgemäß, und Fehlerrate sowie Latenz waren vollständig normalisiert
Abschluss des Vorfalls und weitere Maßnahmen
- Cloudflare bestätigte, dass alle Dienste wieder normal betrieben werden, und schloss den Vorfall ab
- Derzeit gibt es keine weiteren Konfigurationsänderungen, und die Plattform wird engmaschig überwacht
- Eine Post-Incident-Untersuchung (post-incident investigation) zur Ursache des Ausfalls ist im Gange; die Ergebnisse sollen später veröffentlicht werden
- Dieser Ausfall wird als Vorfall mit Auswirkungen auf das globale Netzwerk insgesamt eingeordnet
1 Kommentare
Hacker-News-Kommentare
Jemand mit einem Cloudflare-API-Token teilte einen Befehl, mit dem sich der CF-Proxy deaktivieren lässt
Mit einem
curl-Befehl kann man die Zone-ID und DNS-Einträge abrufen und dann perPATCH"proxied": falsesetzenMan sollte aber aufpassen, weil dabei SSL-Zertifikate verloren gehen können, Sicherheit/Performance leiden und die Backend-IP offengelegt werden kann
X-Auth-EmailundX-Auth-KeyverwendenWer außerdem nur Cloudflare-Traffic erlaubt hat, muss diese Regel vorübergehend deaktivieren
Zum Glück ist jetzt wieder alles online
curlist GET ohnehin der Standard,-X GETist also nicht nötigMit
-dwird automatisch POST verwendet, und für PATCH ist-X PATCHkorrektEinige Seiten waren aber selbst nach dem Tunneling noch teilweise ausgefallen
Laut dem Cloudflare-CTO hat ein potenzieller Bug im Bot-Blockierungssystem nach einer Konfigurationsänderung außer Kontrolle geraten und einen netzwerkweiten Ausfall verursacht
In der Quelle wird erklärt, dass es kein Angriff, sondern ein internes Problem war
Code und Konfiguration sind beides Daten, und das Muster, weltweit alles auf einmal auszurollen und dadurch Großstörungen zu verursachen, wiederholt sich ständig
Ein Kollege kam plötzlich angerannt und sagte, direkt nachdem er eine Cloudflare-Einstellung geändert hatte, sei die Website ausgefallen, und er habe erschrocken gedacht, er sei schuld
Dieser Beitrag habe ihn beruhigt
Als ich „Cloudflare down“ sah, war ich ehrlich erleichtert
In den Niederlanden schien fast jeder Dienst ausgefallen zu sein
Auch das Cloudflare-Dashboard war nicht erreichbar, und beim Betterstack-Dashboard war es genauso
Ironischerweise lief die Statusseite noch, sodass man Kunden nicht benachrichtigen konnte
Ich habe dazu einen Blogbeitrag geschrieben: „Wenn du es nicht brauchst, stell es nicht hinter Cloudflare“
Trotzdem zeigen Kunden bei solchen großflächigen Ausfällen überraschend viel Verständnis
Es hat ein paar Minuten gedauert, aber ich habe hcker.news von CF getrennt
habe ich unten ein Live-Uptime-Widget eingebaut, das mit einer externen Statusseite verknüpft ist
Siehe Status-SVG und
externe Statusseite
Wenn Cloudflare oder AWS ausfallen, hat es einen gewissen Reiz zu sehen, wie die eigenen self-hosted Dienste völlig unbeeindruckt weiterlaufen
Im Moment bin ich stabiler als deren 99,999 % Verfügbarkeit
Vielleicht sollte ich jetzt einen Uptime-Tracker einbauen
Daraus sollten junge SaaS-Firmen etwas lernen
Dass meine kleine Seite nun down war, war zugleich lustig und auf seltsame Weise befriedigend
In letzter Zeit scheinen großflächige Infrastrukturausfälle stark zuzunehmen. AWS und Cloudflare bleiben beide weit hinter ihrem SLA zurück
Es sind keine echten Verfügbarkeitswerte, sondern nur von Unternehmen willkürlich definierte Kennzahlen
Das Zentralisierungsproblem ist gravierend: Wenn Cloudflare oder AWS stehen bleiben, steht das halbe Web still
Genau deshalb ändert sich an dieser Struktur nichts
Kleine CDNs können kaum konkurrieren, und am Ende entsteht eine natürliche Monopolstruktur
Dass Cloudflare einen kostenlosen Tarif angeboten hat, war eine Strategie, genau diese Netzwerkeffekte auszunutzen
Außerdem könnte sie zu einem konzentrierten Angriffsziel für staatliche Zensur werden
Zwei Drittel des Webs hängen davon ab, Zertifikatslaufzeiten werden immer kürzer, und wenn es dort einen Hack oder Ausfall gäbe, könnte das ganze Web lahmgelegt werden
Im Moment ist es eine wohlwollende Organisation, aber man sollte nicht vergessen, dass das früher auch über Google gesagt wurde
Es gibt viele Backups auf Software-Ebene, aber das Grundverständnis für Multi-Hosting auf Infrastruktur-Ebene ist verloren gegangen
Ironischerweise nutzte auch DownDetector Cloudflare Turnstile und fiel deshalb mit aus
Die visuelle Entschuldigung von Cloudflare mit „Your browser: Working / Host: Working / Cloudflare: Error“ war eindrucksvoll
Seiten, die Cloudflare Challenge („I’m not a robot“) verwenden, fielen ebenfalls mit HTTP-500-Fehlern aus
Es erschien die Meldung, man solle
challenges.cloudflare.comentsperrenDabei liefert das Backend oft klare Fehler zurück, die das Frontend dann verbirgt
Neulich habe ich sogar gesehen, wie ein Fehler wegen eines zu langen Passworts als „Diese E-Mail wird bereits verwendet“ angezeigt wurde
Ironischerweise musste man also einer AI beweisen, dass man ein Mensch ist
Diese /s-hafte Verneinung, dass Cloudflare Captcha ja unmöglich ausfallen könne, ist schon witzig