Cloudflare-Ausfall am 5. Dezember 2025
(blog.cloudflare.com)- Am 5. Dezember 2025 um 08:47 UTC war ein Teil des Cloudflare-Netzwerks von einem schweren Ausfall betroffen, und um 09:12, rund 25 Minuten später, wurde er vollständig wiederhergestellt.
- Insgesamt waren etwa 28 % des gesamten HTTP-Traffics betroffen, und nur Kunden mit bestimmten Voraussetzungen erfuhren den Ausfall.
- Ursache war eine WAF-Änderung (Body-Parsing-Logik) im Rahmen der Reaktion auf die neue React Server Components-Schwachstelle (CVE-2025-55182); sie war nicht mit einem Cyberangriff verbunden.
- Ein Codefehler im FL1-Proxy führte zu HTTP-500-Fehlern, im neuen Rust-basierten FL2-Proxy trat derselbe Fehler nicht auf.
- Cloudflare räumt ein, dass ein ähnliches Problem trotz des Vorfalls am 18. November erneut auftrat, und arbeitet als oberste Priorität an Projekten zur Stärkung von Rollout-Sicherheit und Resilienz weiter.
Ausfallübersicht
- Am 5. Dezember 2025 um 08:47 UTC trat in einem Teil des Cloudflare-Netzwerks ein Ausfall auf
- Um 09:12 wurden alle Services wiederhergestellt; insgesamt 25 Minuten waren betroffen
- Der Ausfall hatte nichts mit einem Cyberangriff oder böswilligen Aktionen zu tun, sondern entstand bei einer internen Konfigurationsänderung
- Die Ursache war die Anpassung der WAF-Body-Parsing-Logik zur Reaktion auf die neue React Server Components-Schwachstelle.
Ursache und technischer Hintergrund
- Die Cloudflare-WAF puffert den HTTP-Request-Body im Speicher, um bösartige Payloads zu erkennen.
- Die bestehende Puffersize war von 128 KB auf 1 MB erhöht worden.
- Da das interne Test-Tool die neue Puffergröße nicht unterstützte, wurde ein zweiter Änderungsdurchlauf durchgeführt, der das Test-Tool deaktivierte.
- Diese Änderung wurde über das globale Konfigurationssystem sofort auf alle Server ausgerollt.
- In FL1-Proxy führte diese Änderung zu einem Fehlerzustand und damit zu HTTP-500-Antworten.
- Fehlermeldung:
attempt to index field 'execute' (a nil value)
- Fehlermeldung:
- Das Problem wurde sofort erkannt, und die Änderung wurde um 09:12 zurückgenommen.
Auswirkungsbereich
- Betroffen waren nur Kunden mit FL1-Proxy und aktiviertem Cloudflare Managed Ruleset
- Alle Anfragen auf diesen Sites erhielten HTTP-500-Fehler
- Einige Testendpunkte wie
/cdn-cgi/tracewaren ausgenommen
- Das China-Netzwerk und Kunden mit anderer Konfiguration waren nicht betroffen.
Details zum Laufzeitfehler
- Das Rulesets-System von Cloudflare bewertet pro Anfrage Regeln.
- Regeln bestehen aus Filtern und Aktionen; die
execute-Aktion ruft andere Rule-Sets auf.
- Regeln bestehen aus Filtern und Aktionen; die
- Das interne Logging-System bewertete Testregeln mit
execute. - Das Killswitch-System ist dafür ausgelegt, fehlerhafte Regeln zu deaktivieren.
- Die Anwendung eines Killswitch auf Regeln mit
execute-Aktion war bisher noch nie erfolgt.
- Die Anwendung eines Killswitch auf Regeln mit
- Der Zugriff auf ein nicht existentes
execute-Objekt verursachte einen Lua-Fehler. - Dieser Fehler war ein einfacher Codefehler, der seit Jahren vorhanden, aber unentdeckt blieb.
- Im in Rust geschriebenen FL2-Proxy trat derselbe Fehler nicht auf.
Fortschritt seit dem Ausfall am 18. November
- Auch am 18. November gab es einen ähnlichen, weitreichenden Ausfall durch globales Deployment.
- Bei direkter Kommunikation mit mehreren hundert Kunden wurde ein Plan zur Verhinderung der vollständigen Ausbreitung eines einzelnen Updates geteilt.
- Diese Verbesserungsarbeit war noch nicht abgeschlossen und wirkte sich auf den aktuellen Ausfall aus.
- Cloudflare hat dies als organisationsweite Höchste-Priorität festgelegt.
Laufende Resilienz-Projekte
- Enhanced Rollouts & Versioning
- Für Daten- und Konfigurationsänderungen bei der Reaktion auf Bedrohungen werden künftig schrittweise Rollouts, Health Checks und schnelle Rollbacks eingeführt.
- Streamlined Break Glass Capabilities
- Auch bei Interaktion mit internen Services und der Control Plane soll eine Notfall-Bedienmöglichkeit sichergestellt werden.
- Fail-Open Fehlerbehandlung
- Bei Konfigurationsdateifehlern wird der Traffic nicht blockiert, sondern in einen normalen Grundzustand zurückgeschaltet oder direkt durchgelassen.
- Für einige Services ist künftig eine Auswahl zwischen fail-open und fail-closed geplant.
- Details zu allen Resilienz-Projekten werden innerhalb der nächsten Woche veröffentlicht.
- Bis dahin werden Netzwerkänderungen in einen umfassenden Lockdown versetzt.
Timeline (UTC)
- 08:47 – Bereitstellung der Konfigurationsänderung und Beginn der Netzwerkverteilung
- 08:48 – Vollständige Auswirkungen traten ein
- 08:50 – Incident-Meldung durch automatische Alarme
- 09:11 – Rücksetzung der Änderung gestartet
- 09:12 – Wiederherstellung abgeschlossen, der gesamte Traffic wurde normalisiert
Fazit
- Cloudflare erkennt die Schwere von zwei aufeinanderfolgenden Ausfällen an und entschuldigt sich bei seinen Kunden und dem gesamten Internet.
- Künftig sollen durch Maßnahmen zu Ausroll-Sicherheit, Fehlertoleranz und Resilienz ähnliche Vorfälle verhindert werden.
1 Kommentare
Hacker-News-Kommentare
Dieser Cloudflare-Ausfall war nicht nur ein einfacher Lua-Bug, sondern ein Vorfall, der ein grundlegendes Architekturproblem offengelegt hat
Die ursprüngliche verteilte Web-Struktur war gegen solche globalen Ausfälle viel robuster. Dagegen kann bei einem homogenen zentralisierten System wie Cloudflare ein einziger Fehler dazu führen, dass Dienste auf der ganzen Welt gleichzeitig stillstehen. Auch wenn es in Rust geschrieben ist, machen Menschen Fehler. Am Ende ist ein robustes Design entscheidend
Gestern Abend habe ich auf mehreren Websites Cloudflare-500-Fehler gesehen. Auf der Statusseite stand dazu aber nichts, nur eine Ankündigung geplanter Wartungsarbeiten
Es wirkt so, als könne Cloudflares Quality Engineering mit der Produktionsgeschwindigkeit nicht Schritt halten. Aus der Rüstungsindustrie hieß es früher, das Qualitätsteam sei immer erfahrener gewesen, aber in der Softwarebranche scheint es eher umgekehrt zu sein
Die Paketvermittlungsstruktur des Internets wurde ursprünglich genau dafür entworfen, solche globalen Ausfälle auszuhalten.
Das DARPA-Netzwerk in Zeiten des Kalten Krieges sollte die Befehlskette selbst unter einem Nuklearangriff aufrechterhalten.
Jetzt ist der Zeitpunkt gekommen, zum Local-first-Paradigma des Internets zurückzukehren
In letzter Zeit habe ich das Gefühl, dass Cloudflare das Internet langsamer und unbequemer macht. Verfahren wie „Beweisen Sie, dass Sie ein Mensch sind“ nehmen zu, und auch das Laden von Seiten verzögert sich.
Das scheint eher mit der Abrechnungspolitik für AI-Crawling zu tun zu haben als mit dem Schutz von Websites (Einführung von Pay-per-crawl)
Cloudflares globales Konfigurationssystem ist riskant, weil es sich ohne stufenweisen Rollout innerhalb weniger Sekunden über das gesamte Netzwerk ausbreitet.
Es braucht ein System, das bei Konfigurationsänderungen, die Fehler auslösen, die Korrelation sofort erkennen kann
Das Deployment-Team hätte die Echtzeitmetriken beobachten und sofort den Rollback-Button drücken müssen.
Sogar die konkrete Codezeile stand klar im Log, aber es wirkte, als seien das Deployment-Team und das Team mit dem Codeverständnis voneinander abgeschnitten gewesen
Cloudflares Verfügbarkeit ist unter 99,9 % gefallen. Das ist schlechter als mein Heim-PC
Bei einer Größe wie Cloudflare muss es unbedingt eine Testumgebung geben.
Jede Änderung sollte erst in einer isolierten Modellumgebung simuliert und dann schrittweise ausgerollt werden.
Wichtiger als ein starkes Typsystem sind prozedurale Sicherheitsvorkehrungen
Teams, die häufiger Fehler machen, werden ausgebremst, und Teams mit hoher Zuverlässigkeit können schneller vorgehen.
Letztlich ist technische Geschwindigkeit eine Frage der Entscheidung. Wenn die SLA gefährdet ist, muss man langsamer werden und die Tests verschärfen
Es scheint, als gerate Cloudflares Softwarequalität ins Wanken.
Es gab auch einen Bug, bei dem die Zugriffskontrolle einer Enterprise-only-Funktion erst im letzten Schritt geprüft wurde
Änderungen waren nur über den Support möglich, und die Korrektur dauerte mehrere Tage
Link zu einem ähnlichen Fall
Ich frage mich, wie Cloudflares Betriebskultur aussieht.
Während der Reaktion auf ein Sicherheitsproblem trat ein Fehler auf, und statt eines Rollbacks wurde erneut ein globales Deployment durchgeführt — eine riskante Entscheidung.
Damit wurde der Grundsatz „Im Zweifel rollbacken“ verletzt
Hätte man das Deployment verzögert, hätten Kunden tatsächlich gehackt werden können; in so einem Fall ist Geschwindigkeit gleich Sicherheit
Der erste Fix hat nur den latenten Bug im zweiten sichtbar gemacht, deshalb ist manchmal Roll forward realistischer als ein Rollback
Die häufigen jüngsten Ausfälle könnten ein Zeichen dafür sein, dass diese Schulden jetzt sichtbar werden