- Vom 2. bis 4. November 2023 kam es bei Cloudflare zu Ausfällen der Kontrollplane und der Analysedienste.
- Die Kontrollplane umfasst vor allem kundenorientierte Schnittstellen der Cloudflare-Dienste, während die Analysedienste Logging und Analyseberichte einschließen.
- Der Vorfall wurde durch einen Stromausfall im Rechenzentrum von Flexential verursacht, in dem sich Cloudflares größter Analyse-Cluster sowie ein wichtiger Teil des High-Availability-Clusters befinden.
- Obwohl High-Availability-Systeme installiert waren, um solche Ausfälle zu verhindern, hatten einige kritische Systeme nicht offengelegte Abhängigkeiten, die sie während des Vorfalls unbenutzbar machten.
- Cloudflares Kontrollplane- und Analysesysteme werden hauptsächlich in drei Rechenzentren rund um Hillsboro im US-Bundesstaat Oregon betrieben. Sie arbeiten unabhängig voneinander und sind so ausgelegt, dass sie weiterlaufen, selbst wenn eines davon offline geht.
- Der Ausfall machte deutlich, dass einige Dienste, insbesondere neuere, noch nicht zum High-Availability-Cluster hinzugefügt worden waren und dass das Logging-System nicht Teil dieses Clusters war.
- Der Stromausfall im Flexential-Rechenzentrum wurde durch ein ungeplantes Wartungsereignis verursacht, das die unabhängigen Stromzuführungen zum Gebäude beeinträchtigte und dadurch einen Erdschluss an einem Transformator auslöste.
- Cloudflare konnte den Großteil der Kontrollplane in einer Disaster-Recovery-Einrichtung wiederherstellen. Nachdem diese online war, dürften die meisten Kunden bei den meisten Produkten keine Probleme mehr gehabt haben.
- Andere Dienste benötigten jedoch länger für die Wiederherstellung, und Kunden, die diese nutzten, könnten bis zur vollständigen Behebung des Vorfalls Probleme gehabt haben.
- Auf Basis der Lehren aus dem Vorfall setzt Cloudflare Änderungen um. Dazu gehören das Entfernen von Abhängigkeiten zu zentralen Rechenzentren, das Sicherstellen, dass Funktionen der Kontrollplane auch dann weiterlaufen, wenn alle zentralen Rechenzentren offline sind, sowie die Anforderung, dass alle Produkte und Funktionen vom High-Availability-Cluster abhängen und über verlässliche Disaster-Recovery-Pläne verfügen.
- Das Unternehmen führt außerdem strengere Chaos-Tests für alle Rechenzentrumsfunktionen durch, prüft alle zentralen Rechenzentren und entwickelt Disaster-Recovery-Pläne für Logging und Analysen.
1 Kommentare
Hacker-News-Kommentare