2 Punkte von GN⁺ 2023-11-05 | 1 Kommentare | Auf WhatsApp teilen
  • Vom 2. bis 4. November 2023 kam es bei Cloudflare zu Ausfällen der Kontrollplane und der Analysedienste.
  • Die Kontrollplane umfasst vor allem kundenorientierte Schnittstellen der Cloudflare-Dienste, während die Analysedienste Logging und Analyseberichte einschließen.
  • Der Vorfall wurde durch einen Stromausfall im Rechenzentrum von Flexential verursacht, in dem sich Cloudflares größter Analyse-Cluster sowie ein wichtiger Teil des High-Availability-Clusters befinden.
  • Obwohl High-Availability-Systeme installiert waren, um solche Ausfälle zu verhindern, hatten einige kritische Systeme nicht offengelegte Abhängigkeiten, die sie während des Vorfalls unbenutzbar machten.
  • Cloudflares Kontrollplane- und Analysesysteme werden hauptsächlich in drei Rechenzentren rund um Hillsboro im US-Bundesstaat Oregon betrieben. Sie arbeiten unabhängig voneinander und sind so ausgelegt, dass sie weiterlaufen, selbst wenn eines davon offline geht.
  • Der Ausfall machte deutlich, dass einige Dienste, insbesondere neuere, noch nicht zum High-Availability-Cluster hinzugefügt worden waren und dass das Logging-System nicht Teil dieses Clusters war.
  • Der Stromausfall im Flexential-Rechenzentrum wurde durch ein ungeplantes Wartungsereignis verursacht, das die unabhängigen Stromzuführungen zum Gebäude beeinträchtigte und dadurch einen Erdschluss an einem Transformator auslöste.
  • Cloudflare konnte den Großteil der Kontrollplane in einer Disaster-Recovery-Einrichtung wiederherstellen. Nachdem diese online war, dürften die meisten Kunden bei den meisten Produkten keine Probleme mehr gehabt haben.
  • Andere Dienste benötigten jedoch länger für die Wiederherstellung, und Kunden, die diese nutzten, könnten bis zur vollständigen Behebung des Vorfalls Probleme gehabt haben.
  • Auf Basis der Lehren aus dem Vorfall setzt Cloudflare Änderungen um. Dazu gehören das Entfernen von Abhängigkeiten zu zentralen Rechenzentren, das Sicherstellen, dass Funktionen der Kontrollplane auch dann weiterlaufen, wenn alle zentralen Rechenzentren offline sind, sowie die Anforderung, dass alle Produkte und Funktionen vom High-Availability-Cluster abhängen und über verlässliche Disaster-Recovery-Pläne verfügen.
  • Das Unternehmen führt außerdem strengere Chaos-Tests für alle Rechenzentrumsfunktionen durch, prüft alle zentralen Rechenzentren und entwickelt Disaster-Recovery-Pläne für Logging und Analysen.

1 Kommentare

 
GN⁺ 2023-11-05
Hacker-News-Kommentare
  • Ein Artikel über den schwerwiegenden Ausfall von Cloudflare; das Unternehmen führt das Problem auf einen Stromausfall in einem von dem Anbieter Flexential betriebenen Rechenzentrum zurück.
  • Einige Kommentatoren kritisieren, dass Cloudflare die Verantwortung auf Flexential abwälzt und vertrauliche Informationen über den Anbieter offenlegt.
  • Die eigentliche Ursache des Ausfalls war, dass Cloudflare von einem einzigen Rechenzentrum abhängig war; einige Kommentatoren halten das für peinlich angesichts des Rufs von Cloudflare.
  • Die Wiederherstellung dauerte länger als der Ausfall selbst, und einige Dienste benötigten fast 30 Stunden für die vollständige Wiederherstellung. Das lag daran, dass viele Dienste voneinander abhängig waren.
  • Einige Kommentatoren äußern Unzufriedenheit mit der Kommunikation von Cloudflare während des Ausfalls, insbesondere gegenüber Unternehmenskunden.
  • Trotz der Probleme loben einige Kommentatoren die Transparenz von Cloudflare und die Gründlichkeit des Postmortems.
  • Einige Kommentatoren äußern Bedenken über das Versagen der Redundanz bei Cloudflare und die fehlende geografische Verteilung der Control Plane.
  • Die Kommentatoren kritisieren außerdem, dass Cloudflare nicht alle Dienste in Hochverfügbarkeits-Clustern betrieben und nicht alle möglichen Szenarien eines Stromausfalls getestet habe.
  • Einige Kommentatoren loben im Bericht den menschlichen Aspekt, also dass Cloudflare anerkennt, dass zur Vermeidung weiterer Fehler während der Wiederherstellung Pausen nötig waren.
  • Die Kommentatoren betonen außerdem, wie wichtig die Fähigkeit ist, ein Rechenzentrum aus einem vollständig offline befindlichen Zustand wiederherzustellen, und kritisieren, dass Cloudflare dieses Szenario nicht getestet habe.
  • Einige Kommentatoren zeigen sich überrascht über den Aufbau des Artikels, da sich der Großteil des Beitrags mit einem Drittanbieter befasst und weniger mit den eigenen Wiederherstellungsbemühungen von Cloudflare.