1 Punkte von GN⁺ 2024-05-26 | 1 Kommentare | Auf WhatsApp teilen

Details zu dem jüngsten Vorfall mit Auswirkungen auf einen Kunden

Google Cloud-Kundensupport

  • Anfang dieses Monats gab es einen Google-Cloud-Vorfall, der den australischen Kunden UniSuper betraf.
  • Unmittelbar nach dem Vorfall hatte die vollständige Wiederherstellung der Systeme gemeinsam mit dem Kunden oberste Priorität.
  • Kurz nach Beginn des Vorfalls wurde er in einer gemeinsamen Erklärung mit dem Kunden öffentlich anerkannt.
  • Nachdem die Systeme des Kunden vollständig wiederhergestellt waren, wurde die interne Überprüfung abgeschlossen.
  • Um die Art des Vorfalls klarzustellen und im Sinne der Transparenz eine präzise Erklärung zu liefern, werden diese Informationen veröffentlicht.
  • Google Cloud hat Maßnahmen ergriffen, damit sich dieser spezifische und isolierte Vorfall nicht erneut ereignet.
  • Die Auswirkungen dieses Vorfalls waren äußerst enttäuschend, und wir entschuldigen uns aufrichtig für die dem Kunden entstandenen Unannehmlichkeiten.

Umfang der Auswirkungen

Betroffene Technologien und Services

  • Dieser Vorfall betraf die folgenden von Google verwalteten Services:
    • einen Kunden in einer Cloud-Region.
    • einen der vom Kunden genutzten Google-Cloud-Services: Google Cloud VMware Engine (GCVE).
    • eine von mehreren GCVE Private Clouds des Kunden, verteilt über zwei Zonen.

Nicht betroffen

  • Dieser Vorfall hatte keine Auswirkungen auf:
    • andere Google-Cloud-Services.
    • andere Kunden, die GCVE oder andere Google-Cloud-Services nutzen.
    • andere GCVE Private Clouds, Google-Konten, Organisationen, Ordner oder Projekte des Kunden.
    • die im selben Bereich gespeicherten Daten-Backups des Kunden in Google Cloud Storage.

Ursache des Vorfalls

Zusammenfassung

  • Bei der initialen Bereitstellung einer GCVE Private Cloud für den Kunden hat ein Google-Mitarbeiter mit einem internen Tool den GCVE-Service falsch konfiguriert. Dies geschah, weil ein Parameter leer gelassen wurde.
  • Dadurch wurde die GCVE Private Cloud des Kunden mit einer festen Laufzeit versehen und so konfiguriert, dass sie nach Ablauf dieses Zeitraums automatisch gelöscht wird.
  • Sowohl die Ursache des Vorfalls als auch das Systemverhalten wurden korrigiert, damit dies nicht erneut vorkommt.
  • Dieser Vorfall betraf keine anderen Google-Cloud-Services außer einer einzelnen GCVE Private Cloud dieses Kunden.
  • Andere Kunden waren von diesem Vorfall nicht betroffen.

Detaillierte Analyse

Bereitstellung mit einem Ausnahmeprozess
  • Anfang 2023 nutzte ein Google-Mitarbeiter ein internes Tool, um eine der GCVE Private Clouds des Kunden bereitzustellen und dabei spezifische Anforderungen an die Kapazitätszuweisung zu erfüllen.
  • Dieses interne Tool für das Kapazitätsmanagement wurde im vierten Quartal 2023 außer Betrieb genommen und ist nun vollständig automatisiert, sodass kein menschlicher Eingriff mehr erforderlich ist.
Unbeabsichtigtes Verhalten durch einen leeren Eingabeparameter
  • Der Google-Mitarbeiter befolgte die internen Kontrollprotokolle.
  • Bei der Nutzung des internen Tools zur Provisionierung der Private Cloud des Kunden blieb jedoch ein Eingabeparameter leer.
  • Dadurch wies das System diesem Parameter einen damals unbekannten Standardwert mit einer festen Laufzeit von einem Jahr zu.
  • Nach Ablauf dieser vom System zugewiesenen einjährigen Laufzeit wurde die GCVE Private Cloud des Kunden gelöscht.
  • Für die Löschung wurde keine Benachrichtigung an den Kunden gesendet, da sie als Folge eines vom Google-Mitarbeiter beim Einsatz des internen Tools leer gelassenen Parameters erfolgte.
  • Eine vom Kunden initiierte Löschung wäre erst nach dem Versand einer Benachrichtigung an den Kunden erfolgt.

Wiederherstellung

  • Der Kunde und die Google-Teams arbeiteten mehrere Tage lang rund um die Uhr zusammen, um die GCVE Private Cloud des Kunden wiederherzustellen, Netzwerk- und Sicherheitskonfigurationen zurückzuspielen, Anwendungen wiederherzustellen und Daten zu rekonstruieren, um den vollständigen Betrieb wieder aufzunehmen.
  • Möglich war dies dank des starken und resilienten Architekturansatzes des Kunden.
  • Die im selben Bereich in Google Cloud Storage gespeicherten Daten-Backups waren von der Löschung nicht betroffen und spielten zusammen mit Backup-Software von Drittanbietern eine entscheidende Rolle für die schnelle Wiederherstellung.

Korrekturmaßnahmen

  • Google Cloud hat mehrere Maßnahmen ergriffen, damit sich dieser Vorfall nicht wiederholt:
    1. Das interne Tool, das diesen Vorfall ausgelöst hat, wurde außer Betrieb genommen. Dieser Teil ist nun vollständig automatisiert und kann vom Kunden über die Benutzeroberfläche gesteuert werden.
    2. Die Systemdatenbank wurde bereinigt und alle GCVE Private Clouds wurden manuell überprüft, um sicherzustellen, dass keine anderen GCVE-Bereitstellungen gefährdet sind.
    3. Das Systemverhalten in diesen Bereitstellungs-Workflows, das GCVE Private Clouds zur Löschung markierte, wurde korrigiert.

Fazit

  • Ein Vorfall dieser Art ist bei Google Cloud zum ersten Mal aufgetreten. Es handelt sich nicht um ein systemisches Problem.
  • Google-Cloud-Services verfügen über starke Schutzmechanismen wie Soft Delete, Vorabbenachrichtigungen und menschliche Eingriffe.
  • Es wurde bestätigt, dass diese Schutzmechanismen weiterhin bestehen.
  • Die enge Zusammenarbeit mit dem Kunden ist für eine schnelle Wiederherstellung entscheidend. Der CIO und das Technikteam des Kunden verdienen Anerkennung für die enge Zusammenarbeit mit dem Google-Cloud-Team, durch die die Wiederherstellung rund um die Uhr schnell und präzise umgesetzt wurde.
  • Für eine schnelle Wiederherstellung bei unerwarteten Vorfällen ist ein starkes und resilientes Risikomanagement unerlässlich.
  • Google Cloud verfügt weiterhin über die widerstandsfähigste und zuverlässigste Cloud-Infrastruktur der Welt. Trotz dieses einmaligen Vorfalls wurden unsere Verfügbarkeit und Resilienz unabhängig bestätigt.

Meinung von GN⁺

  • Bedeutung des Vorfalls: Dieser Vorfall zeigt, wie wichtig es ist, dass Cloud-Anbieter Probleme schnell beheben und eng mit Kunden zusammenarbeiten.
  • Notwendigkeit von Automatisierung: Er unterstreicht, wie wichtig die Automatisierung interner Tools ist, insbesondere wenn menschliche Fehler große Auswirkungen auf Systeme haben können.
  • Zusammenarbeit mit Kunden: Er zeigt, wie wichtig eine enge Zusammenarbeit mit Kunden für die Problemlösung ist. Das ist auch ein wichtiger Faktor für den Aufbau von Vertrauen.
  • Bedeutung von Daten-Backups: Er hebt hervor, wie wichtig Daten-Backups sind, insbesondere für eine schnelle Wiederherstellung bei unerwarteten Vorfällen.
  • Präventionsmaßnahmen für die Zukunft: Die von Google Cloud ergriffenen Maßnahmen zur Verhinderung eines erneuten Auftretens können auch für andere Cloud-Anbieter ein gutes Beispiel sein.

1 Kommentare

 
GN⁺ 2024-05-26
Hacker-News-Kommentar

Zusammenfassung der Hacker-News-Kommentare

  • Unzufriedenheit mit der Tiefe der Problemlösung

    • Im Verhältnis zu den Auswirkungen des Vorfalls geht die Lösung nicht tief genug. Zwar wurde sichergestellt, dass genau dasselbe Problem nicht erneut auftritt, aber ähnliche Probleme können weiterhin entstehen. Es sind zusätzliche Maßnahmen nötig, um Dienstabschaltungen/-löschungen systematisch zu verhindern.
  • Fragen zu Schutzmaßnahmen für GCP-Kunden

    • Es wird empfohlen, dass GCP-Kunden ihren TAM nach den Schutzmaßnahmen von GCP fragen. Bei GCP gibt es kaum menschliche Schutzmechanismen, deutlich weniger als bei AWS.
  • Zweifel an der 24x7-Arbeit

    • Die Formulierung „Das Google-Team hat mehrere Tage lang 24x7 gearbeitet“ wird infrage gestellt.
  • Verwandte Vorfälle

    • Erwähnt werden der Vorfall, bei dem UniSuper-Mitglieder wegen einer Fehlkonfiguration bei Google Cloud eine Woche lang nicht auf ihre Konten zugreifen konnten, sowie ein Fall, in dem Google Cloud versehentlich das Konto eines Kunden löschte.
  • Überraschung über den Fehler auf Google-Seite

    • Es wird Überraschung darüber geäußert, dass es ein Fehler auf Seiten von Google war. Zudem wird angemerkt, dass UniSuper einen großen Schock erlitten haben dürfte.
  • Gründlichkeit der Überprüfung

    • Die Überprüfung wird als gründlich bewertet, da nicht nur ein bestimmtes Tool bzw. ein bestimmter Prozess untersucht wurde, sondern auch automatische Löschprobleme geprüft und das Verhalten beim Soft Delete bestätigt wurde. Allerdings wird angemerkt, dass eine zusätzliche Überprüfung des Standardverhaltens nötig ist.
  • Erwartungen an GCP

    • Das Problem von UniSuper wurde zwar gelöst, doch man hofft, dass dieser Vorfall für GCP der nötige Weckruf ist.
  • Lob für den Einsatz des Kunden

    • Gelobt werden der CIO des Kunden und das Technikteam dafür, gemeinsam mit dem Google-Cloud-Team die Wiederherstellung 24x7 schnell und präzise durchgeführt zu haben.
  • Erfahrung eines UniSuper-Kunden

    • Ein UniSuper-Kunde berichtet, erst durch die Nachrichten vom tatsächlichen Ausmaß des Vorfalls erfahren zu haben, und erwähnt, dass versucht worden sei, den Vorfall als „Systemausfallzeit“ herunterzuspielen.
  • Missverständnis durch die erste Ankündigung

    • Es wird erklärt, dass die erste Ankündigung missverständlich war und tatsächlich nur virtuelle Maschinen in einer bestimmten Region verloren gingen. Dies sei ein Problem, mit dem das System umgehen können sollte.