Details zu dem jüngsten Vorfall mit Auswirkungen auf einen Kunden
Google Cloud-Kundensupport
- Anfang dieses Monats gab es einen Google-Cloud-Vorfall, der den australischen Kunden UniSuper betraf.
- Unmittelbar nach dem Vorfall hatte die vollständige Wiederherstellung der Systeme gemeinsam mit dem Kunden oberste Priorität.
- Kurz nach Beginn des Vorfalls wurde er in einer gemeinsamen Erklärung mit dem Kunden öffentlich anerkannt.
- Nachdem die Systeme des Kunden vollständig wiederhergestellt waren, wurde die interne Überprüfung abgeschlossen.
- Um die Art des Vorfalls klarzustellen und im Sinne der Transparenz eine präzise Erklärung zu liefern, werden diese Informationen veröffentlicht.
- Google Cloud hat Maßnahmen ergriffen, damit sich dieser spezifische und isolierte Vorfall nicht erneut ereignet.
- Die Auswirkungen dieses Vorfalls waren äußerst enttäuschend, und wir entschuldigen uns aufrichtig für die dem Kunden entstandenen Unannehmlichkeiten.
Umfang der Auswirkungen
Betroffene Technologien und Services
- Dieser Vorfall betraf die folgenden von Google verwalteten Services:
- einen Kunden in einer Cloud-Region.
- einen der vom Kunden genutzten Google-Cloud-Services: Google Cloud VMware Engine (GCVE).
- eine von mehreren GCVE Private Clouds des Kunden, verteilt über zwei Zonen.
Nicht betroffen
- Dieser Vorfall hatte keine Auswirkungen auf:
- andere Google-Cloud-Services.
- andere Kunden, die GCVE oder andere Google-Cloud-Services nutzen.
- andere GCVE Private Clouds, Google-Konten, Organisationen, Ordner oder Projekte des Kunden.
- die im selben Bereich gespeicherten Daten-Backups des Kunden in Google Cloud Storage.
Ursache des Vorfalls
Zusammenfassung
- Bei der initialen Bereitstellung einer GCVE Private Cloud für den Kunden hat ein Google-Mitarbeiter mit einem internen Tool den GCVE-Service falsch konfiguriert. Dies geschah, weil ein Parameter leer gelassen wurde.
- Dadurch wurde die GCVE Private Cloud des Kunden mit einer festen Laufzeit versehen und so konfiguriert, dass sie nach Ablauf dieses Zeitraums automatisch gelöscht wird.
- Sowohl die Ursache des Vorfalls als auch das Systemverhalten wurden korrigiert, damit dies nicht erneut vorkommt.
- Dieser Vorfall betraf keine anderen Google-Cloud-Services außer einer einzelnen GCVE Private Cloud dieses Kunden.
- Andere Kunden waren von diesem Vorfall nicht betroffen.
Detaillierte Analyse
Bereitstellung mit einem Ausnahmeprozess
- Anfang 2023 nutzte ein Google-Mitarbeiter ein internes Tool, um eine der GCVE Private Clouds des Kunden bereitzustellen und dabei spezifische Anforderungen an die Kapazitätszuweisung zu erfüllen.
- Dieses interne Tool für das Kapazitätsmanagement wurde im vierten Quartal 2023 außer Betrieb genommen und ist nun vollständig automatisiert, sodass kein menschlicher Eingriff mehr erforderlich ist.
Unbeabsichtigtes Verhalten durch einen leeren Eingabeparameter
- Der Google-Mitarbeiter befolgte die internen Kontrollprotokolle.
- Bei der Nutzung des internen Tools zur Provisionierung der Private Cloud des Kunden blieb jedoch ein Eingabeparameter leer.
- Dadurch wies das System diesem Parameter einen damals unbekannten Standardwert mit einer festen Laufzeit von einem Jahr zu.
- Nach Ablauf dieser vom System zugewiesenen einjährigen Laufzeit wurde die GCVE Private Cloud des Kunden gelöscht.
- Für die Löschung wurde keine Benachrichtigung an den Kunden gesendet, da sie als Folge eines vom Google-Mitarbeiter beim Einsatz des internen Tools leer gelassenen Parameters erfolgte.
- Eine vom Kunden initiierte Löschung wäre erst nach dem Versand einer Benachrichtigung an den Kunden erfolgt.
Wiederherstellung
- Der Kunde und die Google-Teams arbeiteten mehrere Tage lang rund um die Uhr zusammen, um die GCVE Private Cloud des Kunden wiederherzustellen, Netzwerk- und Sicherheitskonfigurationen zurückzuspielen, Anwendungen wiederherzustellen und Daten zu rekonstruieren, um den vollständigen Betrieb wieder aufzunehmen.
- Möglich war dies dank des starken und resilienten Architekturansatzes des Kunden.
- Die im selben Bereich in Google Cloud Storage gespeicherten Daten-Backups waren von der Löschung nicht betroffen und spielten zusammen mit Backup-Software von Drittanbietern eine entscheidende Rolle für die schnelle Wiederherstellung.
Korrekturmaßnahmen
- Google Cloud hat mehrere Maßnahmen ergriffen, damit sich dieser Vorfall nicht wiederholt:
- Das interne Tool, das diesen Vorfall ausgelöst hat, wurde außer Betrieb genommen. Dieser Teil ist nun vollständig automatisiert und kann vom Kunden über die Benutzeroberfläche gesteuert werden.
- Die Systemdatenbank wurde bereinigt und alle GCVE Private Clouds wurden manuell überprüft, um sicherzustellen, dass keine anderen GCVE-Bereitstellungen gefährdet sind.
- Das Systemverhalten in diesen Bereitstellungs-Workflows, das GCVE Private Clouds zur Löschung markierte, wurde korrigiert.
Fazit
- Ein Vorfall dieser Art ist bei Google Cloud zum ersten Mal aufgetreten. Es handelt sich nicht um ein systemisches Problem.
- Google-Cloud-Services verfügen über starke Schutzmechanismen wie Soft Delete, Vorabbenachrichtigungen und menschliche Eingriffe.
- Es wurde bestätigt, dass diese Schutzmechanismen weiterhin bestehen.
- Die enge Zusammenarbeit mit dem Kunden ist für eine schnelle Wiederherstellung entscheidend. Der CIO und das Technikteam des Kunden verdienen Anerkennung für die enge Zusammenarbeit mit dem Google-Cloud-Team, durch die die Wiederherstellung rund um die Uhr schnell und präzise umgesetzt wurde.
- Für eine schnelle Wiederherstellung bei unerwarteten Vorfällen ist ein starkes und resilientes Risikomanagement unerlässlich.
- Google Cloud verfügt weiterhin über die widerstandsfähigste und zuverlässigste Cloud-Infrastruktur der Welt. Trotz dieses einmaligen Vorfalls wurden unsere Verfügbarkeit und Resilienz unabhängig bestätigt.
Meinung von GN⁺
- Bedeutung des Vorfalls: Dieser Vorfall zeigt, wie wichtig es ist, dass Cloud-Anbieter Probleme schnell beheben und eng mit Kunden zusammenarbeiten.
- Notwendigkeit von Automatisierung: Er unterstreicht, wie wichtig die Automatisierung interner Tools ist, insbesondere wenn menschliche Fehler große Auswirkungen auf Systeme haben können.
- Zusammenarbeit mit Kunden: Er zeigt, wie wichtig eine enge Zusammenarbeit mit Kunden für die Problemlösung ist. Das ist auch ein wichtiger Faktor für den Aufbau von Vertrauen.
- Bedeutung von Daten-Backups: Er hebt hervor, wie wichtig Daten-Backups sind, insbesondere für eine schnelle Wiederherstellung bei unerwarteten Vorfällen.
- Präventionsmaßnahmen für die Zukunft: Die von Google Cloud ergriffenen Maßnahmen zur Verhinderung eines erneuten Auftretens können auch für andere Cloud-Anbieter ein gutes Beispiel sein.
1 Kommentare
Hacker-News-Kommentar
Zusammenfassung der Hacker-News-Kommentare
Unzufriedenheit mit der Tiefe der Problemlösung
Fragen zu Schutzmaßnahmen für GCP-Kunden
Zweifel an der 24x7-Arbeit
Verwandte Vorfälle
Überraschung über den Fehler auf Google-Seite
Gründlichkeit der Überprüfung
Erwartungen an GCP
Lob für den Einsatz des Kunden
Erfahrung eines UniSuper-Kunden
Missverständnis durch die erste Ankündigung