11 Punkte von before30 2020-12-25 | Noch keine Kommentare. | Auf WhatsApp teilen

Update 18.12.2020 (Ursache und Gegenmaßnahmen ergänzt)

#ROOT CAUSE

Seit Oktober wurde beim Google-Benutzer-ID-Dienst ein neues System zur automatischen Speicherzuweisung eingeführt. Einige Dienste verwendeten noch das bisherige Quota-System und hatten das Problem, dass sie ihre Nutzung als 0 meldeten. Dass die als 0 gemeldete Nutzung nicht sofort Auswirkungen hatte, lag daran, dass noch eine Ablaufzeit verblieb. Nach deren Ablauf kam es beim Verringern der Quota des User-ID-Dienstes zum Ausfall. Es gab zwar Sicherheitsprüfungen, um unbeabsichtigte Quota-Änderungen zu validieren, aber sie berücksichtigten kein Szenario mit dem Wert 0.

Die Quota der Konto-Datenbank wurde reduziert, Schreibvorgänge des Paxos-Leaders wurden unmöglich, und die meisten Lesevorgänge liefen ab, wodurch bei Authentifizierungsabfragen Fehler auftraten.

#REMEDIATION AND PREVENTION

  1. Überprüfung der Quota-Management-Automatisierung, um eine zu schnelle Implementierung globaler Änderungen zu verhindern

  2. Verbesserung von Monitoring und Alerts, um Fehlkonfigurationen schnell zu erkennen

  3. Verbesserung der Stabilität von Tools und Prozessen für die externe Kommunikation, wenn interne Tools einen Ausfall verursachen

  4. Implementierung von Resilience gegen Schreibfehler in der Datenbank des User-ID-Dienstes

  5. Verbesserung der Resilience von GCP-Diensten, indem die Auswirkungen auf den Datenbereich bei Ausfällen des User-ID-Dienstes strikt begrenzt werden

  • Ein detaillierter Bericht zum Ausfall vom 14. Dezember wurde aktualisiert, und ich habe beim Lesen versucht, ihn frei zu übersetzen. Falls es Fehler gibt, sagt bitte Bescheid. Da ich GeekNews immer mit Spaß lese, werde ich auch künftig interessante Inhalte zu Ausfällen posten, wenn ich welche finde.

Noch keine Kommentare.

Noch keine Kommentare.