GCP-Störungsbericht vom 2025-06-12

roxie · 2025-06-15T03:00:39+09:00

Service Control: Eines der Kernmodule, die von Google- und Google-Cloud-APIs verwendet werden Am 2025-05-29 wurde eine neue Funktion für Service Control ausgerollt. Sie diente zur Prüfung neuer Richtlinien. Als am 2025-06-12 eine neue Richtlinie hinzugefügt wurde, begann das Problem: Crash-Loop* aufgrund eines Null-Pointers Es gab kein Feature Flag. Stattdessen wurde zur Notabschaltung ein Red Button ausgelöst. In großen Regionen wie us-central-1 führte diese Aktion zu einem Herd Effect* bei abhängigen internen Services, weil keine Strategie mit randomized exponential backoff** implementiert war. Das bedeutet, dass sich auf einmal sehr viel Traffic gebündelt hat. ** Eine Technik zur Vermeidung von Traffic-Überlastung.

(status.cloud.google.com)

7 Punkte von roxie 2025-06-15 | 5 Kommentare | Auf WhatsApp teilen

Service Control: Eines der Kernmodule, die von Google- und Google-Cloud-APIs verwendet werden
- Am 2025-05-29 wurde eine neue Funktion für Service Control ausgerollt. Sie diente zur Prüfung neuer Richtlinien.
- Als am 2025-06-12 eine neue Richtlinie hinzugefügt wurde, begann das Problem:
  - Crash-Loop* aufgrund eines Null-Pointers
  - Es gab kein Feature Flag. Stattdessen wurde zur Notabschaltung ein Red Button ausgelöst.
  - In großen Regionen wie us-central-1 führte diese Aktion zu einem Herd Effect* bei abhängigen internen Services, weil keine Strategie mit randomized exponential backoff** implementiert war.

Das bedeutet, dass sich auf einmal sehr viel Traffic gebündelt hat.
** Eine Technik zur Vermeidung von Traffic-Überlastung.

5 Kommentare

kunggom 2025-06-16

Auch auf GN+ ist ein Beitrag erschienen, der denselben Bericht behandelt.

https://de.news.hada.io/topic?id=21473

kunggom 2025-06-16

Offenbar gibt es selbst bei einem großen Anbieter wie Google hier und da noch Code, bei dem nicht einmal die grundlegende Maßnahme umgesetzt wurde, beim Retry-Handling Jitter hinzuzufügen.
Vermutlich hat man es bisher so gelassen, weil solche Probleme nie aufgetreten sind — offenbar gilt auch in Großunternehmen: Man fasst funktionierenden Code nicht an.

roxie 2025-06-15

Jetzt sehe ich, dass das Format ein wenig kaputtgegangen ist. Die letzten beiden Zeilen sind jeweils Anmerkungen zu Crash-Loop und randomized exponential backoff.

regentag 2025-06-15

Hat das vielleicht mit dem Ausfall aus diesem Beitrag über den Internetausfall vor ein paar Tagen zu tun?

roxie 2025-06-15

Ja, genau, es geht um diese Störung.

GCP-Störungsbericht vom 2025-06-12

Verwandte Beiträge

5 Kommentare