GCP-Störungsbericht vom 2025-06-12
(status.cloud.google.com)- Service Control: Eines der Kernmodule, die von Google- und Google-Cloud-APIs verwendet werden
- Am 2025-05-29 wurde eine neue Funktion für Service Control ausgerollt. Sie diente zur Prüfung neuer Richtlinien.
- Als am 2025-06-12 eine neue Richtlinie hinzugefügt wurde, begann das Problem:
- Crash-Loop* aufgrund eines Null-Pointers
- Es gab kein Feature Flag. Stattdessen wurde zur Notabschaltung ein Red Button ausgelöst.
- In großen Regionen wie
us-central-1führte diese Aktion zu einem Herd Effect* bei abhängigen internen Services, weil keine Strategie mit randomized exponential backoff** implementiert war.
- Das bedeutet, dass sich auf einmal sehr viel Traffic gebündelt hat.
** Eine Technik zur Vermeidung von Traffic-Überlastung.
5 Kommentare
Auch auf GN+ ist ein Beitrag erschienen, der denselben Bericht behandelt.
Offenbar gibt es selbst bei einem großen Anbieter wie Google hier und da noch Code, bei dem nicht einmal die grundlegende Maßnahme umgesetzt wurde, beim Retry-Handling Jitter hinzuzufügen.
Vermutlich hat man es bisher so gelassen, weil solche Probleme nie aufgetreten sind — offenbar gilt auch in Großunternehmen: Man fasst funktionierenden Code nicht an.
Jetzt sehe ich, dass das Format ein wenig kaputtgegangen ist. Die letzten beiden Zeilen sind jeweils Anmerkungen zu Crash-Loop und randomized exponential backoff.
Hat das vielleicht mit dem Ausfall aus diesem Beitrag über den Internetausfall vor ein paar Tagen zu tun?
Ja, genau, es geht um diese Störung.