7 Punkte von roxie 2025-06-15 | 5 Kommentare | Auf WhatsApp teilen
  • Service Control: Eines der Kernmodule, die von Google- und Google-Cloud-APIs verwendet werden
    • Am 2025-05-29 wurde eine neue Funktion für Service Control ausgerollt. Sie diente zur Prüfung neuer Richtlinien.
    • Als am 2025-06-12 eine neue Richtlinie hinzugefügt wurde, begann das Problem:
      • Crash-Loop* aufgrund eines Null-Pointers
      • Es gab kein Feature Flag. Stattdessen wurde zur Notabschaltung ein Red Button ausgelöst.
      • In großen Regionen wie us-central-1 führte diese Aktion zu einem Herd Effect* bei abhängigen internen Services, weil keine Strategie mit randomized exponential backoff** implementiert war.
  • Das bedeutet, dass sich auf einmal sehr viel Traffic gebündelt hat.
    ** Eine Technik zur Vermeidung von Traffic-Überlastung.

5 Kommentare

 
kunggom 2025-06-16

Auch auf GN+ ist ein Beitrag erschienen, der denselben Bericht behandelt.

 
kunggom 2025-06-16

Offenbar gibt es selbst bei einem großen Anbieter wie Google hier und da noch Code, bei dem nicht einmal die grundlegende Maßnahme umgesetzt wurde, beim Retry-Handling Jitter hinzuzufügen.
Vermutlich hat man es bisher so gelassen, weil solche Probleme nie aufgetreten sind — offenbar gilt auch in Großunternehmen: Man fasst funktionierenden Code nicht an.

 
roxie 2025-06-15

Jetzt sehe ich, dass das Format ein wenig kaputtgegangen ist. Die letzten beiden Zeilen sind jeweils Anmerkungen zu Crash-Loop und randomized exponential backoff.

 
regentag 2025-06-15

Hat das vielleicht mit dem Ausfall aus diesem Beitrag über den Internetausfall vor ein paar Tagen zu tun?

 
roxie 2025-06-15

Ja, genau, es geht um diese Störung.