2 Punkte von GN⁺ 2025-06-13 | 1 Kommentare | Auf WhatsApp teilen
  • Auf der Google Cloud Platform ist eine Service-Störung aufgetreten
  • Beim Dienst Vertex AI Online Prediction treten weiterhin Fehler auf
  • Es ist schwierig, den Status personalisierter Dienste zu überprüfen
  • Es wurden Service-Anomalien gemeldet, die Nutzer in mehreren Regionen betreffen
  • Die Notwendigkeit einer Wiederherstellung des Normalbetriebs und einer genauen Ursachenanalyse wurde hervorgehoben

Überblick über die Störung

  • Auf der Google Cloud Platform wurde eine Nichtverfügbarkeit von Diensten gemeldet
  • Insbesondere bei Funktionen wie Vertex AI Online Prediction wurde das Auftreten anhaltender Fehler bestätigt

Umfang der Auswirkungen und aktueller Stand

  • Das Problem beeinträchtigt auch die Überprüfung des Status von Diensten wie Personalized Service Health
  • Nutzer in verschiedenen Regionen haben Einschränkungen beim Zugriff auf oder bei der Nutzung der Dienste

Fazit und Ausblick

  • Die Notwendigkeit der Wiederherstellung des Normalbetriebs und der Analyse der Störungsursache rückt in den Vordergrund
  • Weitere Mitteilungen zu konkreten Wiederherstellungs- und Gegenmaßnahmen werden erwartet

1 Kommentare

 
GN⁺ 2025-06-13
Hacker-News-Kommentare
  • Erläuterung der Situation, in der Chemist, ein zentraler interner Dienst bei Google, ausgefallen ist; Chemist bietet verschiedene Policy-Prüfungen für Projektstatus, Aktivierungsstatus, Missbrauch, Abrechnungsstatus, Standortbeschränkungen, VPC Service Controls, SuperQuota usw. Daher sind verschiedene Fehlermeldungen wie „visibility check (of the API) failed“ oder „cannot load policy“ nachvollziehbar. Verweis auf die Dokumentation zur konkreten Policy-Prüfung: Link, EDIT: Google meldete einen Ausfall bei Google Cloud aufgrund eines „Identity and Access Management Service Issue“
    • Ich nutze mit Expo eine Benachrichtigungs-Relay-Funktion und frage mich, ob im Zusammenhang mit diesem Google-Ausfall auch FCM betroffen war
    • Mehrere Internetdienste sind gleichzeitig ausgefallen, es ist also nicht nur ein GCP-Problem; vermutlich war der Chemist-Dienst besonders stark von außen betroffen, wodurch sich die Störung bis ins interne GCP-Netzwerk ausgebreitet hat
  • Bei der Nutzung von Claude Sonnet 4 (Cursor) und Gemini Pro traten zahlreiche Fehler auf; Klage darüber, wieder in den Dezember 2024 zurückversetzt zu sein und wie ein Höhlenmensch 100 % des Codes selbst schreiben zu müssen
    • Ich hatte in AI Studio dasselbe Problem, mit der Meldung „Inhaltserstellung wegen Überschreitung des Benutzerkontingents fehlgeschlagen“
    • Ich habe gerade mit Datei-Uploads in Cloud Storage experimentiert, aber jetzt scheint ein guter Zeitpunkt für einen Spaziergang zu sein
    • Auch im Auto-Agent-Modus von Cursor traten ähnliche Fehler auf
    • Witz: Entwickler vor dem 12. Juni 2025: „AI? Nur eine Halluzinationsmaschine, die mich nicht ersetzen kann!“ / Entwickler während des Ausfalls am 12. Juni 2025: „Heißt das, ich bin ohne AI ein Sklave?“
    • Tipp, dass es beim Umschalten in den Auto-Modus weiterhin nutzbar ist
  • Auch bei Cloudflare kommt es zu Ausfällen; auf Cloudflare status wird auf intermittierende Störungen bei verschiedenen Diensten (Access, WARP, Durable Objects (SQL-basiert), Workers KV, Realtime, Workers AI, Stream, Teile des Cloudflare-Dashboards) hingewiesen, und die Folgenabschätzung wird laufend aktualisiert. Geteilt wurde auch die zugehörige Hacker-News-Diskussion
    • Falls Cloudflare von GCP abhängt, wäre dieser Ausfall ein gewaltiges Ereignis
    • Meinung, dass der Link fehlerhaft funktioniert habe, mit Hinweis darauf, dass er kurzzeitig leer war
  • Stand 18:43 UTC sind fast alle Dienste ausgefallen; geteilt wurde ein Link zu downdetector
    • Anscheinend sammelt auch dieser Service seine Daten intern über GCP; während eines Gesprächs mit einem Google-Mitarbeiter sagte jemand, auch AWS sei ausgefallen, und ich bereue meine spekulative Bemerkung „Vielleicht ein BGP-Angriff?“, ohne das geprüft zu haben
    • Frage: „Sind alle Dienste Google-Dienste?“
    • Meinung, man hätte nicht erwartet, dass ein Google-Ausfall auch AWS oder Microsoft 365 beeinflussen würde
    • Behauptung, dass Downdetector bei großen Ereignissen wie diesem zu 100 % eine Quelle für Falschinformationen sei
    • Witz, dass vermutlich auch diese Erkennungslogik auf Google Cloud laufen könnte
  • Die Statusseiten zeigen alle Normalbetrieb (grüne Anzeige), obwohl tatsächlich viele Störungen gemeldet werden; Google Cloud outage monitor
    • Zweifel am Sinn von Statusseiten; es wird berichtet, dass über 100.000 Nutzer Google Meet nicht verwenden können. Wenn Großunternehmen die tatsächliche Lage nicht auf ihren Statusseiten widerspiegeln, verlieren diese ihren Zweck. Zusätzlich geteilt wurden Google Apps Status und die GCP Status Page. EDIT: Innerhalb einer Minute nach dem Beitrag wurde die GCP-Statusseite aktualisiert und zeigte Ausfälle bei vielen Diensten wie Cloud Data Fusion, Cloud Memorystore und Cloud Shell
    • Offizieller Hinweis zu diesem Ausfall: Link
    • Derzeitige Updates zu den Auswirkungen auf console, dataproc, GCS, IAM, Identity Platform usw.: Link
    • Auch in unserem Unternehmen arbeiten Hunderte remote, und beim Zugriff auf Google Meetings traten bei über 90 % der Fälle 504-Fehler auf
  • Der Cloudflare-Ausfall wurde gerade erneut aktualisiert; essenzielle Dienste wie Workers KV sind wegen eines Ausfalls bei einem Drittanbieter offline, was die Informationsbereitstellung der davon abhängigen Cloudflare-Produkte direkt beeinträchtigt
  • Auch Firebase Auth ist ausgefallen und betrifft viele Apps; in Discord- und Slack-Communitys berichteten viele Nutzer gleichzeitig davon. Enttäuschung darüber, dass fast 30 Minuten lang nichts auf der Statusseite stand, Firebase Status
    • Jetzt wurde die Statusseite endlich aktualisiert; vermutlich wurde auch die Aktualisierung durch interne Störungen verzögert
  • Durch diesen Ausfall sind auch RCS-Nachrichten mit ausgefallen, was deutlich zeigt, wie fragil die technische oder infrastrukturelle Architektur war
    • Reaktion: Ist RCS nicht letztlich auch nur Instant Messaging? Daher sei der Ausfall nicht überraschend
    • Damit ist erklärt, warum ich heute keine Hundefotos meiner Eltern bekommen konnte
    • Überraschung darüber, endlich die Erklärung gefunden zu haben, warum mein RCS-Chat vorhin fehlgeschlagen ist
    • Witz, dass man Erlang hätte verwenden sollen
  • Es wird nach einem guten Dashboard gesucht, um BGP-Routing-Anomalien zu prüfen; als Referenz dient Cloudflare Radar Routing, aber da dort tatsächliche Route Leaks nicht angezeigt werden, werden weitere Dashboard-Empfehlungen erfragt
    • Reaktion, dass Cloudflare Radar beeindruckend sei, obwohl man es zum ersten Mal sehe; zugleich die Vermutung, dass wegen des aktuellen Ausfalls auch einige Dashboards nicht richtig funktionieren könnten. Empfohlen wurden etwa RIPE Atlas, IHR global report, IHR network, BGP He.net und das IODA-Dashboard
    • Ich nutze normalerweise bgp.tools, frage mich aber, warum man in diesem Fall von BGP als Ursache ausgeht
    • Ich bin auch neu in dem Thema und frage mich, ob es normal ist, dass der Bereich „Announced IP Address Space“ plötzlich so stark springt
    • Es wurde der Verdacht eines BGP-Angriffs geäußert
  • Humorvoller Kommentar, dass Hacker News zum Glück unabhängig von dieser komplexen Infrastruktur auf einem einzelnen Bare-Metal-Server läuft