Störungsbericht: 19. Mai 2026 – Aussetzung des GCP-Kontos
(blog.railway.com)- Ein plattformweiter Ausfall bei Railway dauerte ab dem 19. Mai 2026, 22:20 UTC, rund 8 Stunden; die direkte Ursache war die Aussetzung des Produktionskontos bei Google Cloud.
- Dashboard und API gaben sofort 503-Fehler zurück, und in Google Cloud gehostete Compute-, Datenbank-, Control-Plane- und Burst-Compute-Infrastruktur gingen offline.
- Railway Metal- und AWS-Workloads liefen weiter, aber der Edge-Proxy war von der in Google Cloud gehosteten Control-Plane-API abhängig, sodass sich nach Ablauf des Route-Cache 404-Fehler ausbreiteten.
- Auch nach Wiederherstellung des Kontozugriffs mussten Persistent Disks, Compute-Instanzen und Networking jeweils separat wiederhergestellt werden, und GitHub-OAuth- sowie Webhook-Rate-Limits blockierten zusätzlich Logins und Builds.
- Railway erkennt die Verantwortung für Architekturentscheidungen an, durch die die Maßnahme eines einzelnen Upstream-Anbieters zu einem Totalausfall wurde, und arbeitet an einem Redesign, das Google Cloud aus dem Hot Path der Datenebene entfernt.
Auswirkungen
- Vom 19. Mai 2026, 22:20 UTC, bis zum 20. Mai gegen 06:14 UTC kam es bei Railway etwa 8 Stunden lang zu einem plattformweiten Ausfall.
- Nachdem Google Cloud den Dienst für Railways Produktionskonto ausgesetzt hatte, gingen API, Control Plane, Datenbanken und die in Google Cloud gehostete Compute-Infrastruktur offline.
- Nutzer erhielten im Dashboard und in der API sofort 503-Fehler und konnten sich mit Meldungen wie
"no healthy upstream"und"unconditional drop overload"nicht mehr anmelden. - Alle auf Google-Cloud-Compute gehosteten Workloads gingen offline.
- Die Workloads selbst in Railway Metal und der AWS-Burst-Cloud-Umgebung liefen zwar weiter, aber Railways Edge-Proxy war darauf angewiesen, die in Google Cloud gehostete Control-Plane-API zum Befüllen der Routing-Tabellen zu nutzen.
- Als die zwischengespeicherten Netzwerk-Routen abliefen, wurden auch Workloads außerhalb von Google Cloud unerreichbar, und die Netzwerk-Control-Plane konnte die Routen zu aktiven Instanzen nicht mehr auflösen und gab 404-Fehler zurück.
- Am Höhepunkt der Auswirkungen waren Railway-Workloads in allen Regionen nicht erreichbar.
- Während der Wiederherstellung der Google-Cloud-Umgebung waren plattformweit Builds und Deployments blockiert, während einzelne Dienste wiederhergestellt wurden.
- Nachdem die gesamte Infrastruktur wiederhergestellt war, wurde ein großer Rückstau ausstehender Deployments schrittweise abgearbeitet, um die Plattform nicht zu überlasten.
- Gleichzeitig drosselte GitHub Railways OAuth- und Webhook-Integrationen, wodurch Logins und Builds vorübergehend blockiert wurden.
- Das erhöhte Aufrufvolumen war eine Folge der durch den Google-Cloud-Ausfall geleerten Caches.
- Auch die Einträge zur Zustimmung zu den Nutzungsbedingungen wurden zurückgesetzt, sodass Nutzer beim nächsten Besuch des Dashboards erneut zustimmen mussten.
- Railway erkennt die Verantwortung für Architekturentscheidungen an, die dazu führten, dass die Maßnahme eines einzelnen Upstream-Anbieters zu einem plattformweiten Ausfall eskalieren konnte.
Timeline des Ausfalls
-
- Mai, 22:10 UTC: Automatisches Monitoring erkannte fehlgeschlagene API-Healthchecks und alarmierte den On-Call-Dienst.
-
- Mai, 22:11 UTC: Das Dashboard begann 503-Fehler zurückzugeben, und Nutzer konnten sich nicht mehr anmelden.
-
- Mai, 22:19 UTC: Es wurde bestätigt, dass die Aussetzung von Railways Produktionskonto durch Google Cloud Platform die Grundursache war.
-
- Mai, 22:22 UTC: Ein P0-Ticket wurde bei Google Cloud eingereicht, und Railways GCP-Account-Manager schaltete sich direkt ein.
-
- Mai, 22:29 UTC: Der Ausfall wurde offiziell erklärt.
-
- Mai, 22:29 UTC: Der Zugriff auf das GCP-Konto wurde wiederhergestellt, aber alle Compute-Instanzen waren weiterhin gestoppt und Persistent Disks unzugänglich.
-
- Mai, 22:35 UTC: Als zwischengespeicherte Netzwerk-Routen zu verfallen begannen, gaben Railway-Metal- und AWS-Workloads 404-Fehler zurück.
-
- Mai, 23:09 UTC: Die erste Persistent Disk kam wieder online.
-
- Mai, 23:54 UTC: Alle Persistent Disks waren wieder im Status ready, aber das Netzwerk war weiterhin ausgefallen.
-
- Mai, 00:39 UTC: Der Status der Disks als ready wurde bestätigt; die Wiederherstellung wurde durch die Wiederherstellung des Google-Cloud-Netzwerks blockiert.
-
- Mai, 01:30 UTC: Compute-Instanzen begannen wieder verfügbar zu werden.
-
- Mai, 01:38 UTC: Edge-Traffic wurde wieder ausgeliefert, und das Netzwerk war wiederhergestellt.
-
- Mai, 01:57 UTC: Orchestrierungs- und Build-Infrastruktur waren wiederhergestellt; Deployments wurden vorübergehend pausiert, damit wartende Jobs nicht gleichzeitig anlaufen und das System überfordern.
-
- Mai, 02:04 UTC: Compute-Hosts kamen schrittweise wieder online.
-
- Mai, 02:47 UTC: GitHub begann, Railways OAuth- und Webhook-Integrationen zu drosseln, sodass sich einige Nutzer nicht anmelden konnten und Builds blockiert wurden.
-
- Mai, 02:55 UTC: Das Dashboard war wieder erreichbar.
-
- Mai, 03:59 UTC: Die Verarbeitung von Deployments wurde auf allen Tiers wieder aufgenommen.
-
- Mai, 04:00 UTC: Es wurde bestätigt, dass API, Dashboard und OAuth-Endpunkte funktionieren; die Wiederherstellung verbleibender Workloads lief weiter.
-
- Mai, 06:14 UTC: Der Ausfall ging in die Monitoring-Phase über.
-
- Mai, 07:58 UTC: Der Ausfall wurde behoben.
Ursache und Wiederherstellungsverlauf
-
Aussetzung des Google-Cloud-Kontos
- Am 19. Mai um 22:20 UTC versetzte Google Cloud Railways Produktionskonto fälschlicherweise im Rahmen einer automatisierten Maßnahme in den Status ausgesetzt.
- Diese Maßnahme betraf mehrere Konten innerhalb von Google Cloud.
- Da es sich um eine plattformweite Maßnahme handelte, gab es vor der Einschränkung keine vorherige Kontaktaufnahme mit einzelnen Kunden.
- Der Aussetzungsstatus deaktivierte GCP-bezogene Infrastruktur, darunter das Railway Dashboard, die API, Teile der Netzwerkinfrastruktur sowie zusätzliche in Google Cloud gehostete Burst-Compute-Infrastruktur.
-
Abhängigkeit von der Control Plane
- Railways Control Plane ist der zentrale Satz an Abhängigkeiten, der das Dashboard bereitstellt, Builds und Deployments verarbeitet und die vom Edge verwendeten Routing-Tabellen befüllt.
- Alle Workloads in Google Cloud waren sofort betroffen.
- Railways Edge-Proxys halten einen Cache der Routing-Tabellen der innerhalb von Google Cloud gehosteten Netzwerk-Control-Plane.
- Solange der Cache erhalten blieb, verarbeiteten Workloads in Railway Metal und AWS weiterhin Traffic.
- Nachdem der Cache abgelaufen war, konnte der Edge die Routen zu aktiven Instanzen nicht mehr auflösen, und Workloads in allen Regionen, einschließlich Metal und AWS, begannen 404-Fehler zurückzugeben.
- Die Workloads selbst waren weiterhin online, aber die Auswirkungen des Netzwerkausfalls breiteten sich auf Regionen außerhalb von Google Cloud aus.
-
Grenzen des Hochverfügbarkeitsdesigns
- Railways Infrastruktur ist auf Hochverfügbarkeit ausgelegt; Datenbanken laufen über mehrere Availability Zones hinweg, und das Netzwerk nutzt redundante Verbindungen zwischen AWS, GCP und Railway Metal.
- Auch nach Wiederherstellung des Kontozugriffs wurden einzelne Dienste nicht automatisch wiederhergestellt.
- Persistent Disks, Compute-Instanzen und Networking mussten jeweils separat wiederhergestellt werden, und diese Eigenschaft der Wiederherstellung verlängerte den Ausfall um mehrere weitere Stunden.
- Die Disks waren um 23:54 UTC wieder im Status ready, aber kritisches Networking und Edge-Routing waren erst am 20. Mai gegen 01:30 UTC vollständig wiederhergestellt.
- Railway wartet noch auf eine Bestätigung, ob diese Verzögerung und die damit verbundenen Fehler auf Google-Seite entstanden sind.
-
Schrittweise Wiederherstellung und Sekundäreffekte
- Mit der Wiederherstellung des Netzwerks wurden Railways Kerndienste und Endnutzer-Workloads schichtweise verifiziert.
- Um eine Überlastung des Build-Systems zu verhindern, wurden Deployments pausiert und danach schrittweise wieder aufgenommen.
- Parallel zur Wiederherstellung der Kernsysteme drosselte GitHub Railways OAuth- und Webhook-Integrationen.
- Wegen des Volumens und Burst-Verhaltens aller Wiederholungsanfragen waren Nutzer-Logins und Builds vorübergehend blockiert.
- Gegen 04:00 UTC am 20. Mai wurde bestätigt, dass API, Dashboard und OAuth-Endpunkte funktionierten, während die Wiederherstellung der verbleibenden Workloads weiterlief.
Präventivmaßnahmen
-
Bestehendes Resilienzdesign
- Railways Netzwerk-Control-Plane ist als multi-AZ, multi-zone-Konfiguration ausgelegt und soll selbst beim Ausfall mehrerer Maschinen und Komponenten ohne Auswirkungen auf Nutzer weiter funktionieren.
- Dieses Design wurde vor dem Launch vor einigen Monaten in Staging und unter echtem Traffic getestet.
- Nach früheren Ausfällen wurde in Resilienz investiert; dadurch konnte man zuvor etwa GitHub-Installationen von Nutzern stabil ohne sekundäre Drosselung wiederherstellen.
-
Beseitigung einer einzelnen Abhängigkeit
- Railways Netzwerk ist ein mesh ring aus hochverfügbaren Glasfaser-Interconnects zwischen Metal <> GCP <> AWS.
- Selbst innerhalb dieses Rings bestand jedoch weiterhin eine starke Abhängigkeit davon, dass die Auffindbarkeit von Workloads an die Netzwerk-Control-Plane-API gebunden war, die auf Google-Cloud-Maschinen lief.
- Das Mesh funktionierte etwa eine Stunde lang weiter, scheiterte dann aber nach Ablauf des Route-Cache daran, die Routing-Tabellen erneut zu befüllen.
- Railway arbeitet nun daran, diese Abhängigkeit sofort zu entfernen und daraus ein echtes mesh zu machen.
- Ziel ist, dass zwischen den Clouds immer ein Pfad bestehen bleibt, auch wenn eine Interconnect-Verbindung ausfällt.
-
Verbesserungen bei Datenbanken und Failover
- Railway plant, hochverfügbare Datenbank-Shards über AWS und Metal hinweg auszuweiten.
- Künftig soll dadurch der Datenbank-quorum den Dienst weiter aufrechterhalten, selbst wenn alle Instanzen in einer bestimmten Cloud sofort verschwinden, und Workloads, die nicht mehr laufen, sollen sofort per Failover ersetzt werden.
-
Redesign von Datenebene und Control Plane
- Es läuft ein Plan, Google-Cloud-Dienste aus dem Hot Path der Datenebene zu entfernen und sie nur noch für sekundäre Zwecke oder Failover beizubehalten.
- Das geschieht parallel zur Umsetzung einer neuen Architektur für die Datenebene, die Host-Verbindungen ermöglicht, und für die Control Plane, die das Dashboard antreibt, über das Nutzer auf Railway zugreifen und es verwalten.
- Dieses Upgrade soll sicherstellen, dass Kerndienste, insbesondere nutzernahe Komponenten, nicht von einem einzelnen Anbieter oder einer einzelnen Plattform abhängen.
Verantwortung und Fazit
- Die Verantwortung für die Wahl von Anbietern liegt bei Railway, und auch diese Entscheidung liegt letztlich in Railways Verantwortung.
- Kunden betrachten das Produkt selbst, nicht ob die Ursache des Ausfalls bei Google oder Railway lag; Railways Verfügbarkeit ist Railways Verantwortung.
1 Kommentare
Hacker-News-Kommentare
Der interessante und bislang ungeklärte Punkt ist, warum Google das Konto markiert hat
Man kann noch so viele im Postmortem beobachtete Zeitstempel einfügen, die eigentliche Ursache wurde nicht behandelt
In dem Teil der Geschichte, der „keinen Sinn ergibt“, steckt wahrscheinlich die echte Erklärung, die noch niemand öffentlich machen will
Google hat das Konto ohne Vorwarnung abgeschaltet, obwohl wir damals rund 10.000 Dollar pro Monat ausgegeben haben
Sogar unser Premium-Support-Konto war gesperrt, sodass wir dem Support nicht einmal mitteilen konnten, dass wir ausgesperrt waren
Nach etwa 8 Stunden sagte irgendein Google-Support-Ingenieur, wir hätten Bitcoin geschürft, was völliger Unsinn war
Wir hatten CPU-Auslastungsdiagramme und Logs für den gesamten Zeitraum, und es gab keinen Spike
Nach ungefähr 12 Stunden wurde es wieder aktiviert mit der Begründung, es sei ein „Konfigurationsfehler in der Missbrauchserkennung“ gewesen, und wir bekamen etwa 100 Dollar als Gutschrift
Man kann über AWS sagen, was man will, aber AWS hätte einem Kunden so etwas nicht angetan, ohne dass sich vorher ein Ansprechpartner meldet
Seitdem vertraue ich GCP nicht mehr
Automatisierte Systeme machen Fehler, aber das größere Problem ist, dass sie vollkommen intransparent sind
Es ist gut möglich, dass nicht einmal Google genau weiß, wie dieses System funktioniert
Wenn gemeint ist, Railway solle sich lieber damit beschäftigen, statt GCP zu verlassen, dann verstehe ich nicht, warum sie das tun sollten, außer sie wollten GCP verklagen, um den Schaden an Marke und langfristiger Kundenbindung wieder hereinzuholen
In dem Moment, in dem GCP sie ohne jede Vorwarnung abgeschaltet hat, war die Sache aus meiner Sicht ohnehin erledigt, da muss man nicht weiter nachfragen
Railway scheint diesen Monat in der Tech-Presse kein gutes Bild abgegeben zu haben
In beiden Fällen wurde der Ruf durch die automatisierten Abläufe der jeweils anderen Seite beschädigt
Eigentlich wollte ich dem Google-Ansprechpartner von dem Problem erzählen, bei dem Gemini CLI abgeschossen wurde, aber dieser Fall ist deutlich beunruhigender
Sie selbst waren die Einzigen, die Admin-Account-Zugangsdaten in eine KI eingegeben haben
Und persönliche Verantwortung wurde dafür auch nicht übernommen, was dem Ruf definitiv geschadet hat
Diesmal wird zumindest ein gewisses Maß an Verantwortung eingeräumt, daher muss man ihnen diese Verbesserung zugestehen
Außerdem sind die Zuverlässigkeitsprobleme von GCP und Googles Kundensupport tatsächlich gravierend
Korrektur: Ich habe unten erfahren, dass die ersten beiden Absätze fälschlich zugeordnet waren und es nicht um Railway, sondern um einen Railway-Kunden ging. Entschuldigung, Railway!
Unser Unternehmen hat früher einen Hoster genutzt, der im Wesentlichen nur ein paar zusätzliche Zusicherungen auf AWS draufgesetzt hat
Inzwischen bietet AWS die Funktionen, die wir brauchen, selbst an, daher haben wir die Migration auf normales AWS abgeschlossen
Leider mussten wir wegen dieser Sache gestern eine Notfallmigration zu Azure durchführen
Zum Glück lag unsere Datenbank nicht bei Railway, daher waren wir in wenigen Stunden wiederhergestellt
Die Einfachheit, die Railway geboten hat, war wirklich großartig, aber um darauf weiterhin eine B2B-Enterprise-App zu betreiben, gab es auf dieser Infrastruktur einfach zu viele Vorfälle und Einschränkungen
Ein trauriger Tag :(
Ich kenne den Dienst nicht gut, daher frage ich mich, ob es wegen besonderer Funktionen war oder ob er praktisch nur als virtuelle Maschine genutzt wurde
Falls es wegen besonderer Funktionen war, würde mich auch interessieren, wie schwierig die Exit-Migration war
Für kleine SaaS-Tools oder interne Produkte: Was wäre eine gute Alternative, wenn ein Team AWS oder andere IaaS-Anbieter nicht direkt verwalten möchte?
Selbst wenn man etwas wie AWS nutzt, gibt es gelegentlich Downtime, wenn man keine redundante Architektur über mehrere Availability Zones hinweg hat
Und selbst mit Redundanz über mehrere Availability Zones ist AWS nicht vollständig isoliert aufgebaut, daher können einzelne Dienste ausfallen und es kann zu Downtime kommen
Also sollte man Downtime akzeptieren und die Werkzeuge verwenden, die am besten passen. Außer in wirklich extrem schlechten Fällen auf GitHub-Niveau
Wenn man Downtime überhaupt nicht akzeptieren kann, braucht man Millionen von Dollar und monatelange Arbeit, um ein Maß an Zuverlässigkeit zu erreichen, bei dem man realistischerweise erwarten kann, dass es keine Ausfälle gibt
Etwa in der Größenordnung von Netflix mit Chaos Monkey und der dazugehörigen Infrastruktur
Man braucht mindestens zwei Anbieter mit voller Betriebsfähigkeit
Auch ohne nutzungsbasierte Abrechnung kommt man damit ziemlich weit
Die großen Cloud-Anbieter liefern Services, die nur etwas schwieriger zu bedienen sind als das, was Railway macht, und man kann bei wachsendem Bedarf zu fortgeschritteneren Funktionen hochskalieren
Man muss keinen Dritten hinzufügen, der Kontrolle über Funktionalität, Sicherheit und Verfügbarkeit hat
Nach dieser Timeline hat GCP zum Beispiel innerhalb von 7 Minuten reagiert
Wenn man Cloud Run genutzt hätte, wäre die Downtime um mehr als 7 Stunden kürzer gewesen, und wenn der unbekannte Trigger mit Aktivitäten anderer Kunden oder irgendeinem seltsamen Verhalten von Railway zusammenhing, wäre es womöglich gar nicht erst heruntergefahren worden
Dazu kommt Komplexität
Ein großer Teil der komplexen Infrastruktur, die Railway laut eigener Aussage reparieren musste, wäre gar nicht nötig gewesen, wenn sie nur ihr eigenes Konto genutzt hätten
Dieser Code erfüllt sicher einen nützlichen Zweck, aber für einen Hosting-Anbieter gibt es viele bewegliche Teile, die normale Nutzer nicht brauchen
Dieser Ausfall hat zwar alle gemeinsam zu Fall gebracht, aber einzelne AWS-Nutzer oder Bare-Metal-Nutzer wären ursprünglich gar nicht betroffen gewesen
Es gibt keine eine globale optimale Lösung für alle, aber Entwickler unterschätzen oft massiv die direkten Kosten und die weniger sichtbaren Kosten der Arbeit in der Umgebung anderer im Vergleich zu der Zeit, die sie durch ein paar eingesparte Deployment-Schritte gewinnen
„19. Mai, 22:10 UTC - Das automatische Monitoring erkannte fehlgeschlagene API-Healthchecks, alarmierte den On-Call und die Verantwortlichen begannen mit der Untersuchung“
„19. Mai, 22:20 UTC - Google Cloud versetzte Railways Produktionskonto im Rahmen einer automatischen Maßnahme fälschlicherweise in den Status suspendiert“
Wenn die Zeitstempel stimmen, wodurch wurden dann die Fehler 10 Minuten vor der Kontosperrung verursacht?
Die einfachste Erklärung ist, dass einer der beiden Zeitstempel falsch ist, und das wäre an sich nichts Dramatisches
Wenn man sich bei den Zeitstempeln aber nicht sicher ist, ist es ziemlich seltsam, sie als gesichert in den Bericht zu schreiben, obwohl sie sich offensichtlich widersprechen
Der Timeline-Abschnitt mit 22:10 ist in sich konsistent und enthält auch Folgendes
„19. Mai, 22:19 UTC - Root Cause identifiziert: Google Cloud Platform suspendiert Railways Produktionskonto“
Man kann die Ursache nicht identifizieren, bevor sie eingetreten ist
Zum Beispiel könnte ein Google-Mitarbeiter eine Konfiguration falsch geändert und damit wie bei früheren Vorfällen ein Signal erzeugt haben, das eine Sperrung erforderlich erscheinen ließ, und der Ablauf bis zur tatsächlichen Sperrung hätte dann 10 Minuten gedauert
Oder ein Railway-Kunde hat etwas Betrügerisches oder betrugsähnliches getan, und das Google-System hat zunächst Zugriffsbeschränkungen eingeleitet und dann innerhalb von 10 Minuten entschieden, auf eine Sperrung hochzustufen
Wenn dabei ein Mensch in die Freigabe eingebunden war, wäre das noch plausibler
Offensichtlich hat diese Person aber nicht tief genug hingeschaut, um zu erkennen, dass man das so nicht hätte tun dürfen
Für alle, die GCP betreiben, sollte das eine Warnung sein
GCP scheint Konten wahllos zu sperren, ohne darüber nachzudenken, was sie da tun
Es wirkt, als würden sie Produktionsentscheidungen von Gemini 3.1 Pro treffen lassen
TK hat eine Vorgeschichte damit, die Unternehmenskultur wie bei OCI vollständig zu ruinieren, und soweit ich gehört habe, wohl etwas Ähnliches auch bei GCP getan
GCP und Google sind Organisationen, die völlig unterschiedlich arbeiten
Man sollte nicht allein wegen des Namens Google-Qualität erwarten
Es ähnelt eher Nokia, einer alten Marke, die heute auf billigen Lizenzprodukten klebt. Das ist übertrieben, aber nicht weit von der Wahrheit entfernt
Außerdem ist Google dafür bekannt, Dienste zufällig einzustellen und dann etwa 6 Monate Migrationszeit zu geben
Es gibt viele Ingenieure ohne echte Aufgaben, die man intern darauf ansetzt, Nutzer von diesen Diensten wegzumigrieren, aber die meisten Kunden können das nicht
Es gab einmal einen hervorragenden Beitrag eines ehemaligen GCP-Mitarbeiters, den ich gerade nicht finde
Wenn man sein Geschäft ernst meint, sollte man GCP wie die Pest meiden
Korrektur: Ironischerweise hat Gemini den Artikel gefunden. Lesenswert: https://steve-yegge.medium.com/dear-google-cloud-your-deprec...
Das ist bekannt genug, um ganz oben auf der HN-Startseite zu landen, und groß genug, dass man bei Google vermutlich irgendwann jemanden findet, der eingreift
Wäre es ein kleines Produkt von mir gewesen, hätte ich überhaupt keine Handhabe gehabt
Die eigentliche Produktqualität ist ziemlich gut, was es umso bedauerlicher macht
Sie hätten leicht der Anbieter auf Platz 2 werden können, denn Azure ist extrem instabil und die Dokumentation unterirdisch
Dass GCP nur auf Platz 3 liegt, ist zu einem erheblichen Teil selbstverschuldet
Meine völlig unbewiesene Einschätzung ist, dass er als disziplinierter Erwachsener geholt wurde, um Googles laxes Enterprise-Vorgehen zu korrigieren
Wie dieser Vorfall zeigt, ist noch viel zu tun, aber um eine „ernsthafte“ Enterprise-Organisation zu werden, war das vielleicht nötig
Dabei könnte allerdings eine Kultur entstanden sein, die mit dem Rest von Google kollidiert
Andererseits: Hatte OCI als Oracle-Sparte überhaupt eine Kultur, die man noch zerstören konnte? Eher wirkt es so, als hätte TK diese Kultur zu Google gebracht
Man sollte sie niemals für irgendetwas Wichtiges verwenden
Es ist nicht das erste Mal, dass Google Cloud ein Kundenkonto massiv beschädigt hat: https://cloud.google.com/blog/products/infrastructure/detail...
„Railway trägt die Verantwortung für seine Vendor-Auswahl, und letztlich liegt auch diese Entscheidung in unserer Verantwortung. Den Kunden ist es egal, ob der Ausfall von Google oder von Railway verursacht wurde. Für den Kunden sichtbar ist unser Produkt. Eure Verfügbarkeit ist unsere Verantwortung, und wir werden sie weiterhin sicherstellen“
Dass sie das anerkennen und nicht nur PR-Sprache benutzen, ist lobenswert
Das Vertrauen in GCP war auf Seiten von Railway ein Architekturfehler, und das zeigt, dass sie versuchen, ihn zu beheben
Hätten sie das vorhersehen müssen? Ja. Aber spät ist immer noch besser als nie
„Abschließend planen wir, Google-Cloud-Services aus dem Hot Path der Data Plane zu entfernen und sie nur noch für Backup-/Failover-Zwecke zu behalten“
Das ist ziemlich eindeutig
Google ist als B2B-Dienstleister nicht länger vertrauenswürdig
Bei irgendeiner Firma wurde die OAuth-App von Meta vollständig unbrauchbar, nur weil das persönliche Facebook-Konto eines Entwickler-Mitarbeiters ohne erkennbaren Grund von Meta gesperrt wurde
Es wurde mehrfach eskaliert, aber niemand war erreichbar
Bei Meta ist es noch schlimmer, weil das Konto „persönlich“ sein muss
Selbst wenn es einen Business Manager gibt, sind alle dort hinzugefügten Nutzer weiterhin an persönliche Meta-/Facebook-Konten gebunden
Völlig absurd
Google hat immer wieder bewiesen, dass man ihnen gerade wegen solcher Probleme als Dienstleister nicht vertrauen kann
Genau deshalb sollte man sie in Dutzende Teile zerschlagen
Oft wird das erst spät rückgängig gemacht, nachdem Nutzer ihre Wut öffentlich gemacht haben und der Vorfall größere Kreise zieht
Google hat sich gegenüber zahlenden Kunden immer so verhalten, als hätten sie keinerlei Verpflichtungen
Für mich ist genau das der wichtigste Punkt
Ein Cloud-Anbieter sperrt nicht ohne Grund ein komplettes Konto