Vorfallsbericht: Railway von Google Cloud blockiert [Behoben]
(status.railway.com)- Die weitreichende Service-Störung bei Railway wurde behoben; als Ursache wurde eine Sperrung des Google-Cloud-Kontos von Railway bestätigt
- Während der Störung konnten Nutzer
"no healthy upstream","unconditional drop overload", Login-Fehler und den fehlenden Zugriff auf das Dashboard erleben - Railway stellte durch direkten Kontakt mit dem Google-Cloud-Supportteam den Kontozugriff wieder her und arbeitete an der Wiederherstellung der Control Plane und der Workloads
- Während der Wiederherstellung blieben Netzwerkprobleme bei Google Cloud bestehen, wodurch der Start einiger Services blockiert wurde; Nicht-Enterprise-Builds wurden vorübergehend eingeschränkt
- Der Service ist vollständig wiederhergestellt, aber einige als anomal erkannte Workloads werden automatisch neu bereitgestellt; falls nötig müssen Nutzer selbst eine erneute Bereitstellung auslösen
Überblick über die Störung und finaler Status
- Railway hat die weitreichende Service-Störung behoben; die Nachanalyse ist im Incident Report zu finden
- Während des Ausfalls konnten Nutzer
"no healthy upstream","unconditional drop overload", Login-Fehler und fehlenden Zugriff auf das Dashboard erleben - Die Ursache war die Sperrung des Google-Cloud-Kontos von Railway, wodurch einige Railway-Services nicht verfügbar waren
- Railway stellte durch direkten Kontakt mit dem Google-Cloud-Supportteam den Kontozugriff wieder her und arbeitete an der Wiederherstellung der Workloads
- Der Service ist vollständig wiederhergestellt, aber einige als anomal erkannte Workloads werden automatisch neu bereitgestellt, und bei Services mit weiterhin abnormalem Antwortverhalten müssen Nutzer möglicherweise selbst eine erneute Bereitstellung auslösen
Verlauf der Wiederherstellung und Auswirkungen auf Nutzer
-
Erste Untersuchung und Ursachenbestätigung
- Railway stellte die Google-Cloud-Infrastruktur wieder her, die die Control Plane für Dashboard, API und internes Netzwerk betreibt
- Auch nachdem der Zugang zum übergeordneten Cloud-Anbieter wiederhergestellt war, konnten das Railway-Dashboard und in der Cloud-Infrastruktur laufende Services bis zur Ausbringung von Fixes weiterhin betroffen sein
- Nach der Sperrung des Google-Cloud-Kontos bestätigte das Railway-Plattformteam den Zugriff auf Teile der bei Google Cloud gehosteten Infrastruktur und stellte den Zugriff auf die übrigen Services wieder her
-
Google Cloud und Netzwerkprobleme
- Railway stellte die Compute-Ressourcen in Google Cloud wieder her, aber Netzwerkprobleme auf Seiten von Google Cloud blieben bestehen, sodass einige Services nicht starten konnten
- Während der Wiederherstellung konnten in Google Cloud gehostete Workloads weiterhin unter intermittierenden Problemen leiden
- Das Infrastrukturteam von Railway prüfte parallel auch alternative Wege, um betroffene Services wieder online zu bringen
-
Build- und Deployment-Einschränkungen
- Railway-Metal-Workloads begannen sich schrittweise zu erholen
- Um eine Überlastung der Build-Infrastruktur während der Wiederherstellung zu vermeiden, wurden alle Nicht-Enterprise-Builds vorübergehend eingeschränkt
- Danach blieben Nicht-Enterprise-Deployments vorübergehend ausgesetzt, während Enterprise-Deployments nicht betroffen waren
- Auch nachdem Deployments wieder möglich waren, konnten in Google Cloud verbleibende Workloads bis zum Abschluss der Wiederherstellung weiterhin unter intermittierenden Problemen leiden
-
Aktuelle Maßnahmen
- Die Railway-Services sind vollständig wiederhergestellt; Services mit weiterhin abnormalem Antwortverhalten sollten über das Dashboard oder die CLI neu bereitgestellt werden
- Weitere Hintergründe finden sich in den FAQ; falls direkte Unterstützung nötig ist, kann in Railway Station ein Thread eröffnet werden
1 Kommentare
Hacker-News-Kommentare
Railway hat den Ausfall behoben und eine Post-Mortem-Analyse veröffentlicht
https://blog.railway.com/p/incident-report-may-19-2026-gcp-a...
Außerdem wurde mit Stand 20. Mai, 07:57 UTC, eine Statusseite veröffentlicht
https://status.railway.com/incident/I23M92U0
Insgesamt hatten wir mehr als 11 Stunden Downtime
Es ist wieder Tag 0, seit GCP das nächste Startup abgeschossen hat
So etwas sieht man gefühlt mindestens einmal im Jahr, und von AWS oder Azure habe ich so etwas noch nie gehört
Im Ernst: Genau deshalb nutze ich GCP nicht. Von den großen drei ist es zwar die am angenehmsten zu nutzende Cloud, aber durch diesen Ruf sabotieren sie sich selbst
Azure hat letztes Jahr auch den Front Door für Azure- und O365-Services insgesamt kaputtgemacht
Diese Unternehmen haben jeweils Bereiche, in denen sie stark sind, aber gelegentlich bauen sie richtig großen Mist
Alle wollen Google die Schuld geben, aber nachdem ich Railway ziemlich lange genutzt habe, würde ich gern auch die Sicht von GCP hören, bevor ich ein Urteil fälle. Bei Railway gab es solche Probleme schon früher, und die Art, wie das Team damit umging, hat kein Vertrauen geschaffen
Für mich war das jetzt jedenfalls der letzte Tropfen
Als ich später für andere Services etwas Ähnliches brauchte, bin ich auf coolify gestoßen. Wenn man coolify nutzen kann, gibt es überhaupt keinen Grund, Railway zu verwenden
Railway hätte das realistisch nicht verhindern können, außer GCP komplett zu meiden
Im Mai 2024 gab es auch den UniSuper-Ausfall: https://cloud.google.com/blog/products/infrastructure/detail...
https://www.unisuper.com.au/about-us/media-centre/2024/a-joi...
Laut einer gemeinsamen Erklärung von UniSuper-CEO Peter Chun und Google-Cloud-CEO Thomas Kurian kam es bei der Bereitstellung von UniSupers Private-Cloud-Service zu einem fahrlässigen Konfigurationsfehler, wodurch schließlich das Private-Cloud-Abonnement von UniSuper gelöscht wurde
Google Cloud bezeichnete das als einen isolierten, „einmaligen Vorfall“, für den es bei keinem Google-Cloud-Kunden weltweit einen Präzedenzfall gegeben habe, aber diese Löschung des Abonnements führte zur Löschung in beiden Regionen, sodass die Wiederherstellung Hunderte virtuelle Maschinen, Datenbanken und Anwendungen umfasste
Das war ein ziemlich schwerwiegender Bug, und ihre VMWare-Umgebung wurde mit einem Ablaufdatum von einem Jahr erstellt, war aus Sicht von Google Cloud aber eine einzige „Ressource“
Ich verstehe nicht, wie so etwas bei einem Unternehmen mit hohen monatlichen Ausgaben überhaupt passieren kann. In meinem vorherigen Job hat bei verdächtigen Workloads auf AWS der TAM zuerst Kontakt aufgenommen, bevor Maßnahmen ergriffen wurden
Hier wirkt es, als sei irgendeine fehlerhafte AI-Automatisierung im Spiel gewesen, und als hätte GCP eine echte Kontaktaufnahme mit einem Menschen vermieden, sodass irgendein ausgelagerter Mitarbeiter es erst Stunden später in der Support-Queue gesehen und nur eine Standardantwort geschickt hat
Jedes Mal stellten sie sich vor, wollten Meetings mit dem Engineering-Team ansetzen und kamen mit irgendwelchen Standard-Slide-Decks an, die mit uns absolut nichts zu tun hatten, was nur zum Lachen war, und die nächste Kontaktaufnahme kam dann erst wieder, wenn ein neuer AE zugewiesen wurde
GCP und seine Services mögen wir und sind seit Jahren zufrieden damit, aber die menschliche Seite ist wirklich miserabel, und ich verstehe nicht, warum sie das überhaupt betreiben
Ohne diese Ansprechpartner wäre es womöglich noch schlimmer gewesen
Als Betreiber einer öffentlichen API ist die Spam-Menge von Railway-IP-Adressen absurd hoch. Die Missbrauchsprävention ist miserabel, und ich hoffe, dass dieser Vorfall ein Anlass ist, den Betrieb zu verbessern
Baut man Gegenmaßnahmen ein, gibt es laute Fehlalarme, und genau das könnte auch bei diesem GCP-Fall passiert sein
Ich beneide niemanden, der ein Hosting-Unternehmen betreibt. Das Internet ist unter der Oberfläche wirklich schmutzig
Nebenbei: AWS macht das wirklich gut. Vermutlich dank rund 30 Jahren Erfahrung mit Retail-Betrug und Missbrauchsabwehr
Moment, Railway lief auf GCP? Haben sie nicht groß behauptet, sie würden „keine Cloud auf einer anderen Cloud bauen“?
Oder meinten sie nur, dass sie keine VPS mieten, sondern bei Cloud-Anbietern ausschließlich Bare Metal?
Ich hatte mich gefreut zu denken, dass da ein anderer Anbieter entsteht, der nicht einfach nur einem der Hyperscaler Geld zahlt, sondern Colocation nutzt und mehr vom Stack selbst besitzt
https://blog.railway.com/p/heroku-walked-railway-run
„Von Tag eins an hatten wir diesen Gedanken ganz vorne im Kopf.
Außerdem war uns intuitiv klar, dass man keine Cloud auf einer anderen Cloud bauen kann. Wir haben Jahre darauf verwendet, eigene Server zu betreiben und praktisch so mit anderen Clouds zusammenzuarbeiten, dass das Geschäft von Railway und letztlich das unserer Kunden so robust wie möglich ist.“
Ich muss mich jetzt wohl umsehen. Ich brauche etwas, das stabiler ist und weniger von den Launen eines einzelnen Unternehmens abhängt
Das ist auch aus Sicht von Railway schlecht, weil es den Kern ihres großen Versprechens von friedlicher Software-Bereitstellung direkt trifft. Das hier ist Chaos
Ich dachte, Railway würde eigene Rechenzentren aufbauen [0]
„Tatsache ist, man kann keine Cloud auf der Cloud eines anderen bauen.“
Tja, offenbar doch nicht…
[0] https://blog.railway.com/p/launch-week-02-welcome
Beim Anmelden bei Railway ist es auffällig, dass man bestätigen muss, die Bedingungen zu Systemmissbrauch, Krypto-Mining usw. gelesen und verstanden zu haben
Meine Vermutung ist, dass viele Nutzer den Free Tier missbrauchen und dem Anbieter dadurch Probleme bereiten
Selbst als Wettbewerber freut es mich nicht, Railway so getroffen zu sehen, aber kostenlose Compute-Ressourcen ziehen alle möglichen schrägen Nutzer an. Wir haben das auch erlebt und uns früh entschieden, kostenlose Compute-Angebote zu vermeiden, selbst wenn dadurch im Top of Funnel weniger hereinkommt
Ich finde nicht, dass man nur Google die Schuld geben kann. Railway scheint zunehmend Schwierigkeiten zu haben, die Stabilität der Plattform aufrechtzuerhalten
So etwas sollte nicht den gesamten Service lahmlegen. Wenn das Geschäft buchstäblich darin besteht, ein stabiles Backend bereitzustellen, dann muss es Backups geben. Für mich sieht das nach schlechter Planung aus