Aktueller Stand der GCP-Vorfälle
(blog.railway.app)Probleme mit der Google Cloud Platform und die Reaktion darauf
- Railway betreibt seine Anwendungsentwicklungsplattform mit Compute Engine der Google Cloud Platform (GCP).
- Bestimmte Maschinen reagierten nicht mehr, wodurch es zu einem Dienstausfall kam, der etwa 10 Minuten andauerte.
- Das Problem wurde behoben, alle Workloads wurden erfolgreich migriert und der Dienst wurde wiederhergestellt.
Schwierige Beziehung zu Google Cloud
- Railway hatte in den vergangenen 18 Monaten mit Google Cloud mehrere Probleme.
- Als Netzwerkprobleme anhielten, baute das Unternehmen einen eigenen Networking-Stack, um sie zu beheben.
- Als Google die Registry-Quoten begrenzte, löste Railway das Problem mit einem eigenen Registry-Produkt.
- Railway war von Googles Support-Service enttäuscht und sprach mit Googles Vizepräsidenten, um die Probleme zu lösen.
- Google änderte die Nutzungsbedingungen, wodurch die Kosten um 20 % stiegen; Railway wartet noch auf eine Lösung.
- Railway plant, die Nutzung von Google-Cloud-Diensten zu beenden und auf eigene Bare-Metal-Instanzen zu migrieren.
Rückblick auf den Vorfall
- Google startete Maschinen neu, wodurch Server offline gingen.
- Es gibt zwar ein automatisches Failover-System, doch einige Server wurden nicht wiederhergestellt, sodass ein manuelles Failover durchgeführt wurde.
- Railway vermutet Probleme durch die automatische Live-Migration von Google Cloud und versuchte, Google zu kontaktieren, erhielt jedoch keine Antwort.
- Die Analyse der Serial-Console-Logs deutet darauf hin, dass im GCP-Gast in seltenen Fällen unter Ressourcenknappheit ein Soft Lockup auftritt, wenn Speicher aus dem User Space in den Kernel übertragen wird.
Fazit für Nutzer
- Während des manuellen Failovers kam es pro Host zu etwa 10 Minuten Ausfallzeit.
- Für Nutzer, die Workloads über mehrere Dienste hinweg ausführen, konnte die Ausfallzeit länger sein.
- Railway entschuldigt sich für die Unannehmlichkeiten und plant den Wechsel auf eigene Bare-Metal-Systeme, um eine höhere Zuverlässigkeit zu bieten.
Meinung von GN⁺
Am wichtigsten an diesem Artikel sind die Auswirkungen der technischen Probleme der Google Cloud Platform und der Defizite beim Kundensupport auf die Nutzer. Die von Railway erlebten Probleme unterstreichen, wie wichtig Zuverlässigkeit und Support bei Cloud-Anbietern sind, und zeigen, wie bedeutsam der Aufbau einer eigenen Infrastruktur zur Lösung solcher Probleme sein kann. Der Text hilft dabei, die Komplexität und die potenziellen Risiken des Cloud Computing zu verstehen, und ist interessant und informativ, weil er Einblicke in technische Probleme und mögliche Reaktionen darauf bietet.
1 Kommentare
Hacker-News-Kommentare
Erfahrungen eines kleinen Softwareunternehmens
Meinung zu den Veränderungen bei GCP
Vergleich der Zuverlässigkeit von GCP und AWS
Meinung zu Problemen bei Cloud-Anbietern
Erfahrungen mit dem Google-Cloud-Support
Erfahrungen mit Funktionsproblemen bei GCP
Erfahrungen mit undokumentierten Schwellenwerten bei GCP
Lösung für Netzwerkprobleme bei Google Cloud
Meinung zur Zuverlässigkeit von Google Cloud
Persönliche Verwirrung über die Probleme bei GCP