1 Punkte von GN⁺ 2023-12-04 | 1 Kommentare | Auf WhatsApp teilen

Probleme mit der Google Cloud Platform und die Reaktion darauf

  • Railway betreibt seine Anwendungsentwicklungsplattform mit Compute Engine der Google Cloud Platform (GCP).
  • Bestimmte Maschinen reagierten nicht mehr, wodurch es zu einem Dienstausfall kam, der etwa 10 Minuten andauerte.
  • Das Problem wurde behoben, alle Workloads wurden erfolgreich migriert und der Dienst wurde wiederhergestellt.

Schwierige Beziehung zu Google Cloud

  • Railway hatte in den vergangenen 18 Monaten mit Google Cloud mehrere Probleme.
  • Als Netzwerkprobleme anhielten, baute das Unternehmen einen eigenen Networking-Stack, um sie zu beheben.
  • Als Google die Registry-Quoten begrenzte, löste Railway das Problem mit einem eigenen Registry-Produkt.
  • Railway war von Googles Support-Service enttäuscht und sprach mit Googles Vizepräsidenten, um die Probleme zu lösen.
  • Google änderte die Nutzungsbedingungen, wodurch die Kosten um 20 % stiegen; Railway wartet noch auf eine Lösung.
  • Railway plant, die Nutzung von Google-Cloud-Diensten zu beenden und auf eigene Bare-Metal-Instanzen zu migrieren.

Rückblick auf den Vorfall

  • Google startete Maschinen neu, wodurch Server offline gingen.
  • Es gibt zwar ein automatisches Failover-System, doch einige Server wurden nicht wiederhergestellt, sodass ein manuelles Failover durchgeführt wurde.
  • Railway vermutet Probleme durch die automatische Live-Migration von Google Cloud und versuchte, Google zu kontaktieren, erhielt jedoch keine Antwort.
  • Die Analyse der Serial-Console-Logs deutet darauf hin, dass im GCP-Gast in seltenen Fällen unter Ressourcenknappheit ein Soft Lockup auftritt, wenn Speicher aus dem User Space in den Kernel übertragen wird.

Fazit für Nutzer

  • Während des manuellen Failovers kam es pro Host zu etwa 10 Minuten Ausfallzeit.
  • Für Nutzer, die Workloads über mehrere Dienste hinweg ausführen, konnte die Ausfallzeit länger sein.
  • Railway entschuldigt sich für die Unannehmlichkeiten und plant den Wechsel auf eigene Bare-Metal-Systeme, um eine höhere Zuverlässigkeit zu bieten.

Meinung von GN⁺

Am wichtigsten an diesem Artikel sind die Auswirkungen der technischen Probleme der Google Cloud Platform und der Defizite beim Kundensupport auf die Nutzer. Die von Railway erlebten Probleme unterstreichen, wie wichtig Zuverlässigkeit und Support bei Cloud-Anbietern sind, und zeigen, wie bedeutsam der Aufbau einer eigenen Infrastruktur zur Lösung solcher Probleme sein kann. Der Text hilft dabei, die Komplexität und die potenziellen Risiken des Cloud Computing zu verstehen, und ist interessant und informativ, weil er Einblicke in technische Probleme und mögliche Reaktionen darauf bietet.

1 Kommentare

 
GN⁺ 2023-12-04
Hacker-News-Kommentare
  • Erfahrungen eines kleinen Softwareunternehmens

    • Als Zwei-Personen-Softwarefirma gab es mehrere Probleme mit Google.
    • Die meisten Probleme standen im Zusammenhang mit Google Adwords.
    • Wenn Google dem ursprünglichen Autor, der große Summen bezahlt, keinen ordentlichen Support bietet, gibt es wenig Hoffnung für kleine Unternehmen.
  • Meinung zu den Veränderungen bei GCP

    • Vor einigen Jahren war GCP im Vergleich zu AWS bei Preis-Leistung die bessere Option.
    • Damals war der Support von GCP hervorragend, und auch die frühen Erfahrungen mit der Ticketbearbeitung waren beeindruckend.
    • Auch die Interaktion mit dem Vertriebsteam war gut, aber inzwischen hat AWS bei Preis-Leistung zu GCP aufgeschlossen und liegt bei Managed Services vorn.
    • Die Support-Erfahrung mit GCP hat sich deutlich verschlechtert, und es scheitert daran, Netzwerkprobleme zu erkennen.
    • Es wurde viel in GCP investiert, aber die aktuelle Situation ist enttäuschend, und man versucht nun, die Ausgaben zu senken.
  • Vergleich der Zuverlässigkeit von GCP und AWS

    • Dass Compute-Instanzen bei GCP ausfallen, ist selten, wird aber dennoch kritisiert.
    • Bei AWS habe man erlebt, dass Instanzen häufig unterbrochen werden oder verschwinden.
    • Es wird auf Basis persönlicher Erfahrungen und der AWS-Dokumentation behauptet, dass die grundlegenden Bausteine von AWS weniger zuverlässig seien als die von GCP.
  • Meinung zu Problemen bei Cloud-Anbietern

    • Alle Cloud-Anbieter haben Probleme.
    • Bei AWS wurden verschiedene Probleme gefunden und gemeldet, und das Support-Team habe dabei Zeit verschwendet.
    • Abgesehen von den Kernservices (EC2, EBS, S3) vermeidet man die Nutzung.
  • Erfahrungen mit dem Google-Cloud-Support

    • Der Support von Google Cloud war nicht besonders beeindruckend.
    • Bei AWS seien die Support-Erfahrungen immer gut gewesen.
    • Wenn es bei Google Cloud positive Interaktionen gibt, wird empfohlen, diese hervorzuheben und positives Feedback zu geben.
  • Erfahrungen mit Funktionsproblemen bei GCP

    • Enterprise-Funktionen von GCP funktionierten nicht richtig und verursachten Ausfallzeiten, als man versuchte, sie zu beheben.
    • Vertreter von GCP wollten die Probleme nicht anerkennen und erinnerten stattdessen an NDAs.
  • Erfahrungen mit undokumentierten Schwellenwerten bei GCP

    • Im Zusammenhang mit Cloud Run wurden unerklärliche Skalierungsereignisse erlebt, die auf CPU-Auslastung und gleichzeitigen Anfragen basierten.
    • Über Premium-Support wurde bekannt, dass es zusätzliche Kriterien gibt, aber eine genaue Erklärung wurde nicht gegeben.
  • Lösung für Netzwerkprobleme bei Google Cloud

    • Es gab anhaltende Netzwerkprobleme mit Google-Cloud-Produkten.
    • Das Problem wurde durch den Aufbau eines eigenen Netzwerk-Stacks gelöst.
    • Es wird infrage gestellt, wie ein UDP/Wireguard-Overlay zuverlässiger sein kann, wenn das zugrunde liegende Netzwerk instabil ist.
  • Meinung zur Zuverlässigkeit von Google Cloud

    • Zuverlässigkeitsprobleme in den frühen Tagen des Cloud Computing sind nachvollziehbar, aber im Jahr 2023 große Kunden zu enttäuschen, ist keine gute Situation.
    • Es wird gefragt, ob andere ähnliche Erfahrungen gemacht haben oder ob der Autor einfach Pech hatte.
  • Persönliche Verwirrung über die Probleme bei GCP

    • Es herrscht Verwirrung darüber, was verschachtelte Virtualisierung mit dem Problem zu tun haben soll.
    • Die Erwähnung von MMIO-Befehlen ist unverständlich.
    • Es wirkt so, als sei der Autor von den jüngsten Vorfällen frustriert und bemühe sich um eine Lösung.