AWS-Rechenzentrumsausfall in Nordvirginia – behoben

(cnbc.com)

1 Punkte von GN⁺ 3 시간 전 | 1 Kommentare | Auf WhatsApp teilen

AWS meldete seit Donnerstagabend Betriebsprobleme. Die mit einer Überhitzung in einem Rechenzentrum der Region US-East-1 in Nordvirginia verbundenen Ausfälle beeinträchtigten Handelsplattformen wie Coinbase und FanDuel.
In einem Update von Freitag um 15:29 Uhr ET erklärte AWS, dass bis zur vollständigen Wiederherstellung voraussichtlich noch mehrere Stunden nötig seien und die Arbeiten langsamer vorankämen als zuvor erwartet.
AWS erklärte, dass das Problem in einer einzelnen Availability Zone der betreffenden Region aufgetreten sei und man zusätzliche Kühlungskapazitäten online bringe, um die verbleibende Hardware in dem betroffenen Bereich wiederherzustellen.
FanDuel teilte nach der Untersuchung technischer Schwierigkeiten, die Nutzern den Zugang zur Plattform verhinderten, mit, dass diese mit dem umfassenderen AWS-Ausfall zusammenhingen. Nutzer beschwerten sich, dass ihnen durch die fehlende Möglichkeit zum Cash-out Wettverluste entstanden seien.
Coinbase erklärte, dass Ausfälle in mehreren AWS-Bereichen zu einem längeren Ausfall zentraler Handelsdienste geführt hätten, und veröffentlichte, dass die Hauptprobleme vollständig behoben seien.

Fortschritt bei der Wiederherstellung

In einem Update von Freitag um 9:51 Uhr ET erklärte AWS: „Wir arbeiten aktiv daran, zusätzliche Kühlungskapazitäten online zu bringen, wodurch wir die verbleibende Hardware in dem betroffenen Bereich wiederherstellen können.“
AWS arbeitet an der Behebung von Ausfällen bei EC2-Instanzen, die Kapazitäten für virtuelle Server bereitstellen.
Das AWS-Health-Dashboard veröffentlichte am Donnerstag um 20:25 Uhr ET erstmals den Hinweis, dass man „Instanzausfälle untersucht“.
AWS gab keine weitere Stellungnahme ab.

Auswirkungen nach Dienst

FanDuel teilte am Donnerstag um 21 Uhr ET auf X mit, dass man die aktuellen technischen Schwierigkeiten kenne, die Nutzern den Zugang zur Plattform verhinderten, und diese untersuche.
Etwa zwei Stunden später aktualisierte FanDuel, dass das Problem mit dem umfassenderen AWS-Ausfall zusammenhänge.
FanDuel-Nutzer beschwerten sich, dass sie auf der Plattform kein Cash-out vornehmen konnten und ihnen dadurch Wettverluste entstanden.
Coinbase veröffentlichte am Freitag ebenfalls auf X, dass Ausfälle in mehreren AWS-Bereichen zu einem „längeren Ausfall zentraler Handelsdienste“ geführt hätten.
Coinbase erklärte in dem Beitrag, dass die Hauptprobleme vollständig behoben seien.

Kontext des Cloud-Markts

AWS hält etwa ein Drittel des Marktes für Cloud-Infrastrukturtechnologie.
AWS bedient Millionen von Unternehmen.

1 Kommentare

GN⁺ 3 시간 전

Hacker-News-Kommentare

AWS US-East 1 bleibt weiterhin die Achillesferse des Internets
Man kann zwar über mehrere Regionen und Availability Zones hinweg aufbauen, aber AWS hatte wiederholt Vorfälle, bei denen Probleme in US-East 1 größere Auswirkungen hatten, wodurch AWS weniger redundant und resilient wirkt, als es selbst andeutet
- Die Vorstellung, dass AWS-Dienste vollständig regional getrennt sind, war schon immer eher ein Mythos
  Alle Identitäts- und Zugriffsservices der Public Cloud außerhalb Chinas, also das, was Mitarbeiter als „IAM für die aws-Partition“ bezeichnen, sind in us-east-1 zentralisiert. Um Konten, Abrechnung und Berechtigungen konsistent zu sehen, ist so eine Zentralisierung faktisch notwendig
  IAM ist auch kein vollständig unabhängiger Software-Stack, sondern hängt von einigen Diensten wie DynamoDB ab, und diese Dienste haben wiederum zirkuläre Abhängigkeiten zu IAM
  Während eines us-east-1-Ausfalls kann man in anderen Regionen manchmal bestehende Auth-Tokens oder Sessions weiterverwenden, aber möglicherweise keine neuen Tokens ausstellen. Ich erinnere mich, dass wir früher den On-Call-Leuten sagten, sie sollten ihre SSH-Sessions oder AWS-Console-Browser-Tabs nicht schließen, weil sie bis zum Ende des Ausfalls ausgesperrt sein könnten
- Das sagen zwar alle, aber diesmal war es ein Problem in einer einzelnen Availability Zone
  Ich habe in den letzten drei Jahren ein Startup fast vollständig in use-1 betrieben und nur einen einzigen regionalen Ausfall erlebt, und selbst das war nur ein Teilausfall, sodass die meisten Instanzen nicht betroffen waren
  Ehrlich gesagt hat es auch den Vorteil, dass die Systeme der Kunden ebenfalls alle in use-1 sind, sodass der Ausfall mit den Kunden korreliert
- Es nutzen einfach zu viele Leute
  Im magischen Fantasieland wäre die Last gleichmäßig über mehrere Cloud-Anbieter verteilt, und es gäbe keinen Single Point of Failure
  Mit meiner ersten Freundin wäre auch alles gut gelaufen, Zwillinge wären fließend in Englisch und Koreanisch, und ich wüsste, dass man sich beim Deployment großer Dienste nicht nur auf AWS verlassen sollte
  Die Gesundheitskosten in den USA wären auch bezahlbar. Aber in der Realität vergeht wieder ein Tag, und ein einziges AWS US-East 1 kann den Großteil des Internets lahmlegen
- Wer für Resilienz mehrere Regionen und Availability Zones nutzt, sollte bereit sein, die Kapazitätssteuer zu zahlen
  Bei 2 Regionen braucht man die doppelte Kapazität, bei 3 Regionen die 1,5-fache, und in einem Multi-Region-Setup müssen die Maschinen bereits laufen. Man sollte nicht erwarten, während eines Ausfalls noch Instanzen starten oder Kapazität sichern zu können, und man muss auch die zusätzliche Komplexität von Multi-Region-Hosting tragen
- Soweit ich gehört habe, gab es wegen Leuten, die aus us-east-1 ausgewichen sind, auch Kaskadeneffekte in us-east-2
  Es ist schon etwas witzig, dass Setups mit mehreren Regionen und Availability Zones so offensichtlich wie reine Fassade wirken und trotzdem alle weiter daran glauben wie an ein Glaubensbekenntnis der Cloud-Religion
Solche Wetten sind riskant. Denn jemand wie ein Mitarbeiter, der AWS abschalten kann, könnte wetten
Solche Wetten sind nicht so harmlos, wie sie aussehen, weil die Person, die wettet, oft das Ergebnis beeinflussen oder verändern kann
- Zum Glück stellt Big Tech keine Leute ein, denen nur Geld oder sozialer Status wichtig sind, sondern ethische Ingenieure
- Wenn am Ende aber alle Wettseiten auf US-East1 laufen, bringt das auch nichts
- Man kann sich auch vorstellen, dass AWS ausfällt und dadurch die Wett-Website selbst geschlossen wird
  Insgesamt stimme ich der Aussage zu, dass solche Prognosemärkte Insiderhandel und negative Szenarien begünstigen können. Es entsteht ein Anreiz, aus solchen Situationen Profit zu schlagen
Die Kühlung eines Rechenzentrums ist doch normalerweise weit im Voraus geplant, und ich dachte, man installiert nicht mehr, als gekühlt werden kann
Hier frage ich mich, ob die Kühltechnik ausgefallen ist, ob es eine externe Ursache für die Überhitzung gab oder ob Amazon die Kühlkapazität des Rechenzentrums überbucht hat
- Ich habe einmal in einem Rechenzentrum gearbeitet, das mehrere redundante Kühler auf dem Dach und mehrere redundante Kühlgeräte pro Etage hatte, und trotzdem fiel durch einen Defekt an der Wasserzuleitung auf einmal die Kühlung des gesamten Gebäudes aus
  Die genaue Ursache wurde uns nicht mitgeteilt, aber offenbar waren die Leitungen zwischen den Etagen und dem Dach nicht redundant ausgelegt, und die Reparatur dauerte fast 24 Stunden
- Mit ziemlicher Sicherheit war es ein Geräteausfall
  Bei der Rechenzentrumskühlung gibt es wie überall zugleich Überprovisionierung und Unterprovisionierung
  Große Wärmetauschersysteme sind als N+1 ausgelegt, in besonders kritischen kleineren Lastumgebungen auch als 2N/3N, also überprovisioniert. Sie müssen für regelmäßige Wartung abgeschaltet werden, haben höhere Ausfallraten als traditionelle Rechenzentrumskomponenten und erfordern mechanische Reparaturen durch Spezialpersonal mit langen Beschaffungszeiten
  In großen Anlagen ist es nicht ungewöhnlich, dass die Kühlung bei steigendem N sogar N+3 oder mehr beträgt. Irgendetwas ist immer in Wartung, oder es gibt Geräte, die auf Teile warten, die nicht mehr existieren und deshalb als Sonderanfertigung nachgebaut werden müssen, weil das immer noch günstiger ist als der Austausch der ganzen Anlage
  Gleichzeitig ist es auch unterprovisioniert, weil die Kühlkapazität überschritten würde, wenn die gesamte Rechenkapazität einer Anlage plötzlich von durchschnittlicher Leistungsaufnahme auf 100 % springt. Strom und andere Pfade sind oft ebenfalls überlastbar; die Branche lebt im Kern von Überbuchung
  Normalerweise ist das kein großes Problem. Rechenlasten springen selten auf 100 % der Gesamtkapazität, und wenn doch, dann nicht lange, außerdem baut niemand eine Anlage mit Kühl- oder Stromkapazität auf Messers Schneide
  Probleme entstehen, wenn mehrere Ereignisse zusammenkommen. Das Kühlsystem ist vielleicht so ausgelegt, dass es 200 % der durchschnittlichen Last bewältigen kann, mit ausreichend Puffer für Wartung und Störungen
  Am Dienstag kommt ein Servicetechniker, sieht sich ein Gerät an und entdeckt ein defektes Lager. Ein Ersatzteil muss aus einem anderen Bundesstaat kommen, also lässt man die Anlage über Nacht ausgeschaltet, um nicht die Lüfterbaugruppe zu beschädigen
  Zwei benachbarte Kühlgeräte arbeiten nun etwas härter, und eines davon hat vielleicht einen leicht unwuchtigen Motor oder eine Sicherung, die sich gelockert hat und heiß wird; ein Bauteil, das jahrelang gehalten hat, fällt wegen der erhöhten Last aus
  Jetzt sind in einer N+2-Anlage zwei Geräte ausgefallen, aber bei Auslegung auf 200 % Durchschnittslast ist das noch nicht kritisch
  Fällt dann auch das dritte Gerät auf der anderen Seite der zuerst ausgefallenen Anlage unter der höheren Last wegen eines Defekts aus, sind in einer N+2-Anlage drei Geräte weg. Trotzdem ist es bei Auslegung auf 200 % Durchschnittslast noch keine Katastrophe
  Aber es ist 4 Uhr morgens, das Betriebspersonal vor Ort kann den Defekt nicht beheben, und der Dienstleister wacht erst um 7 auf und ist erst um 9 da. In der Zwischenzeit steigt die Last an
  So etwas passiert jeden Tag in irgendeinem Rechenzentrum in den USA und vermutlich in jedem Rechenzentrum ungefähr einmal im Jahr
  Der Teil, der Schlagzeilen macht, ist dann das nächste zusammenlaufende Ereignis. Ein großer Kunde entscheidet, dass jetzt ein guter Zeitpunkt für einen großen Batch-Job ist. Irgendein Fintech fährt vor Börsenbeginn ein großes Modell, oder ein Ölkonzern startet eine schnelle Analyse eines neuen Ölfelds
  10.000 neue VMs werden hochgefahren. Normalerweise wäre das wegen vorhandener Reserve kein Problem
  Aber die Kühlung ist nur auf 200 % der durchschnittlichen Kühlleistung geplant, und diese Nodes sind keine moderat ausgelasteten Nodes, sondern führen optimierte, hochintensive numerische Berechnungen aus, ziehen maximale Leistung und produzieren maximale Abwärme
  Nicht nur die Last gemessen an der Gesamtzahl der Maschinen steigt, sondern auch die durchschnittliche Abwärme. Dann setzt der Kaskadenausfall ein, und die Kühlung liegt bei N-4
  Serverlüfter drehen schneller, verbrauchen mehr Strom, und die Kühlung fällt auf N-5. Überall gehen Alarme los
  Die Schutzmechanismen der Kühlanlagen lösen nacheinander wegen Last und steigendem Kältemitteldruck aus, und die Kühlung fällt auf N-6, N-7 und schließlich auf 0
- Offenbar ist ein Kühlkreislauf des Rechenzentrums ausgefallen
- Zu einem ähnlichen Thema hört sich das hier gut an: https://signalsandthreads.com/the-thermodynamics-of-trading/
Ich frage mich, ob Hetzner dieses Jahr in der EU eine bessere Uptime hatte als AWS
- Ich verstehe nicht, warum OVH nicht beliebter ist
  Ich finde die UI von Hetzner so verwirrend, dass sie schwer zu verwalten ist
Verwandter Beitrag: AWS EC2 outage in use1-az4 (us-east-1)
https://news.ycombinator.com/item?id=48057294
Es ist immer East 1. Spaß beiseite, ich verstehe nicht, warum east-1 im Vergleich zu anderen Regionen so oft ausfällt
Architektonisch müsste es den anderen Regionen doch ziemlich ähnlich sein
- Ich vermute, east one ist das zentrale Rechenzentrum und zugleich das älteste
  Die Last ist größer als in anderen Regionen, und weil es zuerst gebaut wurde, gibt es dort wohl auch mehr technische Schulden sowie Architektur- und Engineering-Schulden
  Soweit ich mich erinnere, gibt es auch Dienste, die von east-1 als Single Point of Failure abhängen, etwa IAM oder bestimmte S3-Konfigurationen
- Es ist das älteste Regionssystem und hat strukturell eine wichtige Rolle, etwa weil dort die interne Zertifizierungsstelle sitzt
- Interessanterweise gab es dazu diesen Beitrag
  
  AWS in 2025: The Stuff You Think You Know That’s Now Wrong
  us-east-1 is no longer a merrily burning dumpster fire of sadness and regret.
  — https://www.lastweekinaws.com/blog/aws-in-2025-the-stuff-you...
  Davon abgesehen ist es ein guter Artikel
Coinbase sagte, mehrere Availability Zones seien ausgefallen, aber laut AWS-Mitteilung war nur eine einzelne Availability Zone betroffen
Ich frage mich, ob jemand mehr Details dazu kennt
- Coinbase hat auf X bestätigt, dass die Börse aus Latenzgründen nur in einer Availability Zone betrieben wurde: https://x.com/i/status/2052855725857329254
- Man sollte nicht darauf vertrauen, dass Kryptofirmen ehrlich sind
- Ich finde keine offizielle Quelle dazu, aber es wirkte nicht so, als sei der Blast Radius nur auf diese Availability Zone begrenzt gewesen
  Ich betreibe Systeme in us-east-1 und habe während des Vorfalls auch außerhalb von az4 schwer erklärbare, sporadische Verbindungsprobleme gesehen, die ich so noch nie erlebt hatte
- Wenn East-1 ausfällt, werden immer auch Teile anderer Availability Zones mitbetroffen. Irgendetwas hängt eben immer von East-1 ab
- Ich habe den ganzen Abend auf die SLI-Grafiken geschaut, weil ich dachte, dass vielleicht die ganze Region ausfällt, aber dazu kam es am Ende nicht
  In mehreren Umgebungen wurden nur die EBS-Volumes einer einzelnen Availability Zone etwas schlechter, also war es ziemlich eindeutig ein Problem in einer einzelnen Availability Zone (use-az4)
Ich habe einmal den Spruch gelesen: „Ein Freund lässt einen Freund nicht USE1 benutzen“, und als in Slack Meldungen auftauchten, dass USE1 und alles, was dort ausgerollt war, komplett kaputt sei, musste ich daran denken
In den Kommentaren hier liest man wieder die üblichen Aussagen, dass us-east-1 zentralisiert sei, ein Single Point of Failure bei AWS darstelle, repariert werden müsse und man dort nichts deployen solle
Diesmal ging es um ein Problem in einem einzelnen Rechenzentrum innerhalb einer Multi-AZ-Region
IAM/R53 usw. sind dort zentralisiert, und es wäre gut, diese Dienste zu dezentralisieren und regionsübergreifend auszulegen. Aber us-east-1 selbst ist bereits eine Multi-AZ-Region mit 6 Zonen und einer 7. Zone, die für 2026 geplant ist, und auch innerhalb der Zonen gibt es mehrere Rechenzentren
Soweit ich mich erinnere, sind Ausfälle globaler Dienste wie IAM eher Implementierungs- oder Abhängigkeitsfehler als etwas, das durch eine regionsübergreifende Architektur automatisch verhindert worden wäre
Diesmal war es kein Ausfall eines globalen AWS-Dienstes. Der am stärksten betroffene Dienst schien eher MSK zu sein, und das liegt vermutlich eher an Kafka als an AWS
Ich frage mich, warum man so etwas nicht näher am Meer baut. Das gilt doch auch für Anlagen wie Kernkraftwerke, die viel Kühlkapazität brauchen
Mit einem zweistufigen Kreislauf über Wärmetauscher müsste sich die Wärme doch abführen lassen
- Dass Ashburn, VA, zum Rechenzentrum-Hub wurde, liegt daran, dass dort der weltweit erste nichtstaatliche Internet Exchange stand (https://en.wikipedia.org/wiki/MAE-East)
  In den 1990ern lief ungefähr die Hälfte des weltweiten Internetverkehrs über MAE-East, und deshalb platzierte AWS dort seine erste Region. us-east-1 kam 2 Jahre vor eu-west-1 und 3 Jahre vor us-west-1
  Weil es dort viele Leute gibt, die Rechenzentren bauen können, und viele Anbieter, die sie ausrüsten können, wurde der Dulles Corridor zu einem zentralen Hub für Rechenzentren vieler Unternehmen
  Bei AWS ist us-east-1 die erste Region und dadurch mit Abstand die komplexeste und ungewöhnlichste; viele Control Planes anderer AWS-Dienste hängen daran. Deshalb fällt sie öfter aus als andere Regionen, und wenn sie ausfällt, ist es landesweit eine Nachricht, anders als bei eu-south-2 in Spanien
  NoVA ist hier kein Beispiel für Fabriken, sondern für Rechenzentren, also dieselbe Art von Wirtschaftscluster, um die es in der mit dem Nobelpreis ausgezeichneten Forschung von Paul Krugman ging
- Ich habe in zwei verschiedenen Rechenzentren schwere Überhitzungsausfälle erlebt
  Eines war das SOMA-Rechenzentrum von Hosting.com, das so heiß wurde, dass man es mit Wasserschläuchen vom Dach aus kühlen musste, und das andere war das Rechenzentrum von Alibaba in Chai Wan, das so heiß wurde, dass dort alles ausfiel, einschließlich der Control Plane
  Daher glaube ich nicht, dass die Nähe zum Meer im Hinblick auf Notwärmeabfuhr einen zusätzlichen Vorteil bringt. Die Fähigkeit, Wärme nach außen abzuführen, ist begrenzt, und egal ob am Meer oder mitten in Nebraska: Das Gesamtsystem muss so ausgelegt sein, dass es die erforderliche Leistung erfüllt
- Ich hatte im Masterstudium einen Kurs über Rechenzentren, und der Professor stellte Rechenzentren in heißen Regionen der USA dem Idealszenario gegenüber
  Auf den Folien standen verschiedene Faktoren, die die Standortwahl für Rechenzentren beeinflussen, darunter mehrere Punkte zur Verfügbarkeit von Platz und qualifiziertem Personal, das dort arbeiten kann. Er sagte auch, dass manchmal Politik bei der Wahl des nächsten Rechenzentrumsstandorts mit hineinspielt
- Nur ein paar spontane Gedanken: Systeme mit Meerwasser in entsprechender Salzkonzentration sind in der Wartung deutlich teurer. Das gilt auch für einen sekundären Kreislauf
  Küstenland ist deutlich teurer, und in abgelegenen Küstengebieten ist der Zugang zu Strom womöglich schlechter
  Küstenstandorte sind gewöhnlich extremeren Wetterereignissen ausgesetzt
  Es gibt auch Unvorhersehbares. Das Kernkraftwerk Diablo Canyon hatte Probleme mit verstopften Meerwasser-Kühlwasserentnahmen durch Treibgut und wandernde Quallen
  https://www.nbcnews.com/news/world/diablo-canyon-nuclear-pla...
- Im Meer ist Salz. Salzwasser ist für elektronische Geräte viel schlechter als normales Wasser
  Das Wasser müsste tief genug sein, sonst erwärmt es sich bis zur Oberflächentemperatur. Außerdem müsste das wirtschaftlich mit klassischer Verdunstungskühlung konkurrieren können
  Das Lehrbuchbeispiel, wo so etwas gut funktioniert, ist Toronto. Dort gibt es relativ küstennah einen tiefen Süßwassersee, und die Immobilien in der Innenstadt sind so teuer, dass traditionelle Lösungen erschwert werden
  https://en.wikipedia.org/wiki/Deep_Lake_Water_Cooling_System

AWS-Rechenzentrumsausfall in Nordvirginia – behoben

Fortschritt bei der Wiederherstellung

Auswirkungen nach Dienst

Kontext des Cloud-Markts

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare