- AWS meldete seit Donnerstagabend Betriebsprobleme. Die mit einer Überhitzung in einem Rechenzentrum der Region US-East-1 in Nordvirginia verbundenen Ausfälle beeinträchtigten Handelsplattformen wie Coinbase und FanDuel.
- In einem Update von Freitag um 15:29 Uhr ET erklärte AWS, dass bis zur vollständigen Wiederherstellung voraussichtlich noch mehrere Stunden nötig seien und die Arbeiten langsamer vorankämen als zuvor erwartet.
- AWS erklärte, dass das Problem in einer einzelnen Availability Zone der betreffenden Region aufgetreten sei und man zusätzliche Kühlungskapazitäten online bringe, um die verbleibende Hardware in dem betroffenen Bereich wiederherzustellen.
- FanDuel teilte nach der Untersuchung technischer Schwierigkeiten, die Nutzern den Zugang zur Plattform verhinderten, mit, dass diese mit dem umfassenderen AWS-Ausfall zusammenhingen. Nutzer beschwerten sich, dass ihnen durch die fehlende Möglichkeit zum Cash-out Wettverluste entstanden seien.
- Coinbase erklärte, dass Ausfälle in mehreren AWS-Bereichen zu einem längeren Ausfall zentraler Handelsdienste geführt hätten, und veröffentlichte, dass die Hauptprobleme vollständig behoben seien.
Fortschritt bei der Wiederherstellung
- In einem Update von Freitag um 9:51 Uhr ET erklärte AWS: „Wir arbeiten aktiv daran, zusätzliche Kühlungskapazitäten online zu bringen, wodurch wir die verbleibende Hardware in dem betroffenen Bereich wiederherstellen können.“
- AWS arbeitet an der Behebung von Ausfällen bei EC2-Instanzen, die Kapazitäten für virtuelle Server bereitstellen.
- Das AWS-Health-Dashboard veröffentlichte am Donnerstag um 20:25 Uhr ET erstmals den Hinweis, dass man „Instanzausfälle untersucht“.
- AWS gab keine weitere Stellungnahme ab.
Auswirkungen nach Dienst
- FanDuel teilte am Donnerstag um 21 Uhr ET auf X mit, dass man die aktuellen technischen Schwierigkeiten kenne, die Nutzern den Zugang zur Plattform verhinderten, und diese untersuche.
- Etwa zwei Stunden später aktualisierte FanDuel, dass das Problem mit dem umfassenderen AWS-Ausfall zusammenhänge.
- FanDuel-Nutzer beschwerten sich, dass sie auf der Plattform kein Cash-out vornehmen konnten und ihnen dadurch Wettverluste entstanden.
- Coinbase veröffentlichte am Freitag ebenfalls auf X, dass Ausfälle in mehreren AWS-Bereichen zu einem „längeren Ausfall zentraler Handelsdienste“ geführt hätten.
- Coinbase erklärte in dem Beitrag, dass die Hauptprobleme vollständig behoben seien.
Kontext des Cloud-Markts
- AWS hält etwa ein Drittel des Marktes für Cloud-Infrastrukturtechnologie.
- AWS bedient Millionen von Unternehmen.
1 Kommentare
Hacker-News-Kommentare
AWS US-East 1 bleibt weiterhin die Achillesferse des Internets
Man kann zwar über mehrere Regionen und Availability Zones hinweg aufbauen, aber AWS hatte wiederholt Vorfälle, bei denen Probleme in US-East 1 größere Auswirkungen hatten, wodurch AWS weniger redundant und resilient wirkt, als es selbst andeutet
Alle Identitäts- und Zugriffsservices der Public Cloud außerhalb Chinas, also das, was Mitarbeiter als „IAM für die aws-Partition“ bezeichnen, sind in us-east-1 zentralisiert. Um Konten, Abrechnung und Berechtigungen konsistent zu sehen, ist so eine Zentralisierung faktisch notwendig
IAM ist auch kein vollständig unabhängiger Software-Stack, sondern hängt von einigen Diensten wie DynamoDB ab, und diese Dienste haben wiederum zirkuläre Abhängigkeiten zu IAM
Während eines us-east-1-Ausfalls kann man in anderen Regionen manchmal bestehende Auth-Tokens oder Sessions weiterverwenden, aber möglicherweise keine neuen Tokens ausstellen. Ich erinnere mich, dass wir früher den On-Call-Leuten sagten, sie sollten ihre SSH-Sessions oder AWS-Console-Browser-Tabs nicht schließen, weil sie bis zum Ende des Ausfalls ausgesperrt sein könnten
Ich habe in den letzten drei Jahren ein Startup fast vollständig in use-1 betrieben und nur einen einzigen regionalen Ausfall erlebt, und selbst das war nur ein Teilausfall, sodass die meisten Instanzen nicht betroffen waren
Ehrlich gesagt hat es auch den Vorteil, dass die Systeme der Kunden ebenfalls alle in use-1 sind, sodass der Ausfall mit den Kunden korreliert
Im magischen Fantasieland wäre die Last gleichmäßig über mehrere Cloud-Anbieter verteilt, und es gäbe keinen Single Point of Failure
Mit meiner ersten Freundin wäre auch alles gut gelaufen, Zwillinge wären fließend in Englisch und Koreanisch, und ich wüsste, dass man sich beim Deployment großer Dienste nicht nur auf AWS verlassen sollte
Die Gesundheitskosten in den USA wären auch bezahlbar. Aber in der Realität vergeht wieder ein Tag, und ein einziges AWS US-East 1 kann den Großteil des Internets lahmlegen
Bei 2 Regionen braucht man die doppelte Kapazität, bei 3 Regionen die 1,5-fache, und in einem Multi-Region-Setup müssen die Maschinen bereits laufen. Man sollte nicht erwarten, während eines Ausfalls noch Instanzen starten oder Kapazität sichern zu können, und man muss auch die zusätzliche Komplexität von Multi-Region-Hosting tragen
Es ist schon etwas witzig, dass Setups mit mehreren Regionen und Availability Zones so offensichtlich wie reine Fassade wirken und trotzdem alle weiter daran glauben wie an ein Glaubensbekenntnis der Cloud-Religion
Solche Wetten sind riskant. Denn jemand wie ein Mitarbeiter, der AWS abschalten kann, könnte wetten
Solche Wetten sind nicht so harmlos, wie sie aussehen, weil die Person, die wettet, oft das Ergebnis beeinflussen oder verändern kann
Insgesamt stimme ich der Aussage zu, dass solche Prognosemärkte Insiderhandel und negative Szenarien begünstigen können. Es entsteht ein Anreiz, aus solchen Situationen Profit zu schlagen
Die Kühlung eines Rechenzentrums ist doch normalerweise weit im Voraus geplant, und ich dachte, man installiert nicht mehr, als gekühlt werden kann
Hier frage ich mich, ob die Kühltechnik ausgefallen ist, ob es eine externe Ursache für die Überhitzung gab oder ob Amazon die Kühlkapazität des Rechenzentrums überbucht hat
Die genaue Ursache wurde uns nicht mitgeteilt, aber offenbar waren die Leitungen zwischen den Etagen und dem Dach nicht redundant ausgelegt, und die Reparatur dauerte fast 24 Stunden
Bei der Rechenzentrumskühlung gibt es wie überall zugleich Überprovisionierung und Unterprovisionierung
Große Wärmetauschersysteme sind als N+1 ausgelegt, in besonders kritischen kleineren Lastumgebungen auch als 2N/3N, also überprovisioniert. Sie müssen für regelmäßige Wartung abgeschaltet werden, haben höhere Ausfallraten als traditionelle Rechenzentrumskomponenten und erfordern mechanische Reparaturen durch Spezialpersonal mit langen Beschaffungszeiten
In großen Anlagen ist es nicht ungewöhnlich, dass die Kühlung bei steigendem N sogar N+3 oder mehr beträgt. Irgendetwas ist immer in Wartung, oder es gibt Geräte, die auf Teile warten, die nicht mehr existieren und deshalb als Sonderanfertigung nachgebaut werden müssen, weil das immer noch günstiger ist als der Austausch der ganzen Anlage
Gleichzeitig ist es auch unterprovisioniert, weil die Kühlkapazität überschritten würde, wenn die gesamte Rechenkapazität einer Anlage plötzlich von durchschnittlicher Leistungsaufnahme auf 100 % springt. Strom und andere Pfade sind oft ebenfalls überlastbar; die Branche lebt im Kern von Überbuchung
Normalerweise ist das kein großes Problem. Rechenlasten springen selten auf 100 % der Gesamtkapazität, und wenn doch, dann nicht lange, außerdem baut niemand eine Anlage mit Kühl- oder Stromkapazität auf Messers Schneide
Probleme entstehen, wenn mehrere Ereignisse zusammenkommen. Das Kühlsystem ist vielleicht so ausgelegt, dass es 200 % der durchschnittlichen Last bewältigen kann, mit ausreichend Puffer für Wartung und Störungen
Am Dienstag kommt ein Servicetechniker, sieht sich ein Gerät an und entdeckt ein defektes Lager. Ein Ersatzteil muss aus einem anderen Bundesstaat kommen, also lässt man die Anlage über Nacht ausgeschaltet, um nicht die Lüfterbaugruppe zu beschädigen
Zwei benachbarte Kühlgeräte arbeiten nun etwas härter, und eines davon hat vielleicht einen leicht unwuchtigen Motor oder eine Sicherung, die sich gelockert hat und heiß wird; ein Bauteil, das jahrelang gehalten hat, fällt wegen der erhöhten Last aus
Jetzt sind in einer N+2-Anlage zwei Geräte ausgefallen, aber bei Auslegung auf 200 % Durchschnittslast ist das noch nicht kritisch
Fällt dann auch das dritte Gerät auf der anderen Seite der zuerst ausgefallenen Anlage unter der höheren Last wegen eines Defekts aus, sind in einer N+2-Anlage drei Geräte weg. Trotzdem ist es bei Auslegung auf 200 % Durchschnittslast noch keine Katastrophe
Aber es ist 4 Uhr morgens, das Betriebspersonal vor Ort kann den Defekt nicht beheben, und der Dienstleister wacht erst um 7 auf und ist erst um 9 da. In der Zwischenzeit steigt die Last an
So etwas passiert jeden Tag in irgendeinem Rechenzentrum in den USA und vermutlich in jedem Rechenzentrum ungefähr einmal im Jahr
Der Teil, der Schlagzeilen macht, ist dann das nächste zusammenlaufende Ereignis. Ein großer Kunde entscheidet, dass jetzt ein guter Zeitpunkt für einen großen Batch-Job ist. Irgendein Fintech fährt vor Börsenbeginn ein großes Modell, oder ein Ölkonzern startet eine schnelle Analyse eines neuen Ölfelds
10.000 neue VMs werden hochgefahren. Normalerweise wäre das wegen vorhandener Reserve kein Problem
Aber die Kühlung ist nur auf 200 % der durchschnittlichen Kühlleistung geplant, und diese Nodes sind keine moderat ausgelasteten Nodes, sondern führen optimierte, hochintensive numerische Berechnungen aus, ziehen maximale Leistung und produzieren maximale Abwärme
Nicht nur die Last gemessen an der Gesamtzahl der Maschinen steigt, sondern auch die durchschnittliche Abwärme. Dann setzt der Kaskadenausfall ein, und die Kühlung liegt bei N-4
Serverlüfter drehen schneller, verbrauchen mehr Strom, und die Kühlung fällt auf N-5. Überall gehen Alarme los
Die Schutzmechanismen der Kühlanlagen lösen nacheinander wegen Last und steigendem Kältemitteldruck aus, und die Kühlung fällt auf N-6, N-7 und schließlich auf 0
Ich frage mich, ob Hetzner dieses Jahr in der EU eine bessere Uptime hatte als AWS
Ich finde die UI von Hetzner so verwirrend, dass sie schwer zu verwalten ist
Verwandter Beitrag: AWS EC2 outage in use1-az4 (us-east-1)
https://news.ycombinator.com/item?id=48057294
Es ist immer East 1. Spaß beiseite, ich verstehe nicht, warum east-1 im Vergleich zu anderen Regionen so oft ausfällt
Architektonisch müsste es den anderen Regionen doch ziemlich ähnlich sein
Die Last ist größer als in anderen Regionen, und weil es zuerst gebaut wurde, gibt es dort wohl auch mehr technische Schulden sowie Architektur- und Engineering-Schulden
Soweit ich mich erinnere, gibt es auch Dienste, die von east-1 als Single Point of Failure abhängen, etwa IAM oder bestimmte S3-Konfigurationen
Coinbase sagte, mehrere Availability Zones seien ausgefallen, aber laut AWS-Mitteilung war nur eine einzelne Availability Zone betroffen
Ich frage mich, ob jemand mehr Details dazu kennt
Ich betreibe Systeme in us-east-1 und habe während des Vorfalls auch außerhalb von az4 schwer erklärbare, sporadische Verbindungsprobleme gesehen, die ich so noch nie erlebt hatte
In mehreren Umgebungen wurden nur die EBS-Volumes einer einzelnen Availability Zone etwas schlechter, also war es ziemlich eindeutig ein Problem in einer einzelnen Availability Zone (use-az4)
Ich habe einmal den Spruch gelesen: „Ein Freund lässt einen Freund nicht USE1 benutzen“, und als in Slack Meldungen auftauchten, dass USE1 und alles, was dort ausgerollt war, komplett kaputt sei, musste ich daran denken
In den Kommentaren hier liest man wieder die üblichen Aussagen, dass us-east-1 zentralisiert sei, ein Single Point of Failure bei AWS darstelle, repariert werden müsse und man dort nichts deployen solle
Diesmal ging es um ein Problem in einem einzelnen Rechenzentrum innerhalb einer Multi-AZ-Region
IAM/R53 usw. sind dort zentralisiert, und es wäre gut, diese Dienste zu dezentralisieren und regionsübergreifend auszulegen. Aber us-east-1 selbst ist bereits eine Multi-AZ-Region mit 6 Zonen und einer 7. Zone, die für 2026 geplant ist, und auch innerhalb der Zonen gibt es mehrere Rechenzentren
Soweit ich mich erinnere, sind Ausfälle globaler Dienste wie IAM eher Implementierungs- oder Abhängigkeitsfehler als etwas, das durch eine regionsübergreifende Architektur automatisch verhindert worden wäre
Diesmal war es kein Ausfall eines globalen AWS-Dienstes. Der am stärksten betroffene Dienst schien eher MSK zu sein, und das liegt vermutlich eher an Kafka als an AWS
Ich frage mich, warum man so etwas nicht näher am Meer baut. Das gilt doch auch für Anlagen wie Kernkraftwerke, die viel Kühlkapazität brauchen
Mit einem zweistufigen Kreislauf über Wärmetauscher müsste sich die Wärme doch abführen lassen
In den 1990ern lief ungefähr die Hälfte des weltweiten Internetverkehrs über MAE-East, und deshalb platzierte AWS dort seine erste Region. us-east-1 kam 2 Jahre vor eu-west-1 und 3 Jahre vor us-west-1
Weil es dort viele Leute gibt, die Rechenzentren bauen können, und viele Anbieter, die sie ausrüsten können, wurde der Dulles Corridor zu einem zentralen Hub für Rechenzentren vieler Unternehmen
Bei AWS ist us-east-1 die erste Region und dadurch mit Abstand die komplexeste und ungewöhnlichste; viele Control Planes anderer AWS-Dienste hängen daran. Deshalb fällt sie öfter aus als andere Regionen, und wenn sie ausfällt, ist es landesweit eine Nachricht, anders als bei eu-south-2 in Spanien
NoVA ist hier kein Beispiel für Fabriken, sondern für Rechenzentren, also dieselbe Art von Wirtschaftscluster, um die es in der mit dem Nobelpreis ausgezeichneten Forschung von Paul Krugman ging
Eines war das SOMA-Rechenzentrum von Hosting.com, das so heiß wurde, dass man es mit Wasserschläuchen vom Dach aus kühlen musste, und das andere war das Rechenzentrum von Alibaba in Chai Wan, das so heiß wurde, dass dort alles ausfiel, einschließlich der Control Plane
Daher glaube ich nicht, dass die Nähe zum Meer im Hinblick auf Notwärmeabfuhr einen zusätzlichen Vorteil bringt. Die Fähigkeit, Wärme nach außen abzuführen, ist begrenzt, und egal ob am Meer oder mitten in Nebraska: Das Gesamtsystem muss so ausgelegt sein, dass es die erforderliche Leistung erfüllt
Auf den Folien standen verschiedene Faktoren, die die Standortwahl für Rechenzentren beeinflussen, darunter mehrere Punkte zur Verfügbarkeit von Platz und qualifiziertem Personal, das dort arbeiten kann. Er sagte auch, dass manchmal Politik bei der Wahl des nächsten Rechenzentrumsstandorts mit hineinspielt
Küstenland ist deutlich teurer, und in abgelegenen Küstengebieten ist der Zugang zu Strom womöglich schlechter
Küstenstandorte sind gewöhnlich extremeren Wetterereignissen ausgesetzt
Es gibt auch Unvorhersehbares. Das Kernkraftwerk Diablo Canyon hatte Probleme mit verstopften Meerwasser-Kühlwasserentnahmen durch Treibgut und wandernde Quallen
https://www.nbcnews.com/news/world/diablo-canyon-nuclear-pla...
Das Wasser müsste tief genug sein, sonst erwärmt es sich bis zur Oberflächentemperatur. Außerdem müsste das wirtschaftlich mit klassischer Verdunstungskühlung konkurrieren können
Das Lehrbuchbeispiel, wo so etwas gut funktioniert, ist Toronto. Dort gibt es relativ küstennah einen tiefen Süßwassersee, und die Immobilien in der Innenstadt sind so teuer, dass traditionelle Lösungen erschwert werden
https://en.wikipedia.org/wiki/Deep_Lake_Water_Cooling_System