- AWS hat den Trainium3 UltraServer mit dem 3-Nanometer-Trainium3-Chip vorgestellt und die KI-Trainings- und Inferenzleistung deutlich gesteigert
- Das neue System bietet gegenüber der Vorgängergeneration 4x höhere Geschwindigkeit und 4x mehr Speicher sowie 40 % höhere Energieeffizienz
- Es können bis zu 1 Million Trainium3-Chips verbunden werden, wodurch es sich für die Verarbeitung großskaliger KI-Anwendungen eignet
- Kunden wie Anthropic, Karakuri, SplashMusic, Decart nutzen es bereits, und AWS bestätigte bereits spürbare Kosteneinsparungen bei der Inferenz
- AWS kündigte an, dass der nächste Trainium4-Chip die Nvidia NVLink Fusion-Technologie unterstützt und so eine Interoperabilität mit Nvidia-GPUs möglich macht, was als Wendepunkt im KI-Infrastruktur-Wettbewerb gilt
Vorstellung von Trainium3
- AWS hat beim re:Invent 2025-Event offiziell den Trainium3 UltraServer vorgestellt
- Das System läuft mit Trainium3-Chips in 3-Nanometer-Technologie und auf eigener AWS-Netzwerktechnik
- Es wird berichtet, dass sich sowohl das KI-Training als auch die Inferenz gegenüber der zweiten Generation deutlich verbessert haben
- AWS erklärte, dass das Trainium3-System viermal höhere Verarbeitungsgeschwindigkeit und viermal größere Speicherkapazität bietet
- Jeder UltraServer beherbergt 144 Chips
- Durch die Vernetzung von mehreren tausend Servern sind bis zu 1 Million Chips für eine einzige Anwendung nutzbar
- Der neue Chip ist zudem 40 % energieeffizienter, was zur Reduktion des Stromverbrauchs in großen Rechenzentren beiträgt
- AWS betonte, dass dies auch Kostenersparnisse für KI-Cloud-Kunden ermöglicht
Hauptkunden und Anwendungsfälle
- Anthropic, das japanische LLM Karakuri, SplashMusic und Decart nutzen Trainium3 bereits
- Diese Kunden geben an, die Inferenzkosten deutlich gesenkt zu haben, so AWS
- AWS sagte, dass die Verbesserungen bei Leistung und Kosteneffizienz eine Basis für höhere Skalierbarkeit von KI-Anwendungen schaffen
Roadmap für den Chip Trainium4
- AWS teilte mit, dass Trainium4 bereits in der Entwicklung ist und künftig die Nvidia NVLink Fusion High-Speed-Interconnect-Technologie unterstützen wird
- Dadurch wird eine Interoperabilität mit Nvidia-GPUs möglich und die Kombination mit der preiswerten Server-Rack-Technik von AWS kann erfolgen
- In einer Landschaft, in der Nvidia CUDA als Standard für zentrale KI-Anwendungen gilt, hat das Trainium4-System das Potenzial, die Migration von Nvidia-GPU-basierten Apps in die AWS-Cloud deutlich zu erleichtern
- Der Veröffentlichungstermin von Trainium4 wurde nicht bekannt gegeben; es ist möglich, dass beim nächsten re:Invent weitere Informationen folgen
Strategische Bedeutung von Energieeffizienz und Kostensenkung
- AWS setzt in einer Phase steigenden Rechenzentrumsstromverbrauchs auf den Aufbau eines „weniger energieintensiven Systems“
- Dieser Ansatz wird als Versuch bewertet, gleichzeitig Kostenreduktion im Betrieb und Sicherstellung der Nachhaltigkeit zu erreichen
- Die kostenorientierte Strategie von AWS könnte zu einer Stärkung der Kundenbindung im KI-Infrastruktur-Wettbewerb führen
Zusammenfassung
- Trainium3 ist ein AI-Chip der dritten Generation mit deutlichen Verbesserungen bei Leistung, Speicher und Effizienz
- Trainium4 zielt auf eine größere AWS-Ökosystem-Integration durch Nvidia-Kompatibilität
- AWS verfolgt parallel eine Strategie für leistungsstarke, kostengünstige und klimafreundliche KI-Infrastruktur, um seine Wettbewerbsfähigkeit im KI-Cloud-Markt zu erhöhen
1 Kommentare
Hacker-News-Kommentare
Es gibt nämlich keinen belastbaren Nachweis dafür, dass sie stabil mit Standardbibliotheken wie Transformers oder PyTorch kompatibel sind.
AWS behauptet zwar, dass es gut funktioniert, aber das gilt nur auf ihrem eigenen „Happy Path“ mit einer bestimmten AMI und dem neuron SDK.
Sobald man tatsächlich mit unseren Abhängigkeiten arbeitet, bricht es sofort auseinander.
Auch die TPUs von GCP wurden erst brauchbar, nachdem Google massiv in den Software-Support investiert hatte.
Ich habe keine Zeit, Beta-Tester zu werden, nur um AWS-Chips zu nutzen.
Nur ein kleiner Teil ist stabil, der Rest hat viele raue Kanten.
Es ist schwer vorstellbar, dass Amazon auf diesem Niveau investieren wird.
Die vLLM-Version wurde seit 6 Monaten nicht aktualisiert, und normale Endpoints sind wegen eines vor 8 Jahren festgelegten 60-Sekunden-Timeouts unbrauchbar.
Allein der Gedanke daran, welche Schmerzen Entwickler mit Custom Silicon in so einer Situation haben müssen, ist schrecklich.
Leute, die es tatsächlich ausprobiert haben, sollen wegen der Schmerzen bei Deployment und Betrieb aufgegeben haben.
Intern scheint es viel genutzt zu werden, extern wird es aber kaum angenommen.
Trotzdem sehe ich es positiv, dass Amazon in eigene Chips investiert.
Bei Trn1 ist es noch nicht ganz so extrem, also scheint es wohl doch jemand zu nutzen.
Vermutlich mit umfassender Unterstützung durch AWS.
Wenn man nicht stärker in SDK und Tooling investiert, wird niemand solche Cloud-Angebote nutzen.
KI treibt grundlegende Datentypen voran, die sich jahrzehntelang nicht verändert haben.
Wikipedia-Artikel zu Block Floating Point
Details dazu im Semianalysis-Newsletter
Amazon scheint wie in der Logistik auch bei KI auf Kostensenkung abzuzielen.
Das Selbstvertrauen wirkt jedoch gering, und es sieht eher nach einer Gesicht-wahrenden Strategie aus, um die Beziehung zu Nvidia aufrechtzuerhalten.
Intel ist ebenfalls dabei, und das wirkt wie ein Moment ähnlich dem Übergang von PCI zu AGP.
AMD hätte zu Zeiten von HyperTransport beinahe eine Chance gehabt, aber das heutige Infinity Fabric bleibt intern.
Auch UALink und CXL bekommen Aufmerksamkeit, aber es gibt weiterhin die Geschwindigkeitsgrenzen von PCIe.
Idealerweise sollte Netzwerkintegration standardmäßig im Chip enthalten sein.
So wie früher bei Intel Xeon, als 100Gb Omni-Path fast kostenlos mitgeliefert wurde.
Bei Intel ist die Verzweiflung nachvollziehbar, aber dass AWS denselben Weg geht, sieht nicht gut aus.
Bei AMD wäre es aus meiner Sicht besser, einen SolarFlare NIC in den I/O-Die zu integrieren.
So wie PCIe/SATA umschaltbar sein kann, müsste auch PCIe/Ethernet umschaltbar sein, aber UEC ist vielleicht ein zu enger Nischenmarkt.