2 Punkte von GN⁺ 2025-12-03 | 1 Kommentare | Auf WhatsApp teilen
  • AWS hat den Trainium3 UltraServer mit dem 3-Nanometer-Trainium3-Chip vorgestellt und die KI-Trainings- und Inferenzleistung deutlich gesteigert
  • Das neue System bietet gegenüber der Vorgängergeneration 4x höhere Geschwindigkeit und 4x mehr Speicher sowie 40 % höhere Energieeffizienz
  • Es können bis zu 1 Million Trainium3-Chips verbunden werden, wodurch es sich für die Verarbeitung großskaliger KI-Anwendungen eignet
  • Kunden wie Anthropic, Karakuri, SplashMusic, Decart nutzen es bereits, und AWS bestätigte bereits spürbare Kosteneinsparungen bei der Inferenz
  • AWS kündigte an, dass der nächste Trainium4-Chip die Nvidia NVLink Fusion-Technologie unterstützt und so eine Interoperabilität mit Nvidia-GPUs möglich macht, was als Wendepunkt im KI-Infrastruktur-Wettbewerb gilt

Vorstellung von Trainium3

  • AWS hat beim re:Invent 2025-Event offiziell den Trainium3 UltraServer vorgestellt
    • Das System läuft mit Trainium3-Chips in 3-Nanometer-Technologie und auf eigener AWS-Netzwerktechnik
    • Es wird berichtet, dass sich sowohl das KI-Training als auch die Inferenz gegenüber der zweiten Generation deutlich verbessert haben
  • AWS erklärte, dass das Trainium3-System viermal höhere Verarbeitungsgeschwindigkeit und viermal größere Speicherkapazität bietet
    • Jeder UltraServer beherbergt 144 Chips
    • Durch die Vernetzung von mehreren tausend Servern sind bis zu 1 Million Chips für eine einzige Anwendung nutzbar
  • Der neue Chip ist zudem 40 % energieeffizienter, was zur Reduktion des Stromverbrauchs in großen Rechenzentren beiträgt
    • AWS betonte, dass dies auch Kostenersparnisse für KI-Cloud-Kunden ermöglicht

Hauptkunden und Anwendungsfälle

  • Anthropic, das japanische LLM Karakuri, SplashMusic und Decart nutzen Trainium3 bereits
    • Diese Kunden geben an, die Inferenzkosten deutlich gesenkt zu haben, so AWS
  • AWS sagte, dass die Verbesserungen bei Leistung und Kosteneffizienz eine Basis für höhere Skalierbarkeit von KI-Anwendungen schaffen

Roadmap für den Chip Trainium4

  • AWS teilte mit, dass Trainium4 bereits in der Entwicklung ist und künftig die Nvidia NVLink Fusion High-Speed-Interconnect-Technologie unterstützen wird
    • Dadurch wird eine Interoperabilität mit Nvidia-GPUs möglich und die Kombination mit der preiswerten Server-Rack-Technik von AWS kann erfolgen
  • In einer Landschaft, in der Nvidia CUDA als Standard für zentrale KI-Anwendungen gilt, hat das Trainium4-System das Potenzial, die Migration von Nvidia-GPU-basierten Apps in die AWS-Cloud deutlich zu erleichtern
  • Der Veröffentlichungstermin von Trainium4 wurde nicht bekannt gegeben; es ist möglich, dass beim nächsten re:Invent weitere Informationen folgen

Strategische Bedeutung von Energieeffizienz und Kostensenkung

  • AWS setzt in einer Phase steigenden Rechenzentrumsstromverbrauchs auf den Aufbau eines „weniger energieintensiven Systems“
  • Dieser Ansatz wird als Versuch bewertet, gleichzeitig Kostenreduktion im Betrieb und Sicherstellung der Nachhaltigkeit zu erreichen
  • Die kostenorientierte Strategie von AWS könnte zu einer Stärkung der Kundenbindung im KI-Infrastruktur-Wettbewerb führen

Zusammenfassung

  • Trainium3 ist ein AI-Chip der dritten Generation mit deutlichen Verbesserungen bei Leistung, Speicher und Effizienz
  • Trainium4 zielt auf eine größere AWS-Ökosystem-Integration durch Nvidia-Kompatibilität
  • AWS verfolgt parallel eine Strategie für leistungsstarke, kostengünstige und klimafreundliche KI-Infrastruktur, um seine Wettbewerbsfähigkeit im KI-Cloud-Markt zu erhöhen

1 Kommentare

 
GN⁺ 2025-12-03
Hacker-News-Kommentare
  • Unser Team hat dem AWS-Ansprechpartner mehrfach gesagt, dass wir kein Interesse an Trainium- oder Inferentia-Instanzen haben.
    Es gibt nämlich keinen belastbaren Nachweis dafür, dass sie stabil mit Standardbibliotheken wie Transformers oder PyTorch kompatibel sind.
    AWS behauptet zwar, dass es gut funktioniert, aber das gilt nur auf ihrem eigenen „Happy Path“ mit einer bestimmten AMI und dem neuron SDK.
    Sobald man tatsächlich mit unseren Abhängigkeiten arbeitet, bricht es sofort auseinander.
    Auch die TPUs von GCP wurden erst brauchbar, nachdem Google massiv in den Software-Support investiert hatte.
    Ich habe keine Zeit, Beta-Tester zu werden, nur um AWS-Chips zu nutzen.
    • Sobald man bei AWS die Kerndienste (S3, Dynamo, Lambda, ECS usw.) verlässt, ist alles voller Beta-Services.
      Nur ein kleiner Teil ist stabil, der Rest hat viele raue Kanten.
    • Google hat enorm viel Arbeit investiert, um TPU in das Ökosystem einzubetten.
      Es ist schwer vorstellbar, dass Amazon auf diesem Niveau investieren wird.
    • Spoiler: Ohne viel Custom Code funktioniert es nicht.
  • Ich habe die Hölle erlebt, als ich versucht habe, in SageMaker LMI-Container selbst zu bauen.
    Die vLLM-Version wurde seit 6 Monaten nicht aktualisiert, und normale Endpoints sind wegen eines vor 8 Jahren festgelegten 60-Sekunden-Timeouts unbrauchbar.
    Allein der Gedanke daran, welche Schmerzen Entwickler mit Custom Silicon in so einer Situation haben müssen, ist schrecklich.
  • AWS redet groß über Trainium, aber auf der Bühne steht kein einziger Kunde, der es lobt.
    Leute, die es tatsächlich ausprobiert haben, sollen wegen der Schmerzen bei Deployment und Betrieb aufgegeben haben.
    Intern scheint es viel genutzt zu werden, extern wird es aber kaum angenommen.
    Trotzdem sehe ich es positiv, dass Amazon in eigene Chips investiert.
    • Inf1/Inf2-Spot-Instanzen sind so unbeliebt, dass sie 10 bis 20 % günstiger sind als CPU-Instanzen.
      Bei Trn1 ist es noch nicht ganz so extrem, also scheint es wohl doch jemand zu nutzen.
    • Ich habe gehört, dass auch Anthropic Trainium stark nutzt.
      Vermutlich mit umfassender Unterstützung durch AWS.
      Wenn man nicht stärker in SDK und Tooling investiert, wird niemand solche Cloud-Angebote nutzen.
  • Das Konzept von Block Floating Point (MXFP8/4) ist interessant.
    KI treibt grundlegende Datentypen voran, die sich jahrzehntelang nicht verändert haben.
    Wikipedia-Artikel zu Block Floating Point
  • Interessant ist, dass im Artikel kein einziges Mal erklärt wird, was dieser Chip eigentlich macht.
    • Der Kern sind mehrere 128x128 systolic arrays.
      Details dazu im Semianalysis-Newsletter
    • Wie der Name schon sagt, ist es ein Chip fürs Training.
    • Am Ende ist es ein Chip für Vektoroperationen.
    • Vielleicht dachte man, die eigentliche Aufgabe dieses Chips sei es, die Aktionäre zufriedenzustellen, und deshalb müsse man Entwicklern nichts weiter erklären.
  • Es gibt überhaupt keine Erwähnung von Performance oder Benchmarks.
    • Es heißt zwar „4-mal mehr“, aber das bedeutet nicht, dass es 4-mal schneller ist, und auch bei 4-mal mehr Speicher fehlt jeder Bezugspunkt.
  • Die eigentliche Nachricht ist der Teil über eine „Nvidia-freundliche Roadmap“.
    Amazon scheint wie in der Logistik auch bei KI auf Kostensenkung abzuzielen.
    Das Selbstvertrauen wirkt jedoch gering, und es sieht eher nach einer Gesicht-wahrenden Strategie aus, um die Beziehung zu Nvidia aufrechtzuerhalten.
  • Es ist interessant, dass sich NVLink verbreitet.
    Intel ist ebenfalls dabei, und das wirkt wie ein Moment ähnlich dem Übergang von PCI zu AGP.
    AMD hätte zu Zeiten von HyperTransport beinahe eine Chance gehabt, aber das heutige Infinity Fabric bleibt intern.
    Auch UALink und CXL bekommen Aufmerksamkeit, aber es gibt weiterhin die Geschwindigkeitsgrenzen von PCIe.
    Idealerweise sollte Netzwerkintegration standardmäßig im Chip enthalten sein.
    So wie früher bei Intel Xeon, als 100Gb Omni-Path fast kostenlos mitgeliefert wurde.
    • NVLink Fusion wirkt letztlich wie eine Falle der Nvidia-Abhängigkeit.
      Bei Intel ist die Verzweiflung nachvollziehbar, aber dass AWS denselben Weg geht, sieht nicht gut aus.
      Bei AMD wäre es aus meiner Sicht besser, einen SolarFlare NIC in den I/O-Die zu integrieren.
      So wie PCIe/SATA umschaltbar sein kann, müsste auch PCIe/Ethernet umschaltbar sein, aber UEC ist vielleicht ein zu enger Nischenmarkt.
  • Offizieller Amazon-Post: Vorstellung des Trainium 3 UltraServer