Ironwood – Googles erster TPU für das Zeitalter der Inferenz

(blog.google)

6 Punkte von GN⁺ 2025-04-10 | 1 Kommentare | Auf WhatsApp teilen

Google hat Ironwood vorgestellt, die Tensor Processing Unit (TPU) der 7. Generation
Ironwood ist der erste TPU, der speziell für KI-Inferenz entwickelt wurde, und das bislang leistungsstärkste und energieeffizienteste Modell
Entwickelt für den Betrieb leistungsfähiger KI-Modelle wie Large Language Models (LLM) und Mixture of Experts (MoE)
Skalierbar auf bis zu 9.216 Chips und bietet eine Rechenleistung von 42,5 Exaflops
Das entspricht mehr als dem 24-Fachen der Leistung von El Capitan, dem schnellsten Supercomputer der Welt

Während bisherige KI vor allem auf Nutzeranfragen reagierte, schafft Ironwood die Grundlage für ein Zeitalter der KI, die Daten aktiv interpretiert und Erkenntnisse generiert
In diesem Zeitalter der Inferenz sammelt und analysiert KI Daten anstelle der Nutzer, um tiefere Ergebnisse zu liefern
Um diesen neuen Anforderungen gerecht zu werden, bietet Ironwood groß angelegte Parallelverarbeitung und schnellen Datenzugriff

In einer Konfiguration als TPU-Pod mit 9.216 Chips liefert Ironwood 42,5 Exaflops Leistung
4.614 TFLOPs pro Chip unterstützen Training und Inferenz großer LLM- und MoE-Modelle
Verbesserte SparseCore-Funktionen beschleunigen die Verarbeitung extrem großer Embeddings und eignen sich für Bereiche wie Finanzen und Wissenschaft
Mit der Software Pathways lassen sich Zehntausende Ironwood-Chips effizient verwalten

Das Verhältnis von Leistung zu Energieeffizienz wurde gegenüber der Vorgängergeneration um das 2-Fache verbessert
- Etwa 30-mal höhere Energieeffizienz als Trillium
- Dank leistungsfähiger Flüssigkühlung bleibt die Performance auch unter dauerhafter hoher Last stabil
Die Kapazität des High Bandwidth Memory (HBM) wurde stark erhöht
- 192 GB pro Chip, sechsmal so viel wie bei Trillium
- Vorteilhaft für die Verarbeitung großer Modelle und Datensätze
Verbesserte HBM-Speicherbandbreite
- 7,2 TBps pro Chip, 4,5-mal höher als bei Trillium
Verbesserte Inter-Chip Interconnect (ICI)-Bandbreite
- 1,2 Tbps bidirektional, 1,5-mal besser als bei Trillium
- Durch die schnelle Kommunikation zwischen den Chips gut geeignet für groß angelegtes verteiltes Training und Inferenz

Ironwood ist ein zentraler Baustein der Google-Cloud-Hypercomputer-Architektur und auf die Anforderungen der nächsten Generation generativer KI optimiert
Aktuelle KI-Modelle wie Gemini 2.5 und AlphaFold laufen ebenfalls auf TPU-Basis
Google-Cloud-Kunden können mit Ironwood KI-Workloads mit hoher Leistung, geringer Latenz und verbesserter Energieeffizienz verarbeiten
Die Verfügbarkeit für Kunden ist im Laufe des Jahres 2025 geplant; Ironwood dürfte damit eine Grundlage für neue Innovationen in der KI-Forschung und in realen Anwendungen schaffen

1 Kommentare

iwanhae 2025-04-10

In letzter Zeit dachte ich schon, dass Gemini beim Time to First Token überwältigend schnell ist — offenbar gab es dafür diesen Grund...