- Google hat Ironwood vorgestellt, die Tensor Processing Unit (TPU) der 7. Generation
- Ironwood ist der erste TPU, der speziell für KI-Inferenz entwickelt wurde, und das bislang leistungsstärkste und energieeffizienteste Modell
- Entwickelt für den Betrieb leistungsfähiger KI-Modelle wie Large Language Models (LLM) und Mixture of Experts (MoE)
- Skalierbar auf bis zu 9.216 Chips und bietet eine Rechenleistung von 42,5 Exaflops
- Das entspricht mehr als dem 24-Fachen der Leistung von El Capitan, dem schnellsten Supercomputer der Welt
Das Zeitalter der Inferenz mit Ironwood
- Während bisherige KI vor allem auf Nutzeranfragen reagierte, schafft Ironwood die Grundlage für ein Zeitalter der KI, die Daten aktiv interpretiert und Erkenntnisse generiert
- In diesem Zeitalter der Inferenz sammelt und analysiert KI Daten anstelle der Nutzer, um tiefere Ergebnisse zu liefern
- Um diesen neuen Anforderungen gerecht zu werden, bietet Ironwood groß angelegte Parallelverarbeitung und schnellen Datenzugriff
Hardwareaufbau und Leistung von Ironwood
- In einer Konfiguration als TPU-Pod mit 9.216 Chips liefert Ironwood 42,5 Exaflops Leistung
- 4.614 TFLOPs pro Chip unterstützen Training und Inferenz großer LLM- und MoE-Modelle
- Verbesserte SparseCore-Funktionen beschleunigen die Verarbeitung extrem großer Embeddings und eignen sich für Bereiche wie Finanzen und Wissenschaft
- Mit der Software Pathways lassen sich Zehntausende Ironwood-Chips effizient verwalten
Zentrale technische Merkmale von Ironwood
- Das Verhältnis von Leistung zu Energieeffizienz wurde gegenüber der Vorgängergeneration um das 2-Fache verbessert
- Etwa 30-mal höhere Energieeffizienz als Trillium
- Dank leistungsfähiger Flüssigkühlung bleibt die Performance auch unter dauerhafter hoher Last stabil
- Die Kapazität des High Bandwidth Memory (HBM) wurde stark erhöht
- 192 GB pro Chip, sechsmal so viel wie bei Trillium
- Vorteilhaft für die Verarbeitung großer Modelle und Datensätze
- Verbesserte HBM-Speicherbandbreite
- 7,2 TBps pro Chip, 4,5-mal höher als bei Trillium
- Verbesserte Inter-Chip Interconnect (ICI)-Bandbreite
- 1,2 Tbps bidirektional, 1,5-mal besser als bei Trillium
- Durch die schnelle Kommunikation zwischen den Chips gut geeignet für groß angelegtes verteiltes Training und Inferenz
Bedeutung und Einsatzmöglichkeiten von Ironwood
- Ironwood ist ein zentraler Baustein der Google-Cloud-Hypercomputer-Architektur und auf die Anforderungen der nächsten Generation generativer KI optimiert
- Aktuelle KI-Modelle wie Gemini 2.5 und AlphaFold laufen ebenfalls auf TPU-Basis
- Google-Cloud-Kunden können mit Ironwood KI-Workloads mit hoher Leistung, geringer Latenz und verbesserter Energieeffizienz verarbeiten
- Die Verfügbarkeit für Kunden ist im Laufe des Jahres 2025 geplant; Ironwood dürfte damit eine Grundlage für neue Innovationen in der KI-Forschung und in realen Anwendungen schaffen
1 Kommentare
In letzter Zeit dachte ich schon, dass Gemini beim Time to First Token überwältigend schnell ist — offenbar gab es dafür diesen Grund...