6 Punkte von GN⁺ 2025-04-10 | 1 Kommentare | Auf WhatsApp teilen
  • Google hat Ironwood vorgestellt, die Tensor Processing Unit (TPU) der 7. Generation
  • Ironwood ist der erste TPU, der speziell für KI-Inferenz entwickelt wurde, und das bislang leistungsstärkste und energieeffizienteste Modell
  • Entwickelt für den Betrieb leistungsfähiger KI-Modelle wie Large Language Models (LLM) und Mixture of Experts (MoE)
  • Skalierbar auf bis zu 9.216 Chips und bietet eine Rechenleistung von 42,5 Exaflops
  • Das entspricht mehr als dem 24-Fachen der Leistung von El Capitan, dem schnellsten Supercomputer der Welt

Das Zeitalter der Inferenz mit Ironwood

  • Während bisherige KI vor allem auf Nutzeranfragen reagierte, schafft Ironwood die Grundlage für ein Zeitalter der KI, die Daten aktiv interpretiert und Erkenntnisse generiert
  • In diesem Zeitalter der Inferenz sammelt und analysiert KI Daten anstelle der Nutzer, um tiefere Ergebnisse zu liefern
  • Um diesen neuen Anforderungen gerecht zu werden, bietet Ironwood groß angelegte Parallelverarbeitung und schnellen Datenzugriff

Hardwareaufbau und Leistung von Ironwood

  • In einer Konfiguration als TPU-Pod mit 9.216 Chips liefert Ironwood 42,5 Exaflops Leistung
  • 4.614 TFLOPs pro Chip unterstützen Training und Inferenz großer LLM- und MoE-Modelle
  • Verbesserte SparseCore-Funktionen beschleunigen die Verarbeitung extrem großer Embeddings und eignen sich für Bereiche wie Finanzen und Wissenschaft
  • Mit der Software Pathways lassen sich Zehntausende Ironwood-Chips effizient verwalten

Zentrale technische Merkmale von Ironwood

  • Das Verhältnis von Leistung zu Energieeffizienz wurde gegenüber der Vorgängergeneration um das 2-Fache verbessert
    • Etwa 30-mal höhere Energieeffizienz als Trillium
    • Dank leistungsfähiger Flüssigkühlung bleibt die Performance auch unter dauerhafter hoher Last stabil
  • Die Kapazität des High Bandwidth Memory (HBM) wurde stark erhöht
    • 192 GB pro Chip, sechsmal so viel wie bei Trillium
    • Vorteilhaft für die Verarbeitung großer Modelle und Datensätze
  • Verbesserte HBM-Speicherbandbreite
    • 7,2 TBps pro Chip, 4,5-mal höher als bei Trillium
  • Verbesserte Inter-Chip Interconnect (ICI)-Bandbreite
    • 1,2 Tbps bidirektional, 1,5-mal besser als bei Trillium
    • Durch die schnelle Kommunikation zwischen den Chips gut geeignet für groß angelegtes verteiltes Training und Inferenz

Bedeutung und Einsatzmöglichkeiten von Ironwood

  • Ironwood ist ein zentraler Baustein der Google-Cloud-Hypercomputer-Architektur und auf die Anforderungen der nächsten Generation generativer KI optimiert
  • Aktuelle KI-Modelle wie Gemini 2.5 und AlphaFold laufen ebenfalls auf TPU-Basis
  • Google-Cloud-Kunden können mit Ironwood KI-Workloads mit hoher Leistung, geringer Latenz und verbesserter Energieeffizienz verarbeiten
  • Die Verfügbarkeit für Kunden ist im Laufe des Jahres 2025 geplant; Ironwood dürfte damit eine Grundlage für neue Innovationen in der KI-Forschung und in realen Anwendungen schaffen

1 Kommentare

 
iwanhae 2025-04-10

In letzter Zeit dachte ich schon, dass Gemini beim Time to First Token überwältigend schnell ist — offenbar gab es dafür diesen Grund...