26 Punkte von GN⁺ 2025-12-15 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Die TPU ist Googles domänenspezifischer Beschleuniger, der nur die für Deep Learning unbedingt nötigen Berechnungen beibehält und den Rest konsequent weglässt
  • Ausgelöst durch die Grenzen der Rechenzentrums-Skalierung im Jahr 2013 und in 12 Jahren bis zur 7. Generation „Ironwood“ weiterentwickelt
  • Da die Zeit vorbei ist, in der Halbleiter automatisch leistungsfähiger wurden, wurde die Strategie nicht zu warten, sondern selbst zu entwerfen zu einer zentralen Option
  • Eine TPU ist nicht nur ein Chip, sondern ein Co-Design-System aus Hardware, Compiler, Netzwerk und Betriebssoftware
  • Mit jeder Generation verschiebt sich der Schwerpunkt vom Leistungswettbewerb hin zu Stromverbrauch, Deployment und Betriebskosten (TCO)
  • Die Wettbewerbsfähigkeit der TPU beruht nicht auf einer einzelnen Technologie, sondern auf der Summe von mehr als zehn Jahren angesammelter Design- und Betriebserfahrung

Something New

  • Die TPU ist keine Geheimwaffe, sondern das Ergebnis langer öffentlicher Forschung und interner Iteration
  • Google entschied sich statt für den weiteren Ausbau von Rechenzentren für den Weg, die Art des Rechnens grundlegend zu verändern
  • Um 2013 führte der Druck, die Rechenzentrumskapazität zu verdoppeln, zusammen mit engen Zeitvorgaben zur Geburt der TPU in nur 15 Monaten
  • Im April 2025 stellte Google auf der Google Cloud Next die TPU Ironwood der 7. Generation vor und nannte Werte von 9.216 Chips pro Pod, 42,5 Exaflops und 10 MW
  • GPUs waren keine Geräte, die für Deep Learning entwickelt wurden, und die TPU wurde von Anfang an für neuronale Netzberechnungen entworfen
  • Diese Entscheidung brachte nicht nur bei der Rechenleistung, sondern auch bei Energieeffizienz und Betriebsstabilität strukturelle Vorteile
  • Das Ergebnis ist nicht „Zufall“, sondern die Akkumulation aus wiederholten Einschränkungen, Trade-offs und Co-Design

Slowing Down

  • Durch die Abschwächung von Moore’s Law und Dennard Scaling reichte es früher, einfach auf eine neue CPU zu warten, damit Programme schneller wurden, aber diese Voraussetzung ist weggefallen
  • Die Zahl der Transistoren steigt weiter, doch Grenzen bei Stromverbrauch und Abwärme blockieren Leistungssteigerungen
  • Gleichzeitig verlangen neuronale Netze nach größeren Datenmengen und größeren Modellen, wodurch die Rechennachfrage explosionsartig steigt
  • Deshalb wurden statt „Chips, die alles ein bisschen gut können“ „Chips, die eine Sache extrem gut können“ nötig
  • Dass der Kern neuronaler Netzberechnungen in wiederholten matrixmultiplikationszentrierten Operationen liegt, machte ein spezialisiertes Design möglich

The Inference Chip

  • Die erste TPU konzentrierte sich nicht auf Training, sondern auf Inference, also die Ausführung bereits trainierter Modelle
  • TPUv1 entfernte Cache, Branch Prediction und Multithreading, um die Kontrollkosten zu minimieren
  • Stattdessen wurden alle Ressourcen auf ein Systolic Array (MXU) konzentriert, das große Matrixmultiplikationen ohne Unterbrechung verarbeitet
  • Statt während der Ausführung Entscheidungen zu treffen, folgt sie einfach der zur Compile-Zeit festgelegten Ausführungsreihenfolge
  • Dadurch konnte sie bei gleicher Leistungsaufnahme deutlich mehr Inference-Workloads als GPU oder CPU verarbeiten

The Training Chip

  • Training erfordert weit mehr Rechenleistung und einen größeren Bereich numerischer Darstellung als Inference
  • Ab TPUv2 wurde über eine reine Inference-Struktur hinaus Flexibilität für das Training ergänzt
  • Die zentrale Änderung war die Aufgabentrennung zwischen Matrix (MXU), Vektor (VPU) und Steuerung (Scalar Unit)
  • Der Ausführungsfluss wird vom XLA-Compiler im Voraus berechnet und festgelegt, und der Chip führt ihn unverändert aus
  • Damit mehrere TPUs wie ein einziges Gerät arbeiten können, wurde auch ein dedizierter Hochgeschwindigkeits-Interconnect (ICI) mitentwickelt

Scaling Up

  • Mit wachsender Systemgröße verlagerte sich die Frage von „Wie schnell ist es?“ zu „Wie lange und wie günstig lässt es sich betreiben?“
  • Dafür wurde in der Nähe der Recheneinheiten ein großer On-Chip-Speicher (CMEM) platziert, um langsame DRAM-Zugriffe zu reduzieren
  • Für Workloads mit vielen spärlichen Daten wie Empfehlungssysteme wurden auch dedizierte Einheiten wie SparseCore eingeführt
  • Durch die Trennung von Kommunikation innerhalb des Chips und zwischen Chips wurden Leitungskomplexität und Bottlenecks strukturell entschärft
  • Nicht Leistungskennzahlen, sondern die Betriebseffizienz bestimmt das gesamte Design

Island Hopping

  • In Umgebungen mit Tausenden TPUs ist Ausfall nicht die Ausnahme, sondern die Annahme
  • Das Ziel ist ein System, das nicht stillsteht, also eine Struktur, die partielle Ausfälle absorbiert
  • Jobs werden auf mehrere TPUs verteilt ausgeführt, aber so verwaltet, dass sie wie ein einziges Programm erscheinen
  • Tritt ein Problem auf, wird nicht alles angehalten, sondern schnelles Re-Placement und Neustart gewählt
  • Dieser komplexe Prozess wird größtenteils automatisch von der Betriebssoftware verarbeitet

Datacenter Network Erweiterung

  • Wenn ein einzelner TPU-Verbund nicht mehr ausreicht, müssen mehrere Verbünde verbunden werden
  • Da normale Netzwerke an Grenzen stoßen, wurde optisches Switching (OCS) eingeführt
  • Dadurch lässt sich das gesamte Rechenzentrum wie eine einzige riesige Rechenressource aufbauen
  • Eine Erweiterung des bestehenden Ausführungsmodells und ein völlig neues asynchrones Ausführungsmodell (Pathways) existieren nebeneinander
  • So können größere Modelle und komplexere Kommunikationsmuster bewältigt werden

Ceci n’est pas une TPU

  • Aktuelle TPUs wirken nach den Kennzahlen überwältigend, doch die Kernprinzipien sind dieselben wie am Anfang
  • Der Fokus auf notwendige Berechnungen und das Entfernen unnötiger Komplexität bleibt bestehen
  • Dieses System lässt sich nicht allein durch Hardware-Spezifikationen reproduzieren
  • Compiler (XLA), dedizierter Interconnect (ICI), optisches Switching (OCS) und Betriebs-Scheduler müssen zusammenarbeiten
  • Die TPU ist keine einzelne Erfindung, sondern das Ergebnis von Hunderten gewöhnlichen Entscheidungen, die sich angesammelt haben

Einige zentrale Technologien, die man sich merken sollte

  • Systolic Array (MXU): das Herz der TPU für hocheffiziente Matrixmultiplikation
  • XLA-Compiler: berechnet die Ausführungsreihenfolge im Voraus und eliminiert Kontrollkosten
  • BF16: ein Zahlenformat, das den fürs Training nötigen Bereich beibehält und zugleich die Hardwarekosten senkt
  • ICI / OCS: eine dedizierte Kommunikationsstruktur, die Chip, Rack und Rechenzentrum zu einem Ganzen verbindet
  • TCO-zentriertes Design: eine Denkweise, die statt Spitzenleistung die langfristigen Betriebskosten optimiert

Noch keine Kommentare.

Noch keine Kommentare.