- Google hat nach über zehn Jahren TPU-Entwicklung zwei TPUs der 8. Generation vorgestellt und setzt dabei auf jeweils spezialisierte Architekturen: die TPU 8t ausschließlich für das Training großer Modelle und die TPU 8i ausschließlich für schnelle Inferenz
- TPU 8t skaliert mit einem einzelnen SuperPod auf bis zu 9.600 Chips und 121 ExaFLOPS; die Rechenleistung pro Pod steigt damit gegenüber der vorherigen Generation um etwa das Dreifache
- TPU 8i wurde mit Fokus auf Speicherbandbreite und Latenz für agentische Inferenz neu entwickelt und erreicht durch größeren On-Chip-SRAM, einen Axion-CPU-Host und Netzwerkverbesserungen für MoE eine um 80 % bessere Preis-Leistung
- Beide Chips laufen auf Googles selbst entwickeltem Axion CPU auf ARM-Basis als Host und verbessern die Leistung pro Watt gegenüber der vorherigen Generation um bis zu das Doppelte
- Als Infrastrukturstrategie für ein Zeitalter, in dem KI-Agenten fortlaufend schlussfolgern, planen und ausführen, trennt und optimiert Google Training und Inferenz separat; die allgemeine Verfügbarkeit ist für die zweite Jahreshälfte geplant, nutzbar als Teil von Google AI Hypercomputer
Überblick über die TPU der 8. Generation
- Auf der Google Cloud Next hat Google die Tensor Processor Unit (TPU) der 8. Generation vorgestellt, bestehend aus zwei Architekturen: TPU 8t für Training und TPU 8i für Inferenz
- Sie wurden für den Betrieb maßgeschneiderter Supercomputer entwickelt und decken modernstes Modelltraining, Agentenentwicklung und großskalige Inferenz-Workloads gleichermaßen ab
- Wichtige Foundation-Modelle einschließlich Gemini laufen seit Jahren auf TPUs; die 8. Generation liefert zugleich Skalierung, Effizienz und Leistung für Training, Serving und agentische Workloads
- Im Zeitalter der KI-Agenten müssen Modelle in einer kontinuierlichen Schleife Probleme erschließen, mehrstufige Workflows ausführen und aus ihren eigenen Handlungen lernen, wodurch neue Anforderungen an die Infrastruktur entstehen
- Sie wurde in Zusammenarbeit mit Google DeepMind entwickelt, um die anspruchsvollsten KI-Workloads zu bewältigen und sich an weiterentwickelnde Modellarchitekturen anzupassen
Über zehn Jahre Designphilosophie
- TPUs haben Standards für ML-Supercomputing gesetzt, etwa bei benutzerdefinierten numerischen Operationen, Flüssigkeitskühlung und Custom-Interconnects; die 8. Generation bündelt mehr als zehn Jahre Entwicklung
- Zentrales Designprinzip: Silizium gemeinsam mit Hardware, Netzwerk und Software — einschließlich Modellarchitekturen und Anwendungsanforderungen — co-designen, um sowohl bei Energieeffizienz als auch bei absoluter Leistung dramatische Fortschritte zu erzielen
- Als Beispiel für führende Organisationen wird Citadel Securities genannt, die TPUs für eigene KI-Workloads gewählt haben
Warum Training und Inferenz getrennt wurden
- Hardware-Entwicklungszyklen sind deutlich länger als Software-Zyklen, daher muss bei jeder TPU-Generation vorab abgeschätzt werden, wie sich Technik und Nachfrage bis zum Veröffentlichungszeitpunkt entwickeln
- Google hat bereits vor Jahren einen steigenden Inferenzbedarf durch die produktive Bereitstellung von Frontier-AI-Modellen erwartet
- Mit dem Aufstieg von KI-Agenten unterscheiden sich die Anforderungen von Training und Serving zunehmend, weshalb spezialisierte Chips für einzelne Aufgaben der Community mehr Nutzen bringen sollen
- Die TPU 8t ist mit höherem Rechendurchsatz und mehr Scale-up-Bandbreite auf großskaliges Training optimiert
- Die TPU 8i ist mit größerer Speicherbandbreite auf latenzempfindliche Inferenz-Workloads optimiert, da sich bei Interaktionen zwischen Agenten selbst kleine Ineffizienzen im großen Maßstab verstärken
- Beide Chips können unterschiedliche Workloads ausführen, doch die Spezialisierung bringt deutliche Effizienzgewinne
TPU 8t: das Kraftpaket für Training
- Ziel ist es, Entwicklungszyklen von Frontier-Modellen von Monaten auf Wochen zu verkürzen
- Kombiniert werden Spitzenwerte bei Rechendurchsatz, gemeinsam genutztem Speicher und Chip-zu-Chip-Bandbreite mit optimaler Energieeffizienz und hoher produktiver Rechenzeit
- Gegenüber der vorherigen Generation steigt die Rechenleistung pro Pod um etwa das Dreifache
-
Massive Scale
- Ein einzelner TPU-8t-SuperPod skaliert auf 9.600 Chips und 2 Petabyte gemeinsam genutzten HBM
- Die Chip-zu-Chip-Bandbreite verdoppelt sich gegenüber der vorherigen Generation
- Er liefert 121 ExaFLOPS Rechenleistung, sodass selbst die komplexesten Modelle einen einzigen großen Speicherpool nutzen können
-
Maximum Utilization
- Integrierter 10-mal schnellerer Speicherzugriff
- Mit TPUDirect werden Daten direkt in die TPU gepullt, um eine maximale Auslastung des End-to-End-Systems sicherzustellen
-
Near-Linear Scaling
- Das neue Virgo Network in Kombination mit JAX und der Pathways-Software ermöglicht nahezu lineare Skalierung bis auf 1 Million Chips in einem einzelnen logischen Cluster
-
Zuverlässigkeit und Verfügbarkeit
- Zielwert von über 97 % goodput (nützliche produktive Rechenzeit)
- Umfassende RAS-Funktionen (Reliability, Availability, Serviceability) enthalten
- Echtzeit-Telemetrie über Zehntausende Chips hinweg
- Automatische Erkennung fehlerhafter ICI-Links und Umgehungsrouting ohne Unterbrechung laufender Jobs
- OCS (Optical Circuit Switching) zur Hardware-Neukonfiguration um Störungen herum ohne menschliches Eingreifen
- Im Frontier-Trainingsmaßstab sind Hardware-Ausfälle, Netzwerklatenzen und Neustarts von Checkpoints unproduktive Zeit; schon ein Unterschied von 1 Prozentpunkt kann sich in mehreren Trainingstagen niederschlagen
TPU 8i: die Inferenz-Engine
- Im agentischen Zeitalter erwarten Nutzer, Fragen zu stellen, Aufgaben zu delegieren und Ergebnisse zu erhalten; die TPU 8i ist deshalb für Arbeitsabläufe optimiert, in denen mehrere spezialisierte Agenten in komplexen Flows swarming zusammenarbeiten
- Um den „Warteraum-Effekt“ zu beseitigen, wurde der Stack neu entworfen und mit vier zentralen Innovationen ausgestattet
-
Breaking the Memory Wall
- Ausgestattet mit 288 GB HBM und 384 MB On-Chip-SRAM (dreimal so viel wie in der vorherigen Generation)
- So kann das gesamte aktive Working Set eines Modells on-chip gehalten werden, damit der Prozessor nicht untätig bleibt
-
Effizienz auf Axion-Basis
- Die Zahl der physischen CPU-Hosts pro Server wurde verdoppelt, eingesetzt wird Googles eigener Axion CPU auf ARM-Basis
- NUMA-Isolation (Non-Uniform Memory Architecture) optimiert die Gesamtleistung des Systems
-
Skalierung von MoE-Modellen
- Für moderne Mixture-of-Experts-(MoE)-Modelle wurde die ICI-Bandbreite auf 19,2 Tb/s verdoppelt
- Die neue Boardfly-Architektur reduziert den maximalen Netzwerkdurchmesser um mehr als 50 % und lässt das System als eine zusammenhängende Einheit mit niedriger Latenz arbeiten
-
Eliminating Lag
- Die neue On-Chip-CAE (Collectives Acceleration Engine) lagert globale Operationen aus und senkt die On-Chip-Latenz um bis zu das Fünffache
-
Preis-Leistung
- Gegenüber der vorherigen Generation steigt die Leistung pro Dollar um 80 %, wodurch sich bei gleichen Kosten fast das doppelte Kundenvolumen bedienen lässt
Gemeinsam mit Gemini co-designt, offen für alle
- Die TPU der 8. Generation ist der neueste Ausdruck einer Co-Design-Philosophie, bei der alle Spezifikationen entwickelt wurden, um die größten Herausforderungen der KI zu lösen
- Boardfly-Topologie: ausgelegt auf die Kommunikationsanforderungen der derzeit leistungsfähigsten Inferenzmodelle
- SRAM-Kapazität der TPU 8i: bemessen nach dem KV-Cache-Footprint von Inferenzmodellen im Produktivmaßstab
- Virgo-Network-Bandbreitenziel: abgeleitet aus den Parallelisierungsanforderungen beim Training von Modellen mit Billionen Parametern
- Beide Chips laufen erstmals auf Googles eigenem Axion CPU auf ARM-Basis als Host, was nicht nur den Chip, sondern die Optimierung des gesamten Systems ermöglicht
-
Frameworks und Zugänglichkeit
- Native Unterstützung für JAX, MaxText, PyTorch, SGLang, vLLM
- Bare-Metal-Zugriff ohne Virtualisierungs-Overhead und mit direktem Zugriff auf die Hardware
- Open-Source-Beiträge: Referenzimplementierung MaxText, Tunix für Reinforcement Learning und weitere zentrale Pfade von der Entwicklung bis zur produktiven Bereitstellung
Auf Energieeffizienz im großen Maßstab ausgelegt
- In heutigen Rechenzentren ist nicht nur die Chip-Versorgung, sondern auch Strom ein begrenzender Faktor
- Die Effizienz wird über den gesamten Stack hinweg optimiert; zum Einsatz kommt ein integriertes Power-Management, das den Stromverbrauch dynamisch an die Echtzeitnachfrage anpasst
- Sowohl TPU 8t als auch TPU 8i verbessern gegenüber der vorherigen Generation (Ironwood) die Leistung pro Watt um bis zu das Doppelte
- Effizienz ist nicht nur eine Kennzahl auf Chipebene, sondern ein Systemversprechen vom Silizium bis zum Rechenzentrum
- Die Netzwerkanbindung ist auf demselben Chip wie die Recheneinheiten integriert, was die Energiekosten für Datenbewegung innerhalb von TPU-Pods deutlich senkt
- Auch die Rechenzentren wurden gemeinsam mit den TPUs co-designt; die Rechenleistung pro Energieeinheit ist dort gegenüber vor fünf Jahren um das Sechsfache gestiegen
- Beide Chips werden durch Flüssigkeitskühlung der 4. Generation unterstützt, um Leistungsdichten zu halten, die mit Luftkühlung nicht möglich wären
- Weil Google den gesamten Stack vom Axion-Host bis zum Beschleuniger kontrolliert, sind systemweite Optimierungen der Energieeffizienz möglich, die bei einer getrennten Entwicklung von Host und Chip nicht erreichbar wären
Infrastruktur für das agentische Zeitalter
- Jeder große Wandel in der Datenverarbeitung erfordert Infrastrukturinnovationen — das gilt auch für das agentische Zeitalter
- Die Infrastruktur muss sich an Anforderungen anpassen, bei denen autonome Agenten in einer kontinuierlichen Schleife schlussfolgern, planen, ausführen und lernen
- TPU 8t und TPU 8i sind Googles Antwort auf diese Herausforderung: zwei spezialisierte Architekturen, die den Bau der leistungsfähigsten KI-Modelle, perfekt orchestrierte Agenten-Schwärme und das Management der komplexesten Inferenzaufgaben neu definieren sollen
- Beide Chips sollen in der zweiten Jahreshälfte allgemein verfügbar werden
- Sie werden als Teil von Googles AI Hypercomputer verfügbar sein
- Ein integrierter Stack aus zweckgebundener Hardware (Compute, Storage, Networking), offener Software (Frameworks, Inferenz-Engines) und flexiblen Nutzungsmodellen (Orchestrierung, Cluster-Management, Bereitstellungsmodelle)
1 Kommentare
Hacker-News-Kommentare
Ich hatte das Gefühl, dass Gemini 3 bereits gezeigt hat, wie weit man mit effizienzorientiertem Training kommen kann. Ich schätze, dass Pro und Flash vermutlich 5- bis 10-mal kleiner sind als Modelle in der Größenordnung von Opus oder GPT-5. Tool-Calls brechen oft ab, und bei agentic tasks ist es insgesamt schwach, daher wirkt es so, als fehle beim Feinschliff von Reasoning und Ausführung noch einiges. Trotzdem scheint es bei reinem Problemlösen ohne Tools oder Suche mit Opus und GPT mithalten zu können, während es deutlich kleiner wirkt. Ich denke, Google wird alle überraschen, sobald sie das Prototyping in der Preview-Phase irgendwann abschließen und ein richtiges offizielles Modell veröffentlichen, das die aktuelle SOTA um etwa eine Generation übertrifft. Die bisherigen Modelle wirkten wie Prototypen, die überhastet in GA gedrückt wurden, um sie Investoren zu zeigen und als Proof of Concept ins Produktportfolio zu packen.
Ich glaube, wenn man heute große KI machen will, muss man faktisch entweder bei NVidia kaufen oder bei Google mieten. Und Google kann Chips, Engines und Systeme aus der Perspektive des gesamten Rechenzentrums entwerfen und dadurch auch Dinge optimieren, die ein Chip-Anbieter nicht zentralisieren kann. Deshalb vermute ich, dass Googles Systeme bei wirklich großem Maßstab immer kosteneffizienter sein werden. Zur Einordnung: Ich bin unter anderem aus diesem Grund long in GOOG.
Während andere Unternehmen die Aufmerksamkeit der News-Zyklen auf sich ziehen, scheint Google still und leise an Stärke zu gewinnen und Marktanteile im Consumer-Bereich aufzubauen. Vielleicht weil sie KI von Anfang an vertikal integriert haben, scheinen sie kaum Infrastrukturprobleme zu haben. Eine Zeit lang wirkten sie wie ein erledigtes Unternehmen, jetzt wirken sie eher wie eine Flut, die sich in alle Richtungen ausbreitet.
Aus Sicht von jemandem, der Gemini, ChatGPT und Claude alle benutzt, verwendet Gemini im Vergleich zu den beiden anderen durchgehend deutlich weniger Tokens. Letztlich scheint Gemini auf seinem jetzigen Niveau zu bleiben, weil das Thinking-Budget kleiner ist. Google dürfte wahrscheinlich die meiste Compute und die niedrigste Kostenstruktur haben. Umso rätselhafter ist, warum sie Reasoning-Compute nicht so aggressiv hochfahren wie die anderen beiden. Ob das an anderen Service-Lasten liegt oder an einer trainingszentrierten Strategie, weiß ich nicht, aber ich finde das ziemlich interessant.
Die Aussage, dass ein TPU-8t-Superpod auf 9.600 Chips und 2 PB gemeinsam genutzten Hochbandbreiten-Speicher skaliert, war beeindruckend. Ich kenne mich in dem Bereich nicht besonders gut aus, aber zumindest für mich sieht das nach einem ziemlich großen Wettbewerbsvorteil für Google aus.
Die Aussage, dass TPU 8t und TPU 8i gegenüber der vorherigen Generation eine bis zu doppelt so hohe Leistung pro Watt liefern, war ziemlich beeindruckend. Besonders interessant ist, dass die vorherige Generation selbst erst aus 2025 stammt und also sehr aktuell ist. Auffällig war auch, dass Hardware für Training und Inferenz getrennt wurde. Ich habe mich gefragt, ob Unternehmen mit NV-Hardware das ebenfalls so trennen oder ob deren Hardware eher universell ist.
Ich nutze Gemini zusammen mit JetBrains’ Junie, und auch wenn Junie selbst nicht so gut ist wie Claude Code, liegt es nach meinem Eindruck aktuell immer noch deutlich vor Googles eigenen Tools. Mit dieser Kombination bekomme ich ziemlich günstig konsistente Ergebnisse.
Unter den großen Reasoning-Anbietern gehört Google für mich zu den unangenehmsten beim Thema Modell-Abkündigungen. Exakt ein Jahr nach Release werden Modelle abgeschaltet und man wird zur nächsten Generation gezwungen. Mit eigener Silicon hätte ich eher mehr Stabilität erwartet, aber es ist genau andersherum. Auch das Rate Limiting ist deutlich strenger als bei OpenAI. Ich frage mich, ob das an den TPUs liegt oder einfach an merkwürdigen Produktentscheidungen.
Wenn es bei KI einen endgültigen Sieger gibt, dann dürfte das am Ende entweder Google mit seinem gesamten Stack sein oder Apple, das die meisten KI-fähigen Edge-Sites ausrollt. Ein anderes Bild fällt mir kaum ein.
Unter diesem Link gab es eine ausführlichere Beschreibung der Architektur: https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive