- Google TPU ist ein spezialisierter ASIC-Chip, der für die Verarbeitung großer KI-Inferenzlasten entwickelt wurde und gegenüber GPUs Vorteile bei Effizienz und Kostenwettbewerbsfähigkeit bietet
- Das zentrale Unterscheidungsmerkmal ist die Systolic-Array-Architektur, die Speicherzugriffe minimiert und die Recheneffizienz (Operations per Joule) maximiert
- Die neueste TPUv7 (Ironwood) bietet im Vergleich zur Vorgängergeneration sprunghafte Verbesserungen bei Leistung und Speicherbandbreite und erreicht ein Leistungsniveau, das mit der Nvidia-Blackwell-GPU vergleichbar ist
- Die Einschränkungen des TPU-Ökosystems und die exklusive Bereitstellung über GCP sind die größten Hürden für eine breitere Verbreitung, doch Google baut seine Organisation um und verstärkt den Support, um externe Kunden stärker zu adressieren
- Durch die Wiederherstellung von Cloud-Margen und eine stärkere Wettbewerbsposition mit eigenen Chips könnte Google langfristig zu einem zentralen Gewinner des KI-Infrastrukturmarkts werden
Geschichte der TPU und Hintergrund ihrer Entwicklung
- 2013 kam Google zu dem Ergebnis, dass aufgrund der steigenden Nutzung der Sprachsuche die Rechenzentrumskapazität verdoppelt werden müsste
- Mit herkömmlichen CPUs und GPUs ließ sich Deep-Learning-Rechenarbeit (groß angelegte Matrixmultiplikation) nicht effizient genug verarbeiten
- Daraufhin entschied sich Google zur Entwicklung eines ASIC speziell für TensorFlow-Neuronale-Netze und brachte innerhalb von 15 Monaten Silizium in den Rechenzentren zum Einsatz
- 2015 wurde die TPU bereits in wichtigen Diensten wie Google Maps, Photos und Translate eingesetzt
- Auf der Google I/O 2016 wurde sie offiziell vorgestellt; seitdem hat sich die TPU zu einer zentralen Infrastruktur für die Senkung von KI-Inferenzkosten entwickelt
Strukturelle Unterschiede zwischen TPU und GPU
- Die GPU ist ein allgemeiner Parallelprozessor, die TPU hingegen eine domänenspezifische Architektur
- GPUs wurden für Grafikverarbeitung entwickelt und enthalten komplexe Steuerlogik wie Caches und Branch Prediction
- Die TPU verzichtet darauf und minimiert mit einer Systolic-Array-Struktur den Datenverkehr
- Das Systolic Array der TPU lädt Daten einmal und leitet sie dann in einem kontinuierlichen Rechenfluss weiter, wodurch der Von-Neumann-Flaschenhals entschärft wird
- Verbesserungen bei Ironwood (7. Generation)
- Verbesserter SparseCore steigert die Effizienz bei der Verarbeitung großer Embeddings
- HBM-Kapazität 192 GB, Bandbreite 7.370 GB/s
- Verbesserte Inter-Chip Interconnect (ICI) mit bis zu 1,2 TB/s Bandbreite
- Google baut große TPU-Pods mit Optical Circuit Switch (OCS) und einem 3D-Torus-Netzwerk
- Die Energieeffizienz ist hoch, die Flexibilität jedoch geringer als bei InfiniBand
Leistungsvergleich TPU vs. GPU
- TPUv7 (BF16 4.614 TFLOPS) gegenüber TPUv5p (459 TFLOPS) bedeutet nahezu eine Verzehnfachung der Leistung
- Zusammenfassung von Brancheninterviews
- Die TPU liegt bei Energieeffizienz pro Leistung und Kosteneffizienz vorn
- In bestimmten Anwendungen wird eine 1,4-fach höhere Leistung pro Dollar erreicht
- TPUv6 bietet gegenüber GPUs einen Effizienzvorteil von 60–65 %, frühere Generationen lagen bei 40–45 %
- TPUs erzeugen weniger Abwärme und verbrauchen weniger Strom, wodurch auch die Umweltbelastung geringer ist
- Einige Kunden können mit TPU-Pods die Kosten auf ein Fünftel senken
- Aufgrund der ASIC-Struktur werden Effekte wie 30 % geringere Größe und 50 % weniger Stromverbrauch genannt
- Laut internen Google-Unterlagen bietet TPUv7 im Vergleich zu TPUv6e die doppelte Leistung pro Watt
- Auch Nvidia-CEO Jensen Huang bezeichnete die TPU als einen „besonderen Fall“ und beobachtet sie aufmerksam
Probleme, die den TPU-Einsatz behindern
- Die erste Hürde ist das Ökosystem (CUDA-Dominanz)
- Sowohl an Universitäten als auch in der Industrie sind Ausbildung und Entwicklung stark auf CUDA ausgerichtet
- TPUs fokussieren sich auf JAX und TensorFlow; die Unterstützung für PyTorch wurde vergleichsweise spät ausgebaut
- Auch die Verbreitung von Multi-Cloud-Strategien wirkt einschränkend
- Da die Daten in den meisten Unternehmen auf AWS, Azure und GCP verteilt sind und die Kosten für Datenabzug (Egress) hoch sind, sind GPU-basierte Workloads flexibler
- TPU ist auf GCP beschränkt, Nvidia ist in allen drei großen Clouds verfügbar
- Wer sich für TPU entscheidet, trägt bei Preisänderungen oder veränderten Rahmenbedingungen sehr hohe Rewrite-Kosten
- Google hat erst in jüngster Zeit seine Organisation für externen Vertrieb und breitere Verbreitung ausgebaut; einige aktuelle und ehemalige Mitarbeitende sprechen von künftigen externen Liefermöglichkeiten etwa über Neoclouds
Der strategische Wert von TPU und Google Cloud
- In der KI-Ära wandelt sich die Cloud-Industrie von einer Hochmargenstruktur (50–70 %) zu niedrigeren Margen (20–35 %)
- Ursache ist der Kostendruck durch Nvidias Marge von 75 %
- Nur Anbieter mit eigenem ASIC, insbesondere einer TPU, können voraussichtlich zu traditionellen Cloud-Margen im Bereich von 50 % zurückkehren
- Googles Vorteile
- Die TPU ist der am weitesten ausgereifte ASIC für die Cloud
- Google übernimmt den Frontend-Teil des Chipdesigns einschließlich RTL weitgehend intern
- Broadcom verantwortet nur das physische Design (Backend), und seine Margenstruktur liegt unter der von Nvidia, was die Kostenwettbewerbsfähigkeit der TPU stärkt
- Google verfügt über den gesamten Software-Optimierungs-Stack und kann damit die Hardwareleistung maximieren
- Auf TPU-Basis werden wichtige Modelle wie Gemini 3 trainiert und für Inferenz genutzt
- Auch in Googles internen KI-Diensten wird der TPU-Einsatz ausgeweitet
- SemiAnalysis bewertet „Googles TPU der 7. Generation als auf Augenhöhe mit Nvidia Blackwell“
- Die TPU gilt als langfristiger Wettbewerbsvorteil für GCP und als Schlüsselfaktor für den Ausbau von Marktanteilen im KI-Infrastrukturmarkt
1 Kommentare
Hacker-News-Kommentare
Googles eigentliche Waffe ist nicht das TPU-Silizium selbst, sondern die massive Parallel-Skalierbarkeit über OCS-(Optical Circuit Switch)-Interconnects
Laut The Next Platform lassen sich 9.216 Ironwood-TPUs verbinden und dabei 1,77 PB HBM-Speicher nutzen. Das ist im Vergleich zu Nvidias rackskaligem System auf Blackwell-GPU-Basis (20,7 TB HBM) eine überwältigende Größenordnung
Nvidia ist auf Ebene einzelner Chips überlegen, hat aber bei groß angelegtem verteiltem Training oder Inferenz nichts, was mit Googles Skalierbarkeit per optischer Schaltung mithalten kann
Die meisten Unternehmen müssen weder Hardware selbst kaufen noch Modelle selbst trainieren, sondern können stattdessen so etwas wie einen von Google bereitgestellten AI-App-Store nutzen
Mixture-of-Experts-Modelle haben zum Beispiel viel all-to-all-Kommunikation, weshalb NVLink dafür deutlich effizienter ist
Link zum offiziellen Nvidia-Tweet
Für Modellparallelisierung sind schnelle, kleine Netzwerke von Vorteil, für Datenparallelisierung große Netzwerke. Wegen dieses Gleichgewichts gewinnt derzeit Nvidia
Gemini 3 Pro ist bereits fast veraltet. Google hat zwar viel mehr Ressourcen als Anthropic, aber wenn die Hardware die Geheimwaffe wäre, hätte das Unternehmen den Markt längst beherrschen müssen
Die Realität sieht jedoch anders aus
Es gibt die Ansicht, dass CUDA zwar fürs Training wichtig ist, in der Inferenzphase aber weniger wichtig
Inferenz ist dagegen ein einfacher Prozess, bei dem feste Gewichte wiederholt angewendet werden, sodass TPUs effizienter sein können
Es gibt keinen Grund, warum Nvidia keine spezialisierten Chips wie TPUs bauen könnte
Nvidia lässt bei TSMC fertigen und verkauft teuer weiter, während Google durch Eigennutzung die Marge einspart
Es gibt einen Reuters-Bericht, wonach Meta über Investitionen in Höhe von mehreren Milliarden Dollar in Google-Chips verhandelt
ASICs für LLMs sind viel komplexer als ASICs für Krypto. Bei Krypto muss nur ein fester Hash-Algorithmus verarbeitet werden, LLMs entwickeln sich dagegen ständig weiter
Es ist in diesem Kontext etwas unklar, was TPUs genau bedeuten
Es wäre wünschenswert, mehr Optionen für eigenständige TPUs für Privatnutzer zu haben. Derzeit ist Coral aus dem Jahr 2019 praktisch die einzige Wahl
Diese Debatte ist so akademisch wie RISC vs. CISC. Auch Nvidia-GPUs werden letztlich dafür gebaut, dasselbe zu tun wie TPUs
Selbst innerhalb von Google könnte der Unterschied in fünf Jahren nicht mehr groß sein
Google profitiert von TPUs, aber externe Entwickler haben keinen direkten Vorteil davon
Microsofts Maia, Rechenzentrums-Chips von AMD/NVIDIA sowie Übernahmen von Netzwerkspezialisten zeigen, dass alle in dieselbe Richtung gehen
Google liegt vorn, aber am Ende wird es ein Konvergenzwettbewerb sein
Sparse Modelle können bei gleicher Qualität den Rechenaufwand und Speicherbedarf um das 16-Fache reduzieren
TPUs sind bei der Verarbeitung spärlicher Matrizen schwächer, dafür aber stark beim Training dichter Modelle
TPU-Systemarchitektur-Dokument
Einführung in OpenXLA SparseCore
Letztlich bleibt die Frage, wo die Ziellinie dieses Wettbewerbs liegt oder wo sein Boden ist