TPU vs. GPU und warum Google den KI-Wettbewerb langfristig gewinnen könnte

(uncoveralpha.com)

7 Punkte von GN⁺ 2025-11-28 | 1 Kommentare | Auf WhatsApp teilen

Google TPU ist ein spezialisierter ASIC-Chip, der für die Verarbeitung großer KI-Inferenzlasten entwickelt wurde und gegenüber GPUs Vorteile bei Effizienz und Kostenwettbewerbsfähigkeit bietet
Das zentrale Unterscheidungsmerkmal ist die Systolic-Array-Architektur, die Speicherzugriffe minimiert und die Recheneffizienz (Operations per Joule) maximiert
Die neueste TPUv7 (Ironwood) bietet im Vergleich zur Vorgängergeneration sprunghafte Verbesserungen bei Leistung und Speicherbandbreite und erreicht ein Leistungsniveau, das mit der Nvidia-Blackwell-GPU vergleichbar ist
Die Einschränkungen des TPU-Ökosystems und die exklusive Bereitstellung über GCP sind die größten Hürden für eine breitere Verbreitung, doch Google baut seine Organisation um und verstärkt den Support, um externe Kunden stärker zu adressieren
Durch die Wiederherstellung von Cloud-Margen und eine stärkere Wettbewerbsposition mit eigenen Chips könnte Google langfristig zu einem zentralen Gewinner des KI-Infrastrukturmarkts werden

Geschichte der TPU und Hintergrund ihrer Entwicklung

2013 kam Google zu dem Ergebnis, dass aufgrund der steigenden Nutzung der Sprachsuche die Rechenzentrumskapazität verdoppelt werden müsste
- Mit herkömmlichen CPUs und GPUs ließ sich Deep-Learning-Rechenarbeit (groß angelegte Matrixmultiplikation) nicht effizient genug verarbeiten
Daraufhin entschied sich Google zur Entwicklung eines ASIC speziell für TensorFlow-Neuronale-Netze und brachte innerhalb von 15 Monaten Silizium in den Rechenzentren zum Einsatz
2015 wurde die TPU bereits in wichtigen Diensten wie Google Maps, Photos und Translate eingesetzt
Auf der Google I/O 2016 wurde sie offiziell vorgestellt; seitdem hat sich die TPU zu einer zentralen Infrastruktur für die Senkung von KI-Inferenzkosten entwickelt

Strukturelle Unterschiede zwischen TPU und GPU

Die GPU ist ein allgemeiner Parallelprozessor, die TPU hingegen eine domänenspezifische Architektur
- GPUs wurden für Grafikverarbeitung entwickelt und enthalten komplexe Steuerlogik wie Caches und Branch Prediction
- Die TPU verzichtet darauf und minimiert mit einer Systolic-Array-Struktur den Datenverkehr
Das Systolic Array der TPU lädt Daten einmal und leitet sie dann in einem kontinuierlichen Rechenfluss weiter, wodurch der Von-Neumann-Flaschenhals entschärft wird
Verbesserungen bei Ironwood (7. Generation)
- Verbesserter SparseCore steigert die Effizienz bei der Verarbeitung großer Embeddings
- HBM-Kapazität 192 GB, Bandbreite 7.370 GB/s
- Verbesserte Inter-Chip Interconnect (ICI) mit bis zu 1,2 TB/s Bandbreite
Google baut große TPU-Pods mit Optical Circuit Switch (OCS) und einem 3D-Torus-Netzwerk
- Die Energieeffizienz ist hoch, die Flexibilität jedoch geringer als bei InfiniBand

Leistungsvergleich TPU vs. GPU

TPUv7 (BF16 4.614 TFLOPS) gegenüber TPUv5p (459 TFLOPS) bedeutet nahezu eine Verzehnfachung der Leistung
Zusammenfassung von Brancheninterviews
- Die TPU liegt bei Energieeffizienz pro Leistung und Kosteneffizienz vorn
- In bestimmten Anwendungen wird eine 1,4-fach höhere Leistung pro Dollar erreicht
- TPUv6 bietet gegenüber GPUs einen Effizienzvorteil von 60–65 %, frühere Generationen lagen bei 40–45 %
- TPUs erzeugen weniger Abwärme und verbrauchen weniger Strom, wodurch auch die Umweltbelastung geringer ist
Einige Kunden können mit TPU-Pods die Kosten auf ein Fünftel senken
Aufgrund der ASIC-Struktur werden Effekte wie 30 % geringere Größe und 50 % weniger Stromverbrauch genannt
Laut internen Google-Unterlagen bietet TPUv7 im Vergleich zu TPUv6e die doppelte Leistung pro Watt
Auch Nvidia-CEO Jensen Huang bezeichnete die TPU als einen „besonderen Fall“ und beobachtet sie aufmerksam

Probleme, die den TPU-Einsatz behindern

Die erste Hürde ist das Ökosystem (CUDA-Dominanz)
- Sowohl an Universitäten als auch in der Industrie sind Ausbildung und Entwicklung stark auf CUDA ausgerichtet
- TPUs fokussieren sich auf JAX und TensorFlow; die Unterstützung für PyTorch wurde vergleichsweise spät ausgebaut
Auch die Verbreitung von Multi-Cloud-Strategien wirkt einschränkend
- Da die Daten in den meisten Unternehmen auf AWS, Azure und GCP verteilt sind und die Kosten für Datenabzug (Egress) hoch sind, sind GPU-basierte Workloads flexibler
- TPU ist auf GCP beschränkt, Nvidia ist in allen drei großen Clouds verfügbar
Wer sich für TPU entscheidet, trägt bei Preisänderungen oder veränderten Rahmenbedingungen sehr hohe Rewrite-Kosten
Google hat erst in jüngster Zeit seine Organisation für externen Vertrieb und breitere Verbreitung ausgebaut; einige aktuelle und ehemalige Mitarbeitende sprechen von künftigen externen Liefermöglichkeiten etwa über Neoclouds

Der strategische Wert von TPU und Google Cloud

In der KI-Ära wandelt sich die Cloud-Industrie von einer Hochmargenstruktur (50–70 %) zu niedrigeren Margen (20–35 %)
- Ursache ist der Kostendruck durch Nvidias Marge von 75 %
Nur Anbieter mit eigenem ASIC, insbesondere einer TPU, können voraussichtlich zu traditionellen Cloud-Margen im Bereich von 50 % zurückkehren
Googles Vorteile
- Die TPU ist der am weitesten ausgereifte ASIC für die Cloud
- Google übernimmt den Frontend-Teil des Chipdesigns einschließlich RTL weitgehend intern
- Broadcom verantwortet nur das physische Design (Backend), und seine Margenstruktur liegt unter der von Nvidia, was die Kostenwettbewerbsfähigkeit der TPU stärkt
- Google verfügt über den gesamten Software-Optimierungs-Stack und kann damit die Hardwareleistung maximieren
Auf TPU-Basis werden wichtige Modelle wie Gemini 3 trainiert und für Inferenz genutzt
- Auch in Googles internen KI-Diensten wird der TPU-Einsatz ausgeweitet
SemiAnalysis bewertet „Googles TPU der 7. Generation als auf Augenhöhe mit Nvidia Blackwell“
Die TPU gilt als langfristiger Wettbewerbsvorteil für GCP und als Schlüsselfaktor für den Ausbau von Marktanteilen im KI-Infrastrukturmarkt

1 Kommentare

GN⁺ 2025-11-28

Hacker-News-Kommentare

Googles eigentliche Waffe ist nicht das TPU-Silizium selbst, sondern die massive Parallel-Skalierbarkeit über OCS-(Optical Circuit Switch)-Interconnects
Laut The Next Platform lassen sich 9.216 Ironwood-TPUs verbinden und dabei 1,77 PB HBM-Speicher nutzen. Das ist im Vergleich zu Nvidias rackskaligem System auf Blackwell-GPU-Basis (20,7 TB HBM) eine überwältigende Größenordnung
Nvidia ist auf Ebene einzelner Chips überlegen, hat aber bei groß angelegtem verteiltem Training oder Inferenz nichts, was mit Googles Skalierbarkeit per optischer Schaltung mithalten kann
- Google besitzt den gesamten vertikal integrierten Stack. Dadurch kann das Unternehmen AI-Services im Cloud-Maßstab deutlich günstiger und zugleich profitabler anbieten
  Die meisten Unternehmen müssen weder Hardware selbst kaufen noch Modelle selbst trainieren, sondern können stattdessen so etwas wie einen von Google bereitgestellten AI-App-Store nutzen
- Tatsächlich unterscheiden sich die Netzwerkstrukturen der beiden Systeme komplett. Nvidias NVLink ist ein all-to-all Switch-Fabric, TPUs verwenden eine 3D-Torus-Struktur
  Mixture-of-Experts-Modelle haben zum Beispiel viel all-to-all-Kommunikation, weshalb NVLink dafür deutlich effizienter ist
- Nvidia veröffentlicht weiterhin Tweets mit der Behauptung, die eigene Technik sei besser
  Link zum offiziellen Nvidia-Tweet
- Wenn Googles Behauptungen stimmen, müsste das Unternehmen die MLPerf-Benchmarks klar dominieren, tut es aber nicht
  Für Modellparallelisierung sind schnelle, kleine Netzwerke von Vorteil, für Datenparallelisierung große Netzwerke. Wegen dieses Gleichgewichts gewinnt derzeit Nvidia
- Um auf die gleiche Speicherkapazität zu kommen, braucht Google 100-mal so viele Chips
Gemini 3 Pro ist bereits fast veraltet. Google hat zwar viel mehr Ressourcen als Anthropic, aber wenn die Hardware die Geheimwaffe wäre, hätte das Unternehmen den Markt längst beherrschen müssen
Die Realität sieht jedoch anders aus
1. Hardware effizient auszunutzen ist schwierig, und wenn die Optimierung abgeschlossen ist, ist man oft schon beim nächsten Modell
2. Für die meisten Unternehmen lässt sich das Problem mit Geld lösen. Auch mit H100 läuft es gut genug
3. Schon neue Forschungsmethoden allein können die Modellleistung stark verbessern
4. Die Modellentwicklung beinhaltet weiterhin viel menschliche Arbeit, etwa bei Datensatzbereinigung und Evaluierung
5. Maßgeschneiderte Hardware bringt maßgeschneiderte Probleme mit sich. Antworten auf TPU-Cluster-Probleme findet man nicht auf Stack Overflow
Es gibt die Ansicht, dass CUDA zwar fürs Training wichtig ist, in der Inferenzphase aber weniger wichtig
- NVIDIA-Chips sind allgemeiner einsetzbar. Während des Trainings braucht man viele Funktionen wie Spezialoperationen wie sin und cos, das Speichern von Zwischenergebnissen und die Verarbeitung von Gradienten
  Inferenz ist dagegen ein einfacher Prozess, bei dem feste Gewichte wiederholt angewendet werden, sodass TPUs effizienter sein können
- Der Markt für Trainingschips könnte eine Blase sein, der Inferenzmarkt ist jedoch viel größer. Wenn die Modellleistung irgendwann gut genug ist, wird die Trainingsnachfrage sinken und stromeffiziente Inferenzsysteme werden zum Mainstream
- CUDA ist vor allem wegen der Abhängigkeit vom Ökosystem wichtig. Die meiste Software fürs Training wurde auf Basis von CUDA entwickelt
- Training ist der Prozess, ein riesiges Problem zu zerlegen und Datenabhängigkeiten zu verwalten, während Inferenz aus unabhängigen kleinen Problemen besteht
- CUDA bietet eine viel bessere Developer Experience. Wenn Forschungsproduktivität entscheidend ist, ist das ausschlaggebend
Es gibt keinen Grund, warum Nvidia keine spezialisierten Chips wie TPUs bauen könnte
- Nvidia wird am Ende wohl genau das tun. Der Unterschied ist nur, dass Google als Chipdesigner und AI-Unternehmen sämtliche Gewinne selbst einstreicht
  Nvidia lässt bei TSMC fertigen und verkauft teuer weiter, während Google durch Eigennutzung die Marge einspart
- DeepMind arbeitet direkt mit dem TPU-Team zusammen und entwirft projektspezifische Chips. OpenAI hat aus demselben Grund ebenfalls eigene Chips angekündigt, aber das ist extrem kapitalintensiv
- TPUs sind günstiger als NVidia-GPUs und für den internen Gebrauch bei Google vertikal integriert
- Das Risiko für Nvidia ist weniger eine existenzielle Krise als ein Rückgang der Gewinnmargen. Selbst wenn sich die Chipverkäufe ver-100-fachen, sinkt die Marktkapitalisierung, wenn die Marge auf 5 % fällt
- Tatsächlich entwickelt sich Nvidia mit den Tensor Cores bereits in genau diese Richtung
Es gibt einen Reuters-Bericht, wonach Meta über Investitionen in Höhe von mehreren Milliarden Dollar in Google-Chips verhandelt
ASICs für LLMs sind viel komplexer als ASICs für Krypto. Bei Krypto muss nur ein fester Hash-Algorithmus verarbeitet werden, LLMs entwickeln sich dagegen ständig weiter
Es ist in diesem Kontext etwas unklar, was TPUs genau bedeuten
- Bei LLMs sind Speicher- und Interconnect-Bandbreite entscheidend, während Krypto zu 100 % rechenzentriert ist
- Die meisten LLMs basieren vor allem auf Matrixmultiplikation, und TPUs beschleunigen genau diese. Auch PyTorch unterstützt TPUs
- Auch ein ASIC kann programmierbar sein. Eine TPU muss verschiedene Modelle ausführen können und ist daher nicht mit einem fest verdrahteten Chip gleichzusetzen
- Die LLM-Architektur verändert sich zwar, aber gemeinsame Bausteine wie Matrixoperationen und Gleitkommatypen bleiben gleich. In diesem Sinn sind TPUs praktisch ASICs für LLMs
- Auch Krypto verändert sich. Monero verwendet zum Beispiel CPU-artige Strukturen, um ASICs zu verhindern
Es wäre wünschenswert, mehr Optionen für eigenständige TPUs für Privatnutzer zu haben. Derzeit ist Coral aus dem Jahr 2019 praktisch die einzige Wahl
Diese Debatte ist so akademisch wie RISC vs. CISC. Auch Nvidia-GPUs werden letztlich dafür gebaut, dasselbe zu tun wie TPUs
Selbst innerhalb von Google könnte der Unterschied in fünf Jahren nicht mehr groß sein
Google profitiert von TPUs, aber externe Entwickler haben keinen direkten Vorteil davon
- Es stimmt zwar, dass Google TPUs nicht verkauft, aber auch andere Unternehmen entwickeln inzwischen eigene Chips
  Microsofts Maia, Rechenzentrums-Chips von AMD/NVIDIA sowie Übernahmen von Netzwerkspezialisten zeigen, dass alle in dieselbe Richtung gehen
  Google liegt vorn, aber am Ende wird es ein Konvergenzwettbewerb sein
Sparse Modelle können bei gleicher Qualität den Rechenaufwand und Speicherbedarf um das 16-Fache reduzieren
TPUs sind bei der Verarbeitung spärlicher Matrizen schwächer, dafür aber stark beim Training dichter Modelle
- Allerdings enthalten TPUs spezielle Hardware namens SparseCore
  TPU-Systemarchitektur-Dokument
  Einführung in OpenXLA SparseCore
Letztlich bleibt die Frage, wo die Ziellinie dieses Wettbewerbs liegt oder wo sein Boden ist

TPU vs. GPU und warum Google den KI-Wettbewerb langfristig gewinnen könnte

Geschichte der TPU und Hintergrund ihrer Entwicklung

Strukturelle Unterschiede zwischen TPU und GPU

Leistungsvergleich TPU vs. GPU

Probleme, die den TPU-Einsatz behindern

Der strategische Wert von TPU und Google Cloud

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare