7 Punkte von GN⁺ 2025-11-28 | 1 Kommentare | Auf WhatsApp teilen
  • Google TPU ist ein spezialisierter ASIC-Chip, der für die Verarbeitung großer KI-Inferenzlasten entwickelt wurde und gegenüber GPUs Vorteile bei Effizienz und Kostenwettbewerbsfähigkeit bietet
  • Das zentrale Unterscheidungsmerkmal ist die Systolic-Array-Architektur, die Speicherzugriffe minimiert und die Recheneffizienz (Operations per Joule) maximiert
  • Die neueste TPUv7 (Ironwood) bietet im Vergleich zur Vorgängergeneration sprunghafte Verbesserungen bei Leistung und Speicherbandbreite und erreicht ein Leistungsniveau, das mit der Nvidia-Blackwell-GPU vergleichbar ist
  • Die Einschränkungen des TPU-Ökosystems und die exklusive Bereitstellung über GCP sind die größten Hürden für eine breitere Verbreitung, doch Google baut seine Organisation um und verstärkt den Support, um externe Kunden stärker zu adressieren
  • Durch die Wiederherstellung von Cloud-Margen und eine stärkere Wettbewerbsposition mit eigenen Chips könnte Google langfristig zu einem zentralen Gewinner des KI-Infrastrukturmarkts werden

Geschichte der TPU und Hintergrund ihrer Entwicklung

  • 2013 kam Google zu dem Ergebnis, dass aufgrund der steigenden Nutzung der Sprachsuche die Rechenzentrumskapazität verdoppelt werden müsste
    • Mit herkömmlichen CPUs und GPUs ließ sich Deep-Learning-Rechenarbeit (groß angelegte Matrixmultiplikation) nicht effizient genug verarbeiten
  • Daraufhin entschied sich Google zur Entwicklung eines ASIC speziell für TensorFlow-Neuronale-Netze und brachte innerhalb von 15 Monaten Silizium in den Rechenzentren zum Einsatz
  • 2015 wurde die TPU bereits in wichtigen Diensten wie Google Maps, Photos und Translate eingesetzt
  • Auf der Google I/O 2016 wurde sie offiziell vorgestellt; seitdem hat sich die TPU zu einer zentralen Infrastruktur für die Senkung von KI-Inferenzkosten entwickelt

Strukturelle Unterschiede zwischen TPU und GPU

  • Die GPU ist ein allgemeiner Parallelprozessor, die TPU hingegen eine domänenspezifische Architektur
    • GPUs wurden für Grafikverarbeitung entwickelt und enthalten komplexe Steuerlogik wie Caches und Branch Prediction
    • Die TPU verzichtet darauf und minimiert mit einer Systolic-Array-Struktur den Datenverkehr
  • Das Systolic Array der TPU lädt Daten einmal und leitet sie dann in einem kontinuierlichen Rechenfluss weiter, wodurch der Von-Neumann-Flaschenhals entschärft wird
  • Verbesserungen bei Ironwood (7. Generation)
    • Verbesserter SparseCore steigert die Effizienz bei der Verarbeitung großer Embeddings
    • HBM-Kapazität 192 GB, Bandbreite 7.370 GB/s
    • Verbesserte Inter-Chip Interconnect (ICI) mit bis zu 1,2 TB/s Bandbreite
  • Google baut große TPU-Pods mit Optical Circuit Switch (OCS) und einem 3D-Torus-Netzwerk
    • Die Energieeffizienz ist hoch, die Flexibilität jedoch geringer als bei InfiniBand

Leistungsvergleich TPU vs. GPU

  • TPUv7 (BF16 4.614 TFLOPS) gegenüber TPUv5p (459 TFLOPS) bedeutet nahezu eine Verzehnfachung der Leistung
  • Zusammenfassung von Brancheninterviews
    • Die TPU liegt bei Energieeffizienz pro Leistung und Kosteneffizienz vorn
    • In bestimmten Anwendungen wird eine 1,4-fach höhere Leistung pro Dollar erreicht
    • TPUv6 bietet gegenüber GPUs einen Effizienzvorteil von 60–65 %, frühere Generationen lagen bei 40–45 %
    • TPUs erzeugen weniger Abwärme und verbrauchen weniger Strom, wodurch auch die Umweltbelastung geringer ist
  • Einige Kunden können mit TPU-Pods die Kosten auf ein Fünftel senken
  • Aufgrund der ASIC-Struktur werden Effekte wie 30 % geringere Größe und 50 % weniger Stromverbrauch genannt
  • Laut internen Google-Unterlagen bietet TPUv7 im Vergleich zu TPUv6e die doppelte Leistung pro Watt
  • Auch Nvidia-CEO Jensen Huang bezeichnete die TPU als einen „besonderen Fall“ und beobachtet sie aufmerksam

Probleme, die den TPU-Einsatz behindern

  • Die erste Hürde ist das Ökosystem (CUDA-Dominanz)
    • Sowohl an Universitäten als auch in der Industrie sind Ausbildung und Entwicklung stark auf CUDA ausgerichtet
    • TPUs fokussieren sich auf JAX und TensorFlow; die Unterstützung für PyTorch wurde vergleichsweise spät ausgebaut
  • Auch die Verbreitung von Multi-Cloud-Strategien wirkt einschränkend
    • Da die Daten in den meisten Unternehmen auf AWS, Azure und GCP verteilt sind und die Kosten für Datenabzug (Egress) hoch sind, sind GPU-basierte Workloads flexibler
    • TPU ist auf GCP beschränkt, Nvidia ist in allen drei großen Clouds verfügbar
  • Wer sich für TPU entscheidet, trägt bei Preisänderungen oder veränderten Rahmenbedingungen sehr hohe Rewrite-Kosten
  • Google hat erst in jüngster Zeit seine Organisation für externen Vertrieb und breitere Verbreitung ausgebaut; einige aktuelle und ehemalige Mitarbeitende sprechen von künftigen externen Liefermöglichkeiten etwa über Neoclouds

Der strategische Wert von TPU und Google Cloud

  • In der KI-Ära wandelt sich die Cloud-Industrie von einer Hochmargenstruktur (50–70 %) zu niedrigeren Margen (20–35 %)
    • Ursache ist der Kostendruck durch Nvidias Marge von 75 %
  • Nur Anbieter mit eigenem ASIC, insbesondere einer TPU, können voraussichtlich zu traditionellen Cloud-Margen im Bereich von 50 % zurückkehren
  • Googles Vorteile
    • Die TPU ist der am weitesten ausgereifte ASIC für die Cloud
    • Google übernimmt den Frontend-Teil des Chipdesigns einschließlich RTL weitgehend intern
    • Broadcom verantwortet nur das physische Design (Backend), und seine Margenstruktur liegt unter der von Nvidia, was die Kostenwettbewerbsfähigkeit der TPU stärkt
    • Google verfügt über den gesamten Software-Optimierungs-Stack und kann damit die Hardwareleistung maximieren
  • Auf TPU-Basis werden wichtige Modelle wie Gemini 3 trainiert und für Inferenz genutzt
    • Auch in Googles internen KI-Diensten wird der TPU-Einsatz ausgeweitet
  • SemiAnalysis bewertet „Googles TPU der 7. Generation als auf Augenhöhe mit Nvidia Blackwell“
  • Die TPU gilt als langfristiger Wettbewerbsvorteil für GCP und als Schlüsselfaktor für den Ausbau von Marktanteilen im KI-Infrastrukturmarkt

1 Kommentare

 
GN⁺ 2025-11-28
Hacker-News-Kommentare
  • Googles eigentliche Waffe ist nicht das TPU-Silizium selbst, sondern die massive Parallel-Skalierbarkeit über OCS-(Optical Circuit Switch)-Interconnects
    Laut The Next Platform lassen sich 9.216 Ironwood-TPUs verbinden und dabei 1,77 PB HBM-Speicher nutzen. Das ist im Vergleich zu Nvidias rackskaligem System auf Blackwell-GPU-Basis (20,7 TB HBM) eine überwältigende Größenordnung
    Nvidia ist auf Ebene einzelner Chips überlegen, hat aber bei groß angelegtem verteiltem Training oder Inferenz nichts, was mit Googles Skalierbarkeit per optischer Schaltung mithalten kann

    • Google besitzt den gesamten vertikal integrierten Stack. Dadurch kann das Unternehmen AI-Services im Cloud-Maßstab deutlich günstiger und zugleich profitabler anbieten
      Die meisten Unternehmen müssen weder Hardware selbst kaufen noch Modelle selbst trainieren, sondern können stattdessen so etwas wie einen von Google bereitgestellten AI-App-Store nutzen
    • Tatsächlich unterscheiden sich die Netzwerkstrukturen der beiden Systeme komplett. Nvidias NVLink ist ein all-to-all Switch-Fabric, TPUs verwenden eine 3D-Torus-Struktur
      Mixture-of-Experts-Modelle haben zum Beispiel viel all-to-all-Kommunikation, weshalb NVLink dafür deutlich effizienter ist
    • Nvidia veröffentlicht weiterhin Tweets mit der Behauptung, die eigene Technik sei besser
      Link zum offiziellen Nvidia-Tweet
    • Wenn Googles Behauptungen stimmen, müsste das Unternehmen die MLPerf-Benchmarks klar dominieren, tut es aber nicht
      Für Modellparallelisierung sind schnelle, kleine Netzwerke von Vorteil, für Datenparallelisierung große Netzwerke. Wegen dieses Gleichgewichts gewinnt derzeit Nvidia
    • Um auf die gleiche Speicherkapazität zu kommen, braucht Google 100-mal so viele Chips
  • Gemini 3 Pro ist bereits fast veraltet. Google hat zwar viel mehr Ressourcen als Anthropic, aber wenn die Hardware die Geheimwaffe wäre, hätte das Unternehmen den Markt längst beherrschen müssen
    Die Realität sieht jedoch anders aus

    1. Hardware effizient auszunutzen ist schwierig, und wenn die Optimierung abgeschlossen ist, ist man oft schon beim nächsten Modell
    2. Für die meisten Unternehmen lässt sich das Problem mit Geld lösen. Auch mit H100 läuft es gut genug
    3. Schon neue Forschungsmethoden allein können die Modellleistung stark verbessern
    4. Die Modellentwicklung beinhaltet weiterhin viel menschliche Arbeit, etwa bei Datensatzbereinigung und Evaluierung
    5. Maßgeschneiderte Hardware bringt maßgeschneiderte Probleme mit sich. Antworten auf TPU-Cluster-Probleme findet man nicht auf Stack Overflow
  • Es gibt die Ansicht, dass CUDA zwar fürs Training wichtig ist, in der Inferenzphase aber weniger wichtig

    • NVIDIA-Chips sind allgemeiner einsetzbar. Während des Trainings braucht man viele Funktionen wie Spezialoperationen wie sin und cos, das Speichern von Zwischenergebnissen und die Verarbeitung von Gradienten
      Inferenz ist dagegen ein einfacher Prozess, bei dem feste Gewichte wiederholt angewendet werden, sodass TPUs effizienter sein können
    • Der Markt für Trainingschips könnte eine Blase sein, der Inferenzmarkt ist jedoch viel größer. Wenn die Modellleistung irgendwann gut genug ist, wird die Trainingsnachfrage sinken und stromeffiziente Inferenzsysteme werden zum Mainstream
    • CUDA ist vor allem wegen der Abhängigkeit vom Ökosystem wichtig. Die meiste Software fürs Training wurde auf Basis von CUDA entwickelt
    • Training ist der Prozess, ein riesiges Problem zu zerlegen und Datenabhängigkeiten zu verwalten, während Inferenz aus unabhängigen kleinen Problemen besteht
    • CUDA bietet eine viel bessere Developer Experience. Wenn Forschungsproduktivität entscheidend ist, ist das ausschlaggebend
  • Es gibt keinen Grund, warum Nvidia keine spezialisierten Chips wie TPUs bauen könnte

    • Nvidia wird am Ende wohl genau das tun. Der Unterschied ist nur, dass Google als Chipdesigner und AI-Unternehmen sämtliche Gewinne selbst einstreicht
      Nvidia lässt bei TSMC fertigen und verkauft teuer weiter, während Google durch Eigennutzung die Marge einspart
    • DeepMind arbeitet direkt mit dem TPU-Team zusammen und entwirft projektspezifische Chips. OpenAI hat aus demselben Grund ebenfalls eigene Chips angekündigt, aber das ist extrem kapitalintensiv
    • TPUs sind günstiger als NVidia-GPUs und für den internen Gebrauch bei Google vertikal integriert
    • Das Risiko für Nvidia ist weniger eine existenzielle Krise als ein Rückgang der Gewinnmargen. Selbst wenn sich die Chipverkäufe ver-100-fachen, sinkt die Marktkapitalisierung, wenn die Marge auf 5 % fällt
    • Tatsächlich entwickelt sich Nvidia mit den Tensor Cores bereits in genau diese Richtung
  • Es gibt einen Reuters-Bericht, wonach Meta über Investitionen in Höhe von mehreren Milliarden Dollar in Google-Chips verhandelt

  • ASICs für LLMs sind viel komplexer als ASICs für Krypto. Bei Krypto muss nur ein fester Hash-Algorithmus verarbeitet werden, LLMs entwickeln sich dagegen ständig weiter
    Es ist in diesem Kontext etwas unklar, was TPUs genau bedeuten

    • Bei LLMs sind Speicher- und Interconnect-Bandbreite entscheidend, während Krypto zu 100 % rechenzentriert ist
    • Die meisten LLMs basieren vor allem auf Matrixmultiplikation, und TPUs beschleunigen genau diese. Auch PyTorch unterstützt TPUs
    • Auch ein ASIC kann programmierbar sein. Eine TPU muss verschiedene Modelle ausführen können und ist daher nicht mit einem fest verdrahteten Chip gleichzusetzen
    • Die LLM-Architektur verändert sich zwar, aber gemeinsame Bausteine wie Matrixoperationen und Gleitkommatypen bleiben gleich. In diesem Sinn sind TPUs praktisch ASICs für LLMs
    • Auch Krypto verändert sich. Monero verwendet zum Beispiel CPU-artige Strukturen, um ASICs zu verhindern
  • Es wäre wünschenswert, mehr Optionen für eigenständige TPUs für Privatnutzer zu haben. Derzeit ist Coral aus dem Jahr 2019 praktisch die einzige Wahl

  • Diese Debatte ist so akademisch wie RISC vs. CISC. Auch Nvidia-GPUs werden letztlich dafür gebaut, dasselbe zu tun wie TPUs
    Selbst innerhalb von Google könnte der Unterschied in fünf Jahren nicht mehr groß sein
    Google profitiert von TPUs, aber externe Entwickler haben keinen direkten Vorteil davon

    • Es stimmt zwar, dass Google TPUs nicht verkauft, aber auch andere Unternehmen entwickeln inzwischen eigene Chips
      Microsofts Maia, Rechenzentrums-Chips von AMD/NVIDIA sowie Übernahmen von Netzwerkspezialisten zeigen, dass alle in dieselbe Richtung gehen
      Google liegt vorn, aber am Ende wird es ein Konvergenzwettbewerb sein
  • Sparse Modelle können bei gleicher Qualität den Rechenaufwand und Speicherbedarf um das 16-Fache reduzieren
    TPUs sind bei der Verarbeitung spärlicher Matrizen schwächer, dafür aber stark beim Training dichter Modelle

  • Letztlich bleibt die Frage, wo die Ziellinie dieses Wettbewerbs liegt oder wo sein Boden ist