6 Punkte von GN⁺ 7 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Google hat nach über zehn Jahren TPU-Entwicklung zwei TPUs der 8. Generation vorgestellt und setzt dabei auf jeweils spezialisierte Architekturen: die TPU 8t ausschließlich für das Training großer Modelle und die TPU 8i ausschließlich für schnelle Inferenz
  • TPU 8t skaliert mit einem einzelnen SuperPod auf bis zu 9.600 Chips und 121 ExaFLOPS; die Rechenleistung pro Pod steigt damit gegenüber der vorherigen Generation um etwa das Dreifache
  • TPU 8i wurde mit Fokus auf Speicherbandbreite und Latenz für agentische Inferenz neu entwickelt und erreicht durch größeren On-Chip-SRAM, einen Axion-CPU-Host und Netzwerkverbesserungen für MoE eine um 80 % bessere Preis-Leistung
  • Beide Chips laufen auf Googles selbst entwickeltem Axion CPU auf ARM-Basis als Host und verbessern die Leistung pro Watt gegenüber der vorherigen Generation um bis zu das Doppelte
  • Als Infrastrukturstrategie für ein Zeitalter, in dem KI-Agenten fortlaufend schlussfolgern, planen und ausführen, trennt und optimiert Google Training und Inferenz separat; die allgemeine Verfügbarkeit ist für die zweite Jahreshälfte geplant, nutzbar als Teil von Google AI Hypercomputer

Überblick über die TPU der 8. Generation

  • Auf der Google Cloud Next hat Google die Tensor Processor Unit (TPU) der 8. Generation vorgestellt, bestehend aus zwei Architekturen: TPU 8t für Training und TPU 8i für Inferenz
  • Sie wurden für den Betrieb maßgeschneiderter Supercomputer entwickelt und decken modernstes Modelltraining, Agentenentwicklung und großskalige Inferenz-Workloads gleichermaßen ab
  • Wichtige Foundation-Modelle einschließlich Gemini laufen seit Jahren auf TPUs; die 8. Generation liefert zugleich Skalierung, Effizienz und Leistung für Training, Serving und agentische Workloads
  • Im Zeitalter der KI-Agenten müssen Modelle in einer kontinuierlichen Schleife Probleme erschließen, mehrstufige Workflows ausführen und aus ihren eigenen Handlungen lernen, wodurch neue Anforderungen an die Infrastruktur entstehen
  • Sie wurde in Zusammenarbeit mit Google DeepMind entwickelt, um die anspruchsvollsten KI-Workloads zu bewältigen und sich an weiterentwickelnde Modellarchitekturen anzupassen

Über zehn Jahre Designphilosophie

  • TPUs haben Standards für ML-Supercomputing gesetzt, etwa bei benutzerdefinierten numerischen Operationen, Flüssigkeitskühlung und Custom-Interconnects; die 8. Generation bündelt mehr als zehn Jahre Entwicklung
  • Zentrales Designprinzip: Silizium gemeinsam mit Hardware, Netzwerk und Software — einschließlich Modellarchitekturen und Anwendungsanforderungen — co-designen, um sowohl bei Energieeffizienz als auch bei absoluter Leistung dramatische Fortschritte zu erzielen
  • Als Beispiel für führende Organisationen wird Citadel Securities genannt, die TPUs für eigene KI-Workloads gewählt haben

Warum Training und Inferenz getrennt wurden

  • Hardware-Entwicklungszyklen sind deutlich länger als Software-Zyklen, daher muss bei jeder TPU-Generation vorab abgeschätzt werden, wie sich Technik und Nachfrage bis zum Veröffentlichungszeitpunkt entwickeln
  • Google hat bereits vor Jahren einen steigenden Inferenzbedarf durch die produktive Bereitstellung von Frontier-AI-Modellen erwartet
  • Mit dem Aufstieg von KI-Agenten unterscheiden sich die Anforderungen von Training und Serving zunehmend, weshalb spezialisierte Chips für einzelne Aufgaben der Community mehr Nutzen bringen sollen
  • Die TPU 8t ist mit höherem Rechendurchsatz und mehr Scale-up-Bandbreite auf großskaliges Training optimiert
  • Die TPU 8i ist mit größerer Speicherbandbreite auf latenzempfindliche Inferenz-Workloads optimiert, da sich bei Interaktionen zwischen Agenten selbst kleine Ineffizienzen im großen Maßstab verstärken
  • Beide Chips können unterschiedliche Workloads ausführen, doch die Spezialisierung bringt deutliche Effizienzgewinne

TPU 8t: das Kraftpaket für Training

  • Ziel ist es, Entwicklungszyklen von Frontier-Modellen von Monaten auf Wochen zu verkürzen
  • Kombiniert werden Spitzenwerte bei Rechendurchsatz, gemeinsam genutztem Speicher und Chip-zu-Chip-Bandbreite mit optimaler Energieeffizienz und hoher produktiver Rechenzeit
  • Gegenüber der vorherigen Generation steigt die Rechenleistung pro Pod um etwa das Dreifache
  • Massive Scale

    • Ein einzelner TPU-8t-SuperPod skaliert auf 9.600 Chips und 2 Petabyte gemeinsam genutzten HBM
    • Die Chip-zu-Chip-Bandbreite verdoppelt sich gegenüber der vorherigen Generation
    • Er liefert 121 ExaFLOPS Rechenleistung, sodass selbst die komplexesten Modelle einen einzigen großen Speicherpool nutzen können
  • Maximum Utilization

    • Integrierter 10-mal schnellerer Speicherzugriff
    • Mit TPUDirect werden Daten direkt in die TPU gepullt, um eine maximale Auslastung des End-to-End-Systems sicherzustellen
  • Near-Linear Scaling

    • Das neue Virgo Network in Kombination mit JAX und der Pathways-Software ermöglicht nahezu lineare Skalierung bis auf 1 Million Chips in einem einzelnen logischen Cluster
  • Zuverlässigkeit und Verfügbarkeit

    • Zielwert von über 97 % goodput (nützliche produktive Rechenzeit)
    • Umfassende RAS-Funktionen (Reliability, Availability, Serviceability) enthalten
      • Echtzeit-Telemetrie über Zehntausende Chips hinweg
      • Automatische Erkennung fehlerhafter ICI-Links und Umgehungsrouting ohne Unterbrechung laufender Jobs
      • OCS (Optical Circuit Switching) zur Hardware-Neukonfiguration um Störungen herum ohne menschliches Eingreifen
    • Im Frontier-Trainingsmaßstab sind Hardware-Ausfälle, Netzwerklatenzen und Neustarts von Checkpoints unproduktive Zeit; schon ein Unterschied von 1 Prozentpunkt kann sich in mehreren Trainingstagen niederschlagen

TPU 8i: die Inferenz-Engine

  • Im agentischen Zeitalter erwarten Nutzer, Fragen zu stellen, Aufgaben zu delegieren und Ergebnisse zu erhalten; die TPU 8i ist deshalb für Arbeitsabläufe optimiert, in denen mehrere spezialisierte Agenten in komplexen Flows swarming zusammenarbeiten
  • Um den „Warteraum-Effekt“ zu beseitigen, wurde der Stack neu entworfen und mit vier zentralen Innovationen ausgestattet
  • Breaking the Memory Wall

    • Ausgestattet mit 288 GB HBM und 384 MB On-Chip-SRAM (dreimal so viel wie in der vorherigen Generation)
    • So kann das gesamte aktive Working Set eines Modells on-chip gehalten werden, damit der Prozessor nicht untätig bleibt
  • Effizienz auf Axion-Basis

    • Die Zahl der physischen CPU-Hosts pro Server wurde verdoppelt, eingesetzt wird Googles eigener Axion CPU auf ARM-Basis
    • NUMA-Isolation (Non-Uniform Memory Architecture) optimiert die Gesamtleistung des Systems
  • Skalierung von MoE-Modellen

    • Für moderne Mixture-of-Experts-(MoE)-Modelle wurde die ICI-Bandbreite auf 19,2 Tb/s verdoppelt
    • Die neue Boardfly-Architektur reduziert den maximalen Netzwerkdurchmesser um mehr als 50 % und lässt das System als eine zusammenhängende Einheit mit niedriger Latenz arbeiten
  • Eliminating Lag

    • Die neue On-Chip-CAE (Collectives Acceleration Engine) lagert globale Operationen aus und senkt die On-Chip-Latenz um bis zu das Fünffache
  • Preis-Leistung

    • Gegenüber der vorherigen Generation steigt die Leistung pro Dollar um 80 %, wodurch sich bei gleichen Kosten fast das doppelte Kundenvolumen bedienen lässt

Gemeinsam mit Gemini co-designt, offen für alle

  • Die TPU der 8. Generation ist der neueste Ausdruck einer Co-Design-Philosophie, bei der alle Spezifikationen entwickelt wurden, um die größten Herausforderungen der KI zu lösen
  • Boardfly-Topologie: ausgelegt auf die Kommunikationsanforderungen der derzeit leistungsfähigsten Inferenzmodelle
  • SRAM-Kapazität der TPU 8i: bemessen nach dem KV-Cache-Footprint von Inferenzmodellen im Produktivmaßstab
  • Virgo-Network-Bandbreitenziel: abgeleitet aus den Parallelisierungsanforderungen beim Training von Modellen mit Billionen Parametern
  • Beide Chips laufen erstmals auf Googles eigenem Axion CPU auf ARM-Basis als Host, was nicht nur den Chip, sondern die Optimierung des gesamten Systems ermöglicht
  • Frameworks und Zugänglichkeit

    • Native Unterstützung für JAX, MaxText, PyTorch, SGLang, vLLM
    • Bare-Metal-Zugriff ohne Virtualisierungs-Overhead und mit direktem Zugriff auf die Hardware
    • Open-Source-Beiträge: Referenzimplementierung MaxText, Tunix für Reinforcement Learning und weitere zentrale Pfade von der Entwicklung bis zur produktiven Bereitstellung

Auf Energieeffizienz im großen Maßstab ausgelegt

  • In heutigen Rechenzentren ist nicht nur die Chip-Versorgung, sondern auch Strom ein begrenzender Faktor
  • Die Effizienz wird über den gesamten Stack hinweg optimiert; zum Einsatz kommt ein integriertes Power-Management, das den Stromverbrauch dynamisch an die Echtzeitnachfrage anpasst
  • Sowohl TPU 8t als auch TPU 8i verbessern gegenüber der vorherigen Generation (Ironwood) die Leistung pro Watt um bis zu das Doppelte
  • Effizienz ist nicht nur eine Kennzahl auf Chipebene, sondern ein Systemversprechen vom Silizium bis zum Rechenzentrum
    • Die Netzwerkanbindung ist auf demselben Chip wie die Recheneinheiten integriert, was die Energiekosten für Datenbewegung innerhalb von TPU-Pods deutlich senkt
    • Auch die Rechenzentren wurden gemeinsam mit den TPUs co-designt; die Rechenleistung pro Energieeinheit ist dort gegenüber vor fünf Jahren um das Sechsfache gestiegen
  • Beide Chips werden durch Flüssigkeitskühlung der 4. Generation unterstützt, um Leistungsdichten zu halten, die mit Luftkühlung nicht möglich wären
  • Weil Google den gesamten Stack vom Axion-Host bis zum Beschleuniger kontrolliert, sind systemweite Optimierungen der Energieeffizienz möglich, die bei einer getrennten Entwicklung von Host und Chip nicht erreichbar wären

Infrastruktur für das agentische Zeitalter

  • Jeder große Wandel in der Datenverarbeitung erfordert Infrastrukturinnovationen — das gilt auch für das agentische Zeitalter
  • Die Infrastruktur muss sich an Anforderungen anpassen, bei denen autonome Agenten in einer kontinuierlichen Schleife schlussfolgern, planen, ausführen und lernen
  • TPU 8t und TPU 8i sind Googles Antwort auf diese Herausforderung: zwei spezialisierte Architekturen, die den Bau der leistungsfähigsten KI-Modelle, perfekt orchestrierte Agenten-Schwärme und das Management der komplexesten Inferenzaufgaben neu definieren sollen
  • Beide Chips sollen in der zweiten Jahreshälfte allgemein verfügbar werden
  • Sie werden als Teil von Googles AI Hypercomputer verfügbar sein
    • Ein integrierter Stack aus zweckgebundener Hardware (Compute, Storage, Networking), offener Software (Frameworks, Inferenz-Engines) und flexiblen Nutzungsmodellen (Orchestrierung, Cluster-Management, Bereitstellungsmodelle)

1 Kommentare

 
GN⁺ 7 일 전
Hacker-News-Kommentare
  • Ich hatte das Gefühl, dass Gemini 3 bereits gezeigt hat, wie weit man mit effizienzorientiertem Training kommen kann. Ich schätze, dass Pro und Flash vermutlich 5- bis 10-mal kleiner sind als Modelle in der Größenordnung von Opus oder GPT-5. Tool-Calls brechen oft ab, und bei agentic tasks ist es insgesamt schwach, daher wirkt es so, als fehle beim Feinschliff von Reasoning und Ausführung noch einiges. Trotzdem scheint es bei reinem Problemlösen ohne Tools oder Suche mit Opus und GPT mithalten zu können, während es deutlich kleiner wirkt. Ich denke, Google wird alle überraschen, sobald sie das Prototyping in der Preview-Phase irgendwann abschließen und ein richtiges offizielles Modell veröffentlichen, das die aktuelle SOTA um etwa eine Generation übertrifft. Die bisherigen Modelle wirkten wie Prototypen, die überhastet in GA gedrückt wurden, um sie Investoren zu zeigen und als Proof of Concept ins Produktportfolio zu packen.

    • Ich bin bei dieser Schätzung von 5- bis 10-mal eher skeptisch. Vor allem bei Pro. Es könnte auch sein, dass Google dank der eigenen Hardware einfach größere Modelle günstiger und schneller betreibt. Gemini 3 Pro fühlte sich insgesamt wie das Modell an, das menschlicher Intelligenz am nächsten kommt. Besonders in den Geisteswissenschaften ist es stark, und bei der Fähigkeit, in vielen menschlichen Sprachen natürlich klingenden Text zu erzeugen, ist es meiner Meinung nach praktisch die Nummer 1. Dieser Unterschied wird bei Nischensprachen noch größer, und für mich deutet das eher auf ein größeres als auf ein kleineres Modell hin. In Mathematik und bei agentic tasks ist es klar schwächer, und auch die Gemini-App selbst wirkt so weit zurück, dass sie sich kaum von frühem ChatGPT vor drei Jahren unterscheidet, was die wahrgenommene Leistung zusätzlich schmälert.
    • Dem stimme ich auch zu. Gemini-cli fühlt sich im Vergleich zu CC oder Codex wirklich miserabel an. Trotzdem glaube ich, dass Googles Priorität darin liegt, die beste KI zu bauen, um klassische Suche zu ergänzen oder zu ersetzen. Das ist ihr Kerngeschäft, und bei der Monetarisierung sind sie dafür viel besser positioniert als alle anderen. Bei Nutzerbasis und Query-Volumen haben sie bereits einen enormen Verteilungsvorteil. Ich hoffe nur, dass sie auch Gemini-cli höher priorisieren und den Wettbewerb in diesem Bereich stärker antreiben.
    • Soweit ich mich erinnere, galt Gemini 3 Pro bei seinem ersten Erscheinen als fast gleichauf mit der damaligen Claude-Version. Aber das heutige Gemini 3 fühlt sich ziemlich alt an. Inzwischen sind viele chinesische Modelle erschienen, und Claude wurde mehrfach aktualisiert, sodass es aktuell so wirkt, als ob Google in diesem Bereich etwas stagniert. Natürlich kann es sein, dass sie bald mit einer großen Verbesserung überraschen.
    • Ich finde, Googles Preview-Bezeichnung ist ziemlich willkürlich. Sie dient wohl dazu, Zusagen zu Verfügbarkeit oder Beständigkeit zu vermeiden, und wirkt wie eine PR-Taktik, mit der man Fehlschläge im Nachhinein als Beta-Qualität abtun kann.
    • Ich habe mich bei Gemini immer gefragt, was ich da vielleicht übersehe. Für mich wirkt es bestenfalls wie ein zweitklassiges Modell. Zum Sammeln von Informationen ist es ganz okay, aber für agentic tasks fast nutzlos, und es wirkte oft, als wäre es betrunken. Wenn bei Antigravity die Claude-Credits aufgebraucht sind, fühlt es sich an, als wäre der Tag einfach gelaufen. Die Aussage, es verbrauche viel weniger Tokens, fand ich lustig, weil es sich in meiner Erfahrung oft in Todesschleifen verfangen hat, in denen es nicht einmal das Problem lösen konnte.
  • Ich glaube, wenn man heute große KI machen will, muss man faktisch entweder bei NVidia kaufen oder bei Google mieten. Und Google kann Chips, Engines und Systeme aus der Perspektive des gesamten Rechenzentrums entwerfen und dadurch auch Dinge optimieren, die ein Chip-Anbieter nicht zentralisieren kann. Deshalb vermute ich, dass Googles Systeme bei wirklich großem Maßstab immer kosteneffizienter sein werden. Zur Einordnung: Ich bin unter anderem aus diesem Grund long in GOOG.

    • Ich würde auch gern auf Google setzen, aber wahrscheinlich nur dann, wenn die Gemini-CLI-Erfahrung wenigstens auf dem Niveau von Codex oder Claude läge. Egal wie gut die Hardware ist: Wenn der führende Coding-Agent in eine Schleife gerät, weil er nach dem Turn-End-Token sucht, verliert das massiv an Wert.
    • Ich habe mich gefragt, ob Amazon nicht ähnlich eigene TPU-artige Chips baut.
    • Ich musste an den Spruch denken, man solle keine Burg auf fremdem Land bauen. Am Ende scheint Kaufen bei NVidia die einzig realistische Wahl zu sein, auch wenn das vermutlich nicht optimal ist.
    • Ich stehe dieser Hypothese eher auf der Gegenseite gegenüber. Dafür gibt es zwei Gründe: Erstens scheint Google die Produktion künstlich begrenzt zu haben. Zweitens dürfte TSMC denjenigen bevorzugen, die am meisten für Kapazität zahlen können, also wird Nvidia meiner Ansicht nach die ersten Slots in neuen Fertigungsprozessen bekommen. Außerdem hat GCP höhere operative Margen als Hetzner oder lambdalabs, und es gibt tatsächlich günstigere GPU-Vermieter, sodass Studierende und kleinere Forschende am Ende wohl bei GPUs bleiben.
    • Ich hätte wahrscheinlich auf Google gesetzt, wenn das Management nur etwas inspirierender wäre. Selbst Apple unter Cook war sanfter als zu Jobs’ Zeiten, aber bei Google fühlte es sich an, als wären sie von einer Klippe gefallen. Wenn OpenAI nicht ChatGPT veröffentlicht hätte, hätten sie diese Technologie vielleicht immer noch nur in internen Experimenten liegen lassen. Jetzt wirkt genau das eher wie der Antrieb für die gesamte Chip-F&E.
  • Während andere Unternehmen die Aufmerksamkeit der News-Zyklen auf sich ziehen, scheint Google still und leise an Stärke zu gewinnen und Marktanteile im Consumer-Bereich aufzubauen. Vielleicht weil sie KI von Anfang an vertikal integriert haben, scheinen sie kaum Infrastrukturprobleme zu haben. Eine Zeit lang wirkten sie wie ein erledigtes Unternehmen, jetzt wirken sie eher wie eine Flut, die sich in alle Richtungen ausbreitet.

    • Das Google-Antigravity-Subreddit wirkt allerdings wie das reinste Chaos. https://www.reddit.com/r/GoogleAntigravityIDE/
    • Ich denke, in ein bis zwei Jahren wird der Punkt kommen, an dem Google und Apple am Ende beide profitieren. Sie spielen nicht dieses Wettrennen, in dem man jeden Monat unfertige Produkte herausbringt, um die Unternehmensbewertung zu verdoppeln, sondern können beobachten, nachdenken und sich die Zeit nehmen, wirklich ausgereifte Produkte zu liefern.
    • Googles neueste Open-Modelle sind meiner Meinung nach gegenüber anderen offenen Modellen ziemlich konkurrenzfähig. Vor allem bei kleinen Größen wie 2 bis 4 GB gibt es Innovationen, und sie helfen dabei, die Lücke zu realistischer Reasoning-Qualität auf Smartphones und noch kleineren Geräten zu schließen.
    • Wenn man die Übertreibung abzieht, wirken OpenAI und Anthropic so, als würden sie sich gegenseitig mit Geld bewerfen, um ein noch größeres Lagerfeuer zu machen.
    • Ich glaube nicht, dass KI-Einführung für Google ein so existenzielles Problem ist wie für OpenAI oder Anthropic. Außerdem kann Google, egal was sie sagen, schwerer Hype erzeugen als die anderen beiden, und am Ende klingt es schnell nur nach Corporate Messaging.
  • Aus Sicht von jemandem, der Gemini, ChatGPT und Claude alle benutzt, verwendet Gemini im Vergleich zu den beiden anderen durchgehend deutlich weniger Tokens. Letztlich scheint Gemini auf seinem jetzigen Niveau zu bleiben, weil das Thinking-Budget kleiner ist. Google dürfte wahrscheinlich die meiste Compute und die niedrigste Kostenstruktur haben. Umso rätselhafter ist, warum sie Reasoning-Compute nicht so aggressiv hochfahren wie die anderen beiden. Ob das an anderen Service-Lasten liegt oder an einer trainingszentrierten Strategie, weiß ich nicht, aber ich finde das ziemlich interessant.

    • Ich habe einige Monate lang Gemini Pro über ein Google-One-Abo für rund 20 Dollar genutzt und hatte das Gefühl, dass es auch deutlich seltener Websuche zur Faktenprüfung anstößt als ChatGPT 5.4 Pro. Ich wollte auch Coding vergleichen, konnte das aber nicht, weil das Gemini-VSCode-Add-on nicht funktionierte. In Android und der Web-App gab es außerdem viele Bugs, unter anderem verschwand der Chat-Verlauf beim Wechsel zwischen Threads. Deshalb werde ich mein Google-One-Abo diesen Monat kündigen.
    • Ich sehe nicht wirklich, worin der Wettbewerbsvorteil von Gemini gegenüber Claude oder ChatGPT liegen soll. Die Ausgabequalität kommt meiner Meinung nach an die beiden fast nicht heran.
    • Ich hoffe, dass die heute vorgestellte agentic Plattform für Enterprise zum Gravitationszentrum werden könnte, auf das Fortune 500 ihre Reasoning-Workloads legen.
    • Ich bin mir halbwegs sicher, dass einer der Hauptgründe, warum GLM-5 besser ist als GLM-4.7, darin liegt, dass es großzügiger mit Tokens umgeht. Bei 4.7 war es viel zu schwer, das Modell dazu zu bringen, den Quellcode wirklich gründlich zu lesen, obwohl es ziemlich kompetent war, wenn es das einmal getan hatte. Sparsamkeit ist ein Vorteil, kann aber auch bedeuten, dass ein Modell nicht genug reflektiert, nicht genug Aspekte berücksichtigt und den Quellcode nicht gründlich genug liest. Beim Abwägen zwischen wenigen und vielen Tokens scheint es am Ende noch ein Bereich zu sein, in dem niemand wirklich sicher ist.
  • Die Aussage, dass ein TPU-8t-Superpod auf 9.600 Chips und 2 PB gemeinsam genutzten Hochbandbreiten-Speicher skaliert, war beeindruckend. Ich kenne mich in dem Bereich nicht besonders gut aus, aber zumindest für mich sieht das nach einem ziemlich großen Wettbewerbsvorteil für Google aus.

    • Ich denke auch, dass das stimmt. Trotzdem glaube ich, dass man ohne einen Durchbruch bei der Trennung von Instruction und Daten kein AGI bauen wird.
  • Die Aussage, dass TPU 8t und TPU 8i gegenüber der vorherigen Generation eine bis zu doppelt so hohe Leistung pro Watt liefern, war ziemlich beeindruckend. Besonders interessant ist, dass die vorherige Generation selbst erst aus 2025 stammt und also sehr aktuell ist. Auffällig war auch, dass Hardware für Training und Inferenz getrennt wurde. Ich habe mich gefragt, ob Unternehmen mit NV-Hardware das ebenfalls so trennen oder ob deren Hardware eher universell ist.

    • Dass Training compute-bound und Inferenz memory-bound ist, ist gut bekannt, aber Nvidia-Deployments werden meines Wissens normalerweise nicht speziell auf eines von beiden optimiert. Viele Clouds und Neo-Clouds besitzen die Workloads selbst nicht, daher ist Generalität wichtig, und wenn man schon in teure H200s plus Networking investiert hat, muss man sie an viele unterschiedliche Kunden verkaufen können. Allerdings gibt es mit dem Grok LPU von Vera Rubin oder mit Cerebras bereits Beschleuniger, die speziell für Inferenz optimiert sind, also hat der Trend zur Spezialisierung bereits begonnen.
    • Bei NVIDIA kann ich es nicht sicher sagen, aber AWS hat eigene Chips für Training und für Inferenz. Allerdings habe ich gehört, dass die Inferenz-Chips zu schwach seien, sodass manche Unternehmen Inferenz trotzdem auf den Trainings-Chips laufen lassen.
    • Spezialisierte Hardware liefert normalerweise höhere Performance, daher tendieren komplexe und teure Systeme mit zunehmender Reife eines Bereichs dazu, auf billige und weit verbreitete 1-Dollar-Chips herunterzusickern. Deshalb wirkt es auf mich, als verstehe Google seinen eigenen Stack viel besser als Unternehmen, die auf NVidia aufsetzen. Google besitzt alles von der Tastatur bis zum Silizium und scheint genug iterativ gelernt zu haben, wie man Features trennt, die sonst um dieselben Ressourcen konkurrieren würden.
    • Trainings-Chips dürften sich am Ende auch für großskalige Inferenz mit niedriger Latenzanforderung recht gut eignen. Für Anwendungsfälle, bei denen Zeit weniger kritisch ist, wird sich dieser Ansatz meiner Meinung nach ziemlich verbreiten.
    • Schon die Tatsache, dass Vera Rubin schnelle Groq-Chips für Inferenz einsetzt, zeigt einen Trend. Bei diesem hohen Energiebedarf wirkt es nur natürlich, jede mögliche Optimierung mitzunehmen.
  • Ich nutze Gemini zusammen mit JetBrains’ Junie, und auch wenn Junie selbst nicht so gut ist wie Claude Code, liegt es nach meinem Eindruck aktuell immer noch deutlich vor Googles eigenen Tools. Mit dieser Kombination bekomme ich ziemlich günstig konsistente Ergebnisse.

    • Mich würde interessieren, ob du Junie im Kontext der JetBrains-IDEs und ihrer Tooling-Umgebung auch auf Augenhöhe mit der Konkurrenz siehst.
  • Unter den großen Reasoning-Anbietern gehört Google für mich zu den unangenehmsten beim Thema Modell-Abkündigungen. Exakt ein Jahr nach Release werden Modelle abgeschaltet und man wird zur nächsten Generation gezwungen. Mit eigener Silicon hätte ich eher mehr Stabilität erwartet, aber es ist genau andersherum. Auch das Rate Limiting ist deutlich strenger als bei OpenAI. Ich frage mich, ob das an den TPUs liegt oder einfach an merkwürdigen Produktentscheidungen.

    • Googles Haltung, alte Gemini-Releases so leichtfertig einzustellen, war wirklich frustrierend. Meine Interpretation ist, dass die meisten Tools ohnehin nur die neuesten Modelle nutzen, neue Modelle also schnell über 90 % des Gesamtvolumens bekommen, und dann greift bei Google eine Kosten-Nutzen-Analyse, durch die die alten Versionen ziemlich emotionslos abgeschaltet werden. Dass das EOL-Datum von Gemini 2.5 kürzlich verlängert wurde, hat mich eher überrascht. Google war meiner Meinung nach noch nie ein besonders kundenfixiertes Unternehmen.
    • Flash 2 ist noch nicht einmal vor Juni EOL, aber am Wochenende bekam ich 429er und sah eine Fehlerrate von 90 %. Deshalb bin ich am Ende auf GPT 5.4 nano umgestiegen.
  • Wenn es bei KI einen endgültigen Sieger gibt, dann dürfte das am Ende entweder Google mit seinem gesamten Stack sein oder Apple, das die meisten KI-fähigen Edge-Sites ausrollt. Ein anderes Bild fällt mir kaum ein.

    • Ich denke, der Sieger könnte auch ein lokaler Model-Wrapper sein, der bestimmte Aufgaben gut erledigt. Etwas, das für Suchaufgaben und Ähnliches gebaut ist, statt als anthropomorpher Schleimer den Leuten nach dem Mund zu reden, erscheint mir plausibler.
    • Ich halte es auch für ziemlich gut möglich, dass Google produktseitig weiter danebenliegt. Dank ihrer enormen Distribution können sie sich trotzdem über Wasser halten, aber wenn ein besseres Produkt auftaucht, bleibt immer noch Raum für einen disruptiven Wechsel wie damals von IE zu Chrome.
  • Unter diesem Link gab es eine ausführlichere Beschreibung der Architektur: https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive