Zwei unterschiedliche Ansätze für schnelle LLM-Inferenz

(seangoedecke.com)

6 Punkte von GN⁺ 2026-02-16 | 1 Kommentare | Auf WhatsApp teilen

Anthropic und OpenAI haben jeweils einen „Fast Mode“ für ihre besten Coding-Modelle vorgestellt und die Inferenzgeschwindigkeit deutlich erhöht
Anthropic verwendet unverändert das Modell Opus 4.6 und bietet durch eine kleinere Batch-Größe eine bis zu 2,5-fach schnellere Token-Verarbeitung
OpenAI führt mit GPT-5.3-Codex-Spark ein neues, auf Cerebras-Chips basierendes Modell ein, das mehr als 1000 Token pro Sekunde erzeugt, jedoch eine geringere Genauigkeit aufweist
Beide Ansätze beruhen auf völlig unterschiedlichen technischen Prinzipien: Inferenz mit kleinen Batches einerseits und In-Memory-Inferenz auf ultragroßen Chips andererseits
Schnelle Inferenz ist technisch beeindruckend, doch es wird darauf hingewiesen, dass Genauigkeit wichtiger ist als Geschwindigkeit und Wirtschaftlichkeit sowie praktischer Nutzen noch unklar sind

Struktur von Anthropics Fast Mode

Der Ansatz von Anthropic minimiert Latenz durch kleinere Batch-Größen
- Der wichtigste Engpass bei GPUs ist die Speicherübertragung; Batch-Verarbeitung bündelt Anfragen mehrerer Nutzer, erhöht den Durchsatz, steigert aber auch die Wartezeit
- Der Fast Mode ist vergleichbar mit einem „Bus, der sofort losfährt“, sobald ein Nutzer eine Anfrage stellt
Dieser Ansatz bietet 2,5-fach höhere Geschwindigkeit bei 6-fach höheren Kosten
- Da die Wartezeit auf den Batch entfällt, sinkt die Verzögerung bis zum ersten Token
- Allerdings nimmt der Gesamtdurchsatz der GPU ab
Einige Nutzer merkten an, dass die Wartezeit nach dem ersten Token nicht besonders hoch sei; der Effekt kleiner Batches entspreche daher eher einer höheren Ausführungsgeschwindigkeit durch geringeren Rechenaufwand

Struktur von OpenAIs Fast Mode

OpenAI verfolgt mithilfe von Cerebras-Chips einen völlig anderen Ansatz
- Anstelle des bestehenden Modells wird ein kompaktes (distilled) Modell namens GPT-5.3-Codex-Spark verwendet
- Spark ist weniger ausgefeilt als das Original, erreicht dafür aber eine mehr als 15-fach höhere Inferenzgeschwindigkeit
Der Cerebras-Chip ist ein ultragroßer Wafer-Scale-Chip mit 70 Quadratzoll Fläche und verfügt über 44 GB SRAM
- Das gesamte Modell wird in den SRAM geladen, wodurch In-Memory-Inferenz ohne Zugriff auf externen Speicher möglich wird
- Im Vergleich zu GPUs mit SRAM im Bereich von einigen Dutzend MB ist das ein erheblicher Unterschied
Es wird vermutet, dass das Spark-Modell per Sharding über mehrere Cerebras-Chips verteilt resident ist; diese Konfiguration gilt als Schlüsselfaktor für den Geschwindigkeitsgewinn

Technischer Vergleich und Bewertung

Anthropic behält das bestehende Modell unverändert bei und passt lediglich die Batch-Strategie an
OpenAI erzielt durch die Kombination aus neuer Hardware-Architektur und Modelldesign eine grundlegendere Leistungssteigerung
Der Betrieb eines Modells auf Cerebras-Chips ist eine komplexe technische Herausforderung, und auch das Training des Spark-Modells ist keine einfache Aufgabe
Die Ansätze beider Unternehmen zeigen unterschiedliche technische Wege zum gleichen Ziel der höheren Geschwindigkeit; der Ansatz von OpenAI wirkt technisch beeindruckender

Bedeutung und Grenzen schneller Inferenz

Durch die Ankündigungen beider Unternehmen wirkt „schnelle KI-Inferenz“ wie die nächste Wettbewerbsachse, tatsächlich hat das Ganze jedoch stark den Charakter einer strategischen Reaktion
- Anthropic scheint rasch auf die Ankündigung von OpenAI reagiert zu haben
- OpenAI befindet sich bei der Veröffentlichung noch in der Phase eines experimentellen Ergebnisses aus der Zusammenarbeit mit Cerebras
Schnellere, aber weniger präzise Modelle haben Grenzen im praktischen Einsatz
- Nutzer verbringen mehr Zeit damit, Fehler des Modells zu korrigieren; daher ist Genauigkeit wichtiger als Geschwindigkeit
Solche „schnellen Modelle mit geringer Genauigkeit“ könnten jedoch als untergeordnete Bausteine in KI-Systemen eingesetzt werden
- Beispiele: der Einsatz von Haiku in Claude Code, die mögliche interne Nutzung von Spark bei OpenAI

Community-Diskussion und weitere Beobachtungen

Auf Hacker News wurden verschiedene Ansichten zu den Leistungseigenschaften von Batch-Verarbeitung und zu Kommunikationsengpässen zwischen Chips diskutiert
- Einige behaupten, dass es mit Continuous Batching kaum noch Wartezeiten gebe
- Andere entgegnen, dass Verbindungen zwischen Chips die Inferenzgeschwindigkeit beeinflussen
Der Zielkonflikt zwischen Batch-Größe und Latenz besteht weiterhin
Anthropic weist ausdrücklich darauf hin, dass die Latenz bis zum ersten Token weiterhin hoch sein kann; OpenAI versucht dies durch eine dauerhafte Verbindung auf WebSocket-Basis zu minimieren
Insgesamt ist die Architektur schneller LLM-Inferenz komplex und lässt sich nicht einfach mit einem simplen Modell erklären

1 Kommentare

GN⁺ 2026-02-16

Hacker-News-Kommentare

Viele missverstehen den fast mode von Anthropic. Das liegt wohl am Namen.
Tatsächlich ist er teurer und arbeitet bei schwierigen Problemen intelligenter.
Der Ansatz parallel distill and refine aus diesem Paper passt genau dazu.
Dabei werden mehrere Pfade parallel erzeugt und anschließend schnell destilliert und verfeinert, um das Ergebnis zu liefern.
Diese Methode verbraucht mehr Tokens, ermöglicht aber schnellere und intelligentere Ausgaben.
Speculative Decoding hat nichts mit Qualitätsverbesserung zu tun, und simples Batching erhöht die Geschwindigkeit, senkt aber die Kosten.
Gemini Deepthink und GPT-5.2-pro nutzen ebenfalls ähnliche parallele Inferenz, verfeinern das Ergebnis aber erst, nachdem alle Pfade vollständig berechnet wurden.
- Laut der offiziellen Anthropic-Dokumentation ist der fast mode weiterhin das Modell Opus 4.6 selbst, nur mit anderen API-Einstellungen, die Geschwindigkeit priorisieren. Die Qualität ist identisch.
Die Idee ist interessant, mit den 44 GB SRAM der Cerebras-Chips das gesamte Modell für die Inferenz in den Speicher zu laden.
Die Größe von GPT-5.3-Codex-Spark ist eher durch die Anzahl der verbindbaren Chips als durch den Speicher eines einzelnen Chips begrenzt.
Da Cerebras auch Modelle über 40B schneller unterstützt, liegt Spark wahrscheinlich näher an GLM 4.7 (355B Parameter, 32B aktiv).
Siehe die Cerebras-Preisseite.
- Wenn man ein Modell shardet, wird es sehr langsam. Der Vorteil eines Wafer-Scale-Chips ist die On-Chip-Speicherbandbreite; wenn man darauf verzichtet, verliert das Konzept seinen Sinn.
  Lösungen von Groq, TPU und Nvidia sind bei der Energieeffizienz besser.
- Da Cerebras größere Modelle als 40B schneller ausführen kann, ist die Behauptung im Originalbeitrag schwer glaubwürdig.
- Wenn man Chips in Serie verbindet, steigt nur die Latenz, während der Durchsatz nicht sinkt.
- Auch mit kleinem SRAM wie bei Groq-Chips lassen sich große Modelle ausführen. Daher führt Chip-Verkettung nicht automatisch zu geringerer Geschwindigkeit.
Wahrscheinlich routet Anthropic fast-Anfragen auf die neueste Hardware.
Das Unternehmen betreibt Geräte verschiedener Generationen wie TPUs und GPUs, und man vermutet, dass fast mode nur auf der schnellsten Hardware abgearbeitet wird.
- Die Speicherbandbreite des GB200 ist 2,4-mal höher als beim H100. Deshalb ist es gut möglich, dass fast mode einfach nur auf anderer Hardware läuft.
  Techniken wie Speculative Decoding werden ohnehin bereits genutzt, daher dürfte es nicht an verbessertem Batching liegen.
Die Behauptung am Ende des Artikels, dass Genauigkeit wichtiger sei als Geschwindigkeit, mag derzeit stimmen.
Wenn jedoch durch die OpenAI-Cerebras-Zusammenarbeit große Modelle wie Codex-5.3 direkt auf dem Chip laufen,
könnten schnelle und präzise Modelle möglich werden, die Kundenservice-Aufgaben auf Ersatzniveau übernehmen.
- Allerdings wären für ein 5- bis 7-TB-Modell mit 40 GB SRAM mehrere Megawatt Leistung nötig. Cerebras verbraucht sehr viel Strom.
  Wenn künftig LLM-spezifisches Silizium erscheint, dürfte eine deutlich effizientere Ära beginnen.
- Falls das Problem der Qualitätsverschlechterung beim Training auf KI-generierten Daten weiterhin ungelöst bleibt, werden Modell-Updates zunehmend schwieriger.
Das Problem, auf einen Batch warten zu müssen, wurde durch continuous batching bereits gelöst.
Dank dieser Technik konnte Claude Code günstig angeboten werden.
Zugehöriger Beitrag
Die Bus-Analogie ist etwas seltsam. Tatsächlich nimmt fast mode einen größeren Anteil des Batches ein und erhöht so den Durchsatz.
Angesichts des Traffic-Volumens von Anthropic ist zu erwarten, dass ein Batch fast sofort gefüllt ist.
Ich frage mich, warum ChatGPT direkt nach dem Senden einer Nachricht antwortet.
Dass es nicht auf einen Batch warten muss, könnte daran liegen, dass der Traffic enorm ist oder dass Eingaben vorab per WebSocket an die GPU gestreamt werden.
Viele verwechseln den Unterschied zwischen SRAM und HBM.
HBM basiert auf DRAM, bietet mehr Kapazität, ist aber langsamer; SRAM ist viel schneller, dafür aber teurer.
Cerebras erzielt mit 44 GB riesigem SRAM auf einem Chip extreme Geschwindigkeit.
Allerdings ist das Design nicht trivial, sodass die tatsächliche Leistung von vielen Faktoren abhängt.
- Die 80 GB HBM von Nvidia sind externer Speicher, die 44 GB von Cerebras interner SRAM.
  OpenAI hat das Modell entweder so entworfen, dass es in 44 GB passt, oder mehrere Chips kettenförmig verbunden.
Bei Echtzeit-Sprach-KI ist Latenz der entscheidende Faktor.
Menschen empfinden Wartezeiten von mehr als 800 ms als unnatürlich, daher bleiben für die LLM-Inferenz nur etwa 400 bis 500 ms.
Mit Sonnet-Geschwindigkeit (80 tok/s) ist selbst ein Satz schwierig, aber mit den Geschwindigkeiten von Cerebras oder Groq (über 1000 tok/s) sind mehr als 400 Tokens möglich.
Deshalb kann es effizienter sein, kleine Modelle domänenspezifisch zu tunen als große Modelle einzusetzen.
Der Council-Ansatz, mehrere kleine Agenten zu kombinieren, ist ein Weg, Geschwindigkeit und Qualität zugleich zu erreichen.
Außerdem kann man mit Speculative Decoding häufige Antworten vorhersagen und TTS vorbereiten, sodass bei 60 % der Gespräche Antworten in unter 200 ms möglich sind.
- OpenAI ist das einzige große Forschungslabor, das sich wirklich auf Sprachmodelle konzentriert, daher dürfte es sich in diese Richtung weiterentwickeln.

Zwei unterschiedliche Ansätze für schnelle LLM-Inferenz

Struktur von Anthropics Fast Mode

Struktur von OpenAIs Fast Mode

Technischer Vergleich und Bewertung

Bedeutung und Grenzen schneller Inferenz

Community-Diskussion und weitere Beobachtungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare