- Grok 4 Fast, angekündigt von xAI, ist ein Modell der nächsten Generation für Reasoning, das auf den Trainingsergebnissen des bisherigen Grok 4 basiert und Kosteneffizienz und Geschwindigkeit maximiert
- Das Modell verfügt über ein 2M-Token-Kontextfenster, Web- und X-Suchfunktionen sowie eine integrierte Architektur für Reasoning / Non-Reasoning und eignet sich damit für den Einsatz in Echtzeit
- In Benchmarks erreicht es eine ähnliche Leistung wie Grok 4, verwendet dabei aber im Schnitt 40 % weniger Tokens, sodass sich die gleiche Leistung zu deutlich geringeren Kosten erzielen lässt
- Durch Reinforcement Learning für Tool-Nutzung zeigt es außerdem starke Leistung bei Code-Ausführung, Web-Navigation und mehr und erreichte Platz 1 in der LMArena Search Arena
Fortschritt bei kosteneffizienter Intelligenz
- Grok 4 Fast zeigt eine bessere Leistung als Grok 3 Mini und senkt gleichzeitig die Token-Kosten deutlich
- Im Durchschnitt wird mit 40 % weniger "Thinking Tokens" als bei Grok 4 eine vergleichbare Leistung erreicht
- Beispielhafte Benchmark-Ergebnisse (pass@1):
- Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
- Gegenüber Konkurrenzmodellen (GPT-5 usw.) gleichwertige oder bessere Ergebnisse
- Bei verschiedenen Reasoning-Benchmarks wie GPQA, AIME, HMMT und LiveCodeBench zeigt es Ergebnisse nahe an Grok 4
- Neben der um 40 % verbesserten Token-Effizienz von Grok 4 Fast wurde auch der Preis pro Token deutlich gesenkt
- Bei gleicher Leistung sinken die Kosten gegenüber Grok 4 um 98 %, womit unter veröffentlichten Modellen das "beste Preis-Intelligenz-Verhältnis (SOTA Price-to-Intelligence Ratio)" erreicht wird
- Auch in externen Bewertungen des unabhängigen Artificial Analysis Intelligence Index wurden starke Ergebnisse bestätigt
Native Tool-Nutzung und SOTA-Suche
- Trainiert mit Reinforcement Learning für Tool-Nutzung (RL) kann das Modell bei Bedarf automatisch Code ausführen oder im Web browsen
- Durch die Echtzeit-Suche im Web und auf X verfügt es über agentische Suchfähigkeiten, die Multi-Hop-Suche sowie Medien wie Bilder und Videos abdecken
- In Benchmarks wie BrowseComp, SimpleQA und X Bench Deepsearch(zh) übertrifft es Grok 4
Ergebnisse beim Post-Training für allgemeine Domänen
- In der Search Arena von LMArena erreichte Grok 4 Fast(
menlo) mit Elo 1163 Platz 1 und lag damit 17 Punkte vor Konkurrenzmodellen
- In der Text Arena belegte
grok-4-fast (Codename tahoe) Platz 8 und war damit den vergleichbaren anderen Modellen (Platz 18 oder schlechter) klar überlegen
- Bei realen Such- und Textaufgaben zeigt es eine Effizienz, die über die großer Modelle hinausgeht
Integriertes Modell für Reasoning und Non-Reasoning
- Reasoning- und Non-Reasoning-Modi, für die bisher getrennte Modelle nötig waren, werden in einer einheitlichen Architektur zusammengeführt
- Der Wechsel zwischen Reasoning- (tiefes Nachdenken) und Non-Reasoning-Modus (schnelle Antworten) erfolgt allein über den System-Prompt
- Durch geringere End-to-End-Latenz und niedrigere Token-Kosten ist das Modell für Echtzeit-Anwendungen geeignet
- In der xAI API können Entwickler Geschwindigkeit und Tiefe fein abstimmen
Bereitstellung und Preismodell
- Grok 4 Fast ist ab sofort verfügbar und wird über OpenRouter und Vercel AI Gateway zeitlich begrenzt kostenlos angeboten
- In der xAI API ist es auch in zwei Versionen verfügbar,
grok-4-fast-reasoning und grok-4-fast-non-reasoning, jeweils mit Unterstützung für ein 2M-Token-Kontextfenster
- Die Preise beginnen bei $0.20/1M für Input-Tokens und $0.50/1M für Output-Tokens; ab mehr als 128k Tokens gilt der doppelte Preis
- Für gecachte Input-Tokens werden $0.05/1M berechnet, was zur Kostensenkung beiträgt
Ausblick
- Das Modell soll fortlaufend auf Basis von Nutzerfeedback verbessert werden
- Multimodale Funktionen und eine stärkere agentische Ausrichtung sind die Kernziele der nächsten Updates
- Model Card und weitere Details sind in der Grok 4 Fast Model Card (PDF) zu finden
2 Kommentare
Es ist teurer und langsamer als gpt-oss, daher frage ich mich, warum es trotzdem so viele Leute nutzen..
Hacker-News-Kommentare