4 Punkte von GN⁺ 2025-09-21 | 2 Kommentare | Auf WhatsApp teilen
  • Grok 4 Fast, angekündigt von xAI, ist ein Modell der nächsten Generation für Reasoning, das auf den Trainingsergebnissen des bisherigen Grok 4 basiert und Kosteneffizienz und Geschwindigkeit maximiert
  • Das Modell verfügt über ein 2M-Token-Kontextfenster, Web- und X-Suchfunktionen sowie eine integrierte Architektur für Reasoning / Non-Reasoning und eignet sich damit für den Einsatz in Echtzeit
  • In Benchmarks erreicht es eine ähnliche Leistung wie Grok 4, verwendet dabei aber im Schnitt 40 % weniger Tokens, sodass sich die gleiche Leistung zu deutlich geringeren Kosten erzielen lässt
  • Durch Reinforcement Learning für Tool-Nutzung zeigt es außerdem starke Leistung bei Code-Ausführung, Web-Navigation und mehr und erreichte Platz 1 in der LMArena Search Arena

Fortschritt bei kosteneffizienter Intelligenz

  • Grok 4 Fast zeigt eine bessere Leistung als Grok 3 Mini und senkt gleichzeitig die Token-Kosten deutlich
    • Im Durchschnitt wird mit 40 % weniger "Thinking Tokens" als bei Grok 4 eine vergleichbare Leistung erreicht
    • Beispielhafte Benchmark-Ergebnisse (pass@1):
      • Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
      • Gegenüber Konkurrenzmodellen (GPT-5 usw.) gleichwertige oder bessere Ergebnisse
  • Bei verschiedenen Reasoning-Benchmarks wie GPQA, AIME, HMMT und LiveCodeBench zeigt es Ergebnisse nahe an Grok 4
  • Neben der um 40 % verbesserten Token-Effizienz von Grok 4 Fast wurde auch der Preis pro Token deutlich gesenkt
  • Bei gleicher Leistung sinken die Kosten gegenüber Grok 4 um 98 %, womit unter veröffentlichten Modellen das "beste Preis-Intelligenz-Verhältnis (SOTA Price-to-Intelligence Ratio)" erreicht wird
    • Auch in externen Bewertungen des unabhängigen Artificial Analysis Intelligence Index wurden starke Ergebnisse bestätigt

Native Tool-Nutzung und SOTA-Suche

  • Trainiert mit Reinforcement Learning für Tool-Nutzung (RL) kann das Modell bei Bedarf automatisch Code ausführen oder im Web browsen
  • Durch die Echtzeit-Suche im Web und auf X verfügt es über agentische Suchfähigkeiten, die Multi-Hop-Suche sowie Medien wie Bilder und Videos abdecken
  • In Benchmarks wie BrowseComp, SimpleQA und X Bench Deepsearch(zh) übertrifft es Grok 4

Ergebnisse beim Post-Training für allgemeine Domänen

  • In der Search Arena von LMArena erreichte Grok 4 Fast(menlo) mit Elo 1163 Platz 1 und lag damit 17 Punkte vor Konkurrenzmodellen
  • In der Text Arena belegte grok-4-fast (Codename tahoe) Platz 8 und war damit den vergleichbaren anderen Modellen (Platz 18 oder schlechter) klar überlegen
  • Bei realen Such- und Textaufgaben zeigt es eine Effizienz, die über die großer Modelle hinausgeht

Integriertes Modell für Reasoning und Non-Reasoning

  • Reasoning- und Non-Reasoning-Modi, für die bisher getrennte Modelle nötig waren, werden in einer einheitlichen Architektur zusammengeführt
    • Der Wechsel zwischen Reasoning- (tiefes Nachdenken) und Non-Reasoning-Modus (schnelle Antworten) erfolgt allein über den System-Prompt
    • Durch geringere End-to-End-Latenz und niedrigere Token-Kosten ist das Modell für Echtzeit-Anwendungen geeignet
  • In der xAI API können Entwickler Geschwindigkeit und Tiefe fein abstimmen

Bereitstellung und Preismodell

  • Grok 4 Fast ist ab sofort verfügbar und wird über OpenRouter und Vercel AI Gateway zeitlich begrenzt kostenlos angeboten
  • In der xAI API ist es auch in zwei Versionen verfügbar, grok-4-fast-reasoning und grok-4-fast-non-reasoning, jeweils mit Unterstützung für ein 2M-Token-Kontextfenster
  • Die Preise beginnen bei $0.20/1M für Input-Tokens und $0.50/1M für Output-Tokens; ab mehr als 128k Tokens gilt der doppelte Preis
  • Für gecachte Input-Tokens werden $0.05/1M berechnet, was zur Kostensenkung beiträgt

Ausblick

  • Das Modell soll fortlaufend auf Basis von Nutzerfeedback verbessert werden
  • Multimodale Funktionen und eine stärkere agentische Ausrichtung sind die Kernziele der nächsten Updates
  • Model Card und weitere Details sind in der Grok 4 Fast Model Card (PDF) zu finden

2 Kommentare

 
kuber 2025-09-21

Es ist teurer und langsamer als gpt-oss, daher frage ich mich, warum es trotzdem so viele Leute nutzen..

 
GN⁺ 2025-09-21
Hacker-News-Kommentare
  • Ich würde kein Musk-Produkt verwenden wollen, egal wie viel man mir dafür bezahlt, besonders nicht, wenn es um das Filtern, Transformieren und Zusammenfassen von Informationen geht. Es mag nützlich sein, aber ich vertraue ihm nicht und möchte Musk nicht noch reicher machen.
    • Selbst wenn man keinen persönlichen Groll gegen Musk hegt, hat man mehrfach gesehen, dass er direkt in die Funktionsweise von Grok eingreift, damit Ergebnisse im Sinne seiner Ideologie herauskommen. Unter solchen Umständen halte ich das Produkt für unbenutzbar. Manche teilen Musks Ansichten vielleicht, aber der Wert eines AI-Produkts liegt doch darin, mithilfe vielfältiger Daten und Algorithmen Antworten zu erzeugen. Nur die Meinung einer einzelnen Person zu reproduzieren, halte ich für sinnlos.
    • Ich habe gehört, dass Grok vor einer Antwort erst auf Twitter nach Musks Meinung sucht. Ich frage mich, ob das für alle Grok-Versionen gilt oder nur für die in Twitter eingebettete Version.
    • Es gibt wirklich so viele Alternativen, dass ich überhaupt keinen Grund sehe, Grok zu verwenden.
    • Es gab einen Fall, in dem Musk selbst an Grok herumgeschraubt hat, weil angeblich keine Fox-News-Propaganda zum Kirk-Attentat auftauchte: Beispiel 1. Und so etwas ist schon mehrfach passiert: NYT-Artikel. Grok ist eine Technologie mit Propaganda-Kontroversen; es ergibt keinen Sinn, überhaupt so darüber zu sprechen, als wäre es ein normaler Tech-Service.
  • Der Modellname lautet zwar „Fast“, aber warum veröffentlicht man dann nicht die Token-Verarbeitungsgeschwindigkeit? Ich frage mich, ob „schnell“ etwas anderes bedeutet oder ob die Leistung zu stark schwankt.
    • Eigentlich ist es wohl kaum mehr als „grok 4 mini“. Vermutlich hat man es „fast“ genannt, weil „mini“ die Leute weniger ansprechen würde und „fast“ eher einen Nutzungsgrund liefert.
    • Bei OpenRouter liegt es derzeit bei ungefähr 160 Token pro Sekunde: Quelle
    • Es wirkt so, als würde es über „Token-Effizienz“ als schnell positioniert werden, also im Sinne von weniger Token verbrauchen und dadurch schneller Ergebnisse liefern.
  • Grok 4 steht im erweiterten NYT-Connections-Leaderboard weit oben: Link
    • Ich dachte zuletzt, dass Sonoma sky Alpha, zu dem es kürzlich Feedback auf OpenRouter gab, dieses Modell sein könnte. Ich habe es oft genutzt, weil es kostenlos war, aber es gefiel mir weniger als das bisherige Grok 4, also ist es vielleicht doch nicht dasselbe.
  • Ich nutze in letzter Zeit gern das Modell grok-code-fast-1, deshalb finde ich es schade, dass das neue Produkt es nicht erwähnt. Ich hoffe, dass vielleicht eine bessere Version kommt. Auch wenn grok-code-fast-1 Gemini 2.5 Pro leicht unterlegen ist, ist es bei der Iterationsgeschwindigkeit unschlagbar.
    • Es ist zwar ein eher einfaches Modell, aber für meine Nutzung war es nach meiner Erfahrung besser als somnet.
  • Ich verstehe nicht, wie ein schnelleres Modell in mehreren Benchmarks besser sein kann als eine langsamere Version. Ich frage mich, ob es einfach nur ständig auf Benchmark-Prüfungen trainiert wurde.
    • Es ist nicht in allen Benchmarks besser. Grok 4 Fast ist in Bereichen mit vielen faktenbasierten Inhalten wie GPQA Diamond oder HLE schwächer als Grok 4. Das große (= langsamere) Modell ist in solchen Bereichen besser. Dagegen können bei Benchmarks mit Fokus auf Schlussfolgern oder Tool-Nutzung auch kleinere und schnellere Modelle konkurrenzfähig sein, weil dort eher die Token-Übergangsfähigkeit zählt. Vermutlich wurden die Trainingsdaten selbst stärker auf bestimmte Aufgaben ausgerichtet. Die tatsächlichen Ergebnisse wirken auch so, als würde man gezielt genau diese Benchmarks für das Marketing auswählen. Umgekehrt könnte man wahrscheinlich genauso „Gegen-Marketingmaterial“ erstellen, indem man nur Benchmarks zum Faktenwissen auswählt und die dort schwächere Leistung hervorhebt.
    • Technisch könnte alles Mögliche anders sein: verschiedene Architekturänderungen, mehr Daten, RL und so weiter. In letzter Zeit scheinen sie beim Einsatz von RL im Vergleich zu offenen Modellen deutlich voraus zu sein.
    • In Wirklichkeit sind es einfach zwei Modelle mit ähnlichem Namen. Grok 4 Fast ist nicht einfach eine schnellere Version von Grok 4; die Beziehung ist eher so, dass sie wie gpt-4 und gpt-4o vollständig unterschiedlich sind.
    • Wahrscheinlich ist Grok 4 Fast eine Version des Grok-4-Modells, bei der Teile reduziert wurden, die in der realen Produktionsumgebung kaum gebraucht werden, sodass es leichter und fokussierter ist. Die zugrunde liegende logische Struktur wäre dann ähnlich, aber stärker auf bestimmte Zwecke optimiert und dadurch effizienter.
  • Heutzutage werden große Modelle bei ähnlicher Größenordnung mit ähnlichen Daten trainiert. Unterschiede gibt es im Grunde vor allem bei der Preisgestaltung … Bei grok scheint das Unterscheidungsmerkmal zu sein, dass Filter oder Schutzmechanismen entfernt werden. Und auch Benchmarks selbst haben viele fehleranfällige Aspekte und lassen sich leicht manipulieren; das ist in der Branche eigentlich allgemein bekannt.
  • Das Benchmark-Ergebnis im Verhältnis zum Preis sieht gut aus. Ich frage mich, wie es sich in echten Nutzertests schlägt.
    • Falls das das frühere sonoma-dusk ist, das bei OpenRouter als Vorschau verfügbar war, dann war es ziemlich brauchbar. Ich habe es mit Reverse-Engineering-Aufgaben für Code getestet; bei Geschwindigkeit und Leistung war es ähnlich gut oder besser als gpt5-mini. Bis etwa 110.000 bis 130.000 Token hielt es gut durch, darüber hinaus neigte es aber dazu, trotz unzureichender Bedingungen einfach Vollständigkeit zu behaupten (zum Beispiel im Stil von: xx von 400 Tests bestanden, der Rest sei später möglich).
  • Wir alle wollen schnelle und präzise Modelle, aber ich frage mich, ob ein Modell wirklich auch „präzise“ sein kann. Wenn es sehr präzise ist, wäre ich auch bereit, ein paar Sekunden länger zu warten.
    • Der einzige sichere Weg, das zu erreichen, ist der Einsatz von Tools.
  • Referenzlink zur Vergleichstabelle großer Modelle
  • Da ich persönlich ein Custom-Frontend nutze, finde ich es im Gegensatz zu Qwen3 coder schade, dass grok4 fast keinen kostenlosen API-Test bietet. Auch die Tools mit Partnerschaften sind nicht die, die ich üblicherweise verwende.