Grok Code Fast 1
(x.ai)- grok-code-fast-1 von xAI ist ein ultraschnelles KI-Coding-Modell für Entwickler mit schneller Reaktionsfähigkeit und IDE-freundlichen Funktionen
- Das Modell wurde mit Fokus auf Programmier-Datensätze vortrainiert und durch Bewertungen von echten Nutzern so ausgelegt, dass es Werkzeuge wie grep, Terminal und Dateibearbeitung souverän nutzen kann
- Die Leistung umfasst eine Generierungsgeschwindigkeit von 190 Token pro Sekunde und einen Wert von 70,8 % auf SWE-Bench-Verified; außerdem ist es stark in TypeScript, Python, Java, Rust, C++, Go und weiteren Sprachen
- Der Preis beträgt $0.20 pro 1 Million Eingabe-Token, $1.50 für Ausgabe und $0.02 für zwischengespeicherte Eingaben; auf einigen Partnerplattformen (GitHub Copilot, Cursor usw.) ist es vorübergehend kostenlos verfügbar
- In Kürze soll auch eine Variante erscheinen, die multimodale Eingaben, parallele Tool-Aufrufe und erweiterten Kontext unterstützt
Überblick
- grok-code-fast-1 von xAI ist ein ultraschnelles KI-Coding-Modell, das entwickelt wurde, um Geschwindigkeitsprobleme in realen Entwicklungsumgebungen zu lösen, in denen iteratives Denken und Tool-Nutzung häufig vorkommen
- Auf Basis des Feedbacks von Ingenieuren aus der Praxis wurde die Modellarchitektur von Grund auf neu aufgebaut, damit sie schnell, agil und für reale Arbeitsabläufe geeignet ist
- Das Team für Inferenz und Computing Engineering hat zahlreiche innovative Methoden in eine überragend schnelle Serving-Technologie eingeführt
- Nutzer können das Gefühl haben, dass bereits mehrere Tool-Aufrufe erfolgt sind, noch bevor sie den Gedankengang vollständig gelesen haben
- Durch optimiertes Prompt-Caching wurde in Partnerumgebungen eine Cache-Trefferquote von über 90 % erreicht
Design und Datensatz
- Die Trainingsumgebung wurde auf Basis umfangreicher, programmierorientierter Pretraining-Daten aufgebaut
- Hochwertiges Post-Training wurde mit echten Pull-Request- und Code-Erstellungsdaten durchgeführt
- In enger Zusammenarbeit mit verschiedenen Launch-Partnern wird das Verhalten des Modells innerhalb agentischer Plattformen kontinuierlich verbessert
Hauptmerkmale und unterstützte Umgebungen
grok-code-fast-1beherrscht gängige Entwicklungswerkzeuge wie grep, Terminal und Dateibearbeitung zuverlässig- Nutzer können es direkt in IDEs und anderen wichtigen Entwicklungsumgebungen einsetzen
Programmierleistung
- Es unterstützt den gesamten Softwareentwicklungs-Stack
- Es zeigt herausragende Praxistauglichkeit in TypeScript, Python, Java, Rust, C++, Go und weiteren Sprachen
- Selbst bei minimaler Aufsicht verarbeitet es verschiedene Programmieraufgaben wie Zero-to-One-Projekterstellung, Fragen und Antworten zu Codebasen sowie präzise Bugfixes schnell und genau
- Grok Code Fast 1 bietet unter den derzeit verfügbaren Modellen die schnellste Reaktionsfähigkeit
- Wenn man es in kleine Arbeitseinheiten aufteilt, ist es besonders vorteilhaft für iterative und schnelle Workflows
- Ein praktisches Beispiel: In der Cursor-Umgebung wurde innerhalb nur eines Tages ein Battle-Simulator-Prototyp fertiggestellt
- Es ist effizient, große Features zu planen, sie in Schritte zu zerlegen und iterativ auszuführen
Preismodell
- $0.20 pro 1 Million Eingabe-Token
- $1.50 pro 1 Million Ausgabe-Token
- $0.02 pro 1 Million zwischengespeicherte Eingabe-Token
- Mit starker Leistung und wirtschaftlicher Preisgestaltung lassen sich tägliche Programmieraufgaben schnell und effizient erledigen
Modellleistung und Bewertung
- Mit einer Token-Verarbeitungsgeschwindigkeit (Tokens Per Second, TPS) von 190 erreicht es ein Spitzenniveau in der Branche
- Im Vergleich zu anderen Modellen (Gemini 2.5 Pro, GPT-5, Claude Sonnet 4, Qwen3-Coder, Grok 4) zeigt es sowohl beim Preis als auch bei der Verarbeitungsgeschwindigkeit starke Wettbewerbsfähigkeit
- Es kombiniert verschiedene öffentliche Benchmarks und reale Entwicklertests
- Auf der SWE-Bench-Verified-Teilmenge wurden 70,8 % erreicht
- Durch die Kombination aus regelmäßiger menschlicher Bewertung durch Ingenieure aus der Praxis und automatisierten Tests werden Nutzwert und Zufriedenheit des Modells maximiert
Ausblick und Nutzungshinweise
- Es wird über die offizielle API und große Partner angeboten; außerdem gibt es vorübergehend eine kostenlose Testmöglichkeit
- GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode, Windsurf usw.
- Kontinuierliche Updates und schnelle Verbesserungszyklen werden zugesichert
- Neue Varianten mit Funktionen wie multimodalen Eingaben, parallelen Tool-Aufrufen und erweitertem Kontext befinden sich ebenfalls im Training
- Ein Prompt-Engineering-Guide wird ebenfalls separat bereitgestellt
- Über die Model Card und Feedback-Kanäle (Discord usw.) können Meinungen geteilt werden
1 Kommentare
Hacker-News-Kommentare
Habe es gestern mit Cline getestet: schnell, passt gut zu agentic flows, und die Codequalität ist ziemlich ordentlich. Ich verstehe nicht, warum dieser Thread so negativ ist (wurde beim Tippen sogar geflaggt). Ich finde das Modell okay, gefühlt mindestens auf dem Niveau von gpt5-mini. Ich habe gpt5-mini ein paar Tage als Hauptmodell genutzt; es passte ins Budget und erledigte die Arbeit gut.
Was mir aufgefallen ist:
bs4) ungefähr 110.000 Token verbraucht, und trotzdem hat es die Aufgabe problemlos abgeschlossen; auch bei hohem Kontext keine ProblemeInsgesamt okay, für den Preis auch als Daily Driver brauchbar. Man könnte sich vorstellen, Opus + gpt5 high als Planner zu nutzen und dieses Modell als Implementer laufen zu lassen. Wegen der Geschwindigkeit wäre auch ein paralleles pass@x-Setup interessant.
Es ist gut, dass es auf allen Ebenen verschiedene Optionen gibt. Verschiedene Anbieter sollten konkurrieren, damit sie unter Druck bleiben und die Preise sinken. gpt5-mini liegt bei 2$/MTok, dieses Modell bei etwa 1,5$/MTok, also fast „gratis“. Ich verstehe diese negative Stimmung nicht.
Qwen3-Coder-480B (gehostet bei Cerebras) kostet über OpenRouter 2$/Mtok inklusive Ein- und Ausgabe.
Sollte man es schon als gute Leistung werten, wenn nur etwa die Hälfte der context length genutzt wird? Bei qwen3-coder habe ich das Gefühl, dass es bei 65k/256k durcheinandergerät, und im Vergleich zu grok ist es 50 % teurer.
Guter Review, würde mich interessieren, wie es im Vergleich zu claude code abschneidet.
Ich sehe das ähnlich. Ich nutze das Modell in letzter Zeit auch und finde es ziemlich okay, außerdem sehr schnell.
Interessant ist, dass der Benchmark, den dieses Modell hervorhebt, die Token-Ausgabegeschwindigkeit ist; es heißt sogar „fast“.
Normalerweise würden Software Engineers wohl denken, dass die Tokenqualität wichtiger ist als die Geschwindigkeit.
Entscheidend ist, wie schnell es wirklich ist.
Das ist nicht der schlechteste von xAI erfundene Messwert.
Ich habe die kostenlose API von Cerebras ausprobiert (Qwen Coder 480b, gpt-oss-120b verfügbar, keine Partnerschaft), und mit etwa 3000 Token pro Sekunde ist sie wirklich schnell.
Hängt vom Einsatzzweck ab.
Geschwindigkeit ist sehr wichtig.
Ich frage mich, was HN derzeit als AI-Coding-Assistant nutzt, zum Beispiel Empfehlungen für VSCode-Plugins und praktische Tipps aus echter Nutzung.
Ich frage mich, ob die „Coding“-Version, die erschien, als Grok-4-Codeleistung vielfach als schlecht bewertet wurde, vielleicht dieses Modell ist.
Wenn es bei Benchmarks schwach ist, greift man anscheinend lieber zu etwas, das sich leichter aufblasen lässt: Geschwindigkeit.
Nach einigem Suchen habe ich nur Posts auf Reddit gefunden, in denen ein offensichtlich spamartiger Account dieses Modell lobt.
Link zu diesem Account
Es wirkt auf mich, als basiere es auf Grok 3; Grok 3 war extrem schnell und auf Programmierung spezialisiert.
Für die gesamte Kategorie „SWE-Bench-Verified“ soll grok-code-fast-1 laut internem Benchmark auf 70,8 % kommen, und ich würde mir dieses Benchmark-Tool selbst gern genauer ansehen.
In Berichten von Drittanbietern liegt es eher bei 57,6 %.
Relevanter Link
Mag kleinlich klingen, aber ich war schon beim Öffnen der Seite überrascht, wie chaotisch die Datumsdarstellung ist (Tag/Monat/Jahr steht durcheinander).
Das ist nicht nur verwirrend, sondern sorgt auch dafür, dass die Sortierung nicht richtig funktioniert.
Ich habe die Datumsspalte sortiert, und das Ergebnis ergab überhaupt keinen Sinn (es wurde anscheinend am mittleren Eintrag ausgerichtet).
Wenn man nicht einmal auf solche Basics achtet, kommt schnell der Verdacht auf, dass auch der Code schlampig sein könnte.
[Einige Länder nutzen diese Schreibweise zwar noch, aber die meisten sind längst auf einen Standard umgestiegen]
Im Vergleich zu anderen Modellen sehen die Ergebnisse trotzdem gut aus.
Ich habe auch mit der Basisversion von Grok 4 ziemlich gute Ergebnisse gesehen.
Wenn man nach verschiedenen Architektur-Optionen fragt, gibt es sehr gute Antworten und eine schrittweise Anleitung zur Problemlösung, was mir gefällt.
Statt im „One-Shot“-Stil den gesamten Code auf einmal neu zu schreiben, gefällt mir dieser Prozess besser, bei dem sich das Ergebnis an die Richtung anpasst, die ich wirklich möchte.
Ich denke, Opus 4.1 oder die Sonnet-Reihe werden in Bewertungen von One-Shot-Problemlösungen nicht besonders treffend erfasst; entscheidend ist, wie gut sie als echter Assistent funktionieren.
Auch gpt-5 wiederholt manchmal hartnäckig dieselbe Richtung, selbst wenn ich sie nicht will, egal wie viel man darüber spricht.
Sonnet 4 ist bei Architekturdesign oder tiefgehender Analyse GPT-5 vielleicht unterlegen, aber wenn der detaillierte Plan schon steht und es nur darum geht, viel Code herunterzuschreiben, ist Sonnet 4 besser.
Nach ein paar Tagen Testen von Grok fühlt es sich für mich eher wie ein Rückschritt an.
Ich habe zum ersten Mal seit Langem erlebt, dass Teile meines Codes zufällig gelöscht wurden.
Die führenden Coding-Modelle sind inzwischen ziemlich vertrauenswürdig geworden, aber Grok wirkt noch nicht auf diesem Niveau.
Auch wenn es schnell und kostenlos ist: Wenn ich ihm meinen Code nicht anvertrauen kann, taugt es für mich nicht als Tool.
Ich habe Grok Code Fast 1 in Kilo Code kostenlos ausprobiert, und die Ergebnisse waren sehr schlecht.
Full Self Coding?
Mich würde interessieren, welche Plattform/Sprache du nutzt.
Ist es wirklich ein Problem, wenn ein Teil des Codes gelöscht wird? Es gibt doch Versionsverwaltung.
Es macht unglaublich schnell komplett unsinnige Dinge, und das ist nichts Gutes.
Für einfache, konkrete Aufgaben wie CRUD-Endpunkte, i8n-Dateien usw. ist es wohl geeignet, aber darüber hinaus eher fraglich.
Genau für solche Sachen nutze ich dieses Modell.
Ich habe es gebeten, eine Justfile zu verbessern, und es hat alles komplett verhunzt und ist in einer Endlosschleife gelandet.
Schon in der Stealth-Phase des „sonic“-Modells war es schnell, aber die Qualität war nicht genauer als nötig.
Es hat zwar Testcode erzeugt und wiederholt ausgeführt, aber nicht das beabsichtigte Verhalten geprüft, sondern nur Mock-Aufrufe kontrolliert.
Es hat Grenzen, wenn es darum geht, auch auf tatsächliche Nutzungsmuster zu achten.
Ich fand es beeindruckend.