7 Punkte von GN⁺ 2025-08-30 | 1 Kommentare | Auf WhatsApp teilen
  • grok-code-fast-1 von xAI ist ein ultraschnelles KI-Coding-Modell für Entwickler mit schneller Reaktionsfähigkeit und IDE-freundlichen Funktionen
  • Das Modell wurde mit Fokus auf Programmier-Datensätze vortrainiert und durch Bewertungen von echten Nutzern so ausgelegt, dass es Werkzeuge wie grep, Terminal und Dateibearbeitung souverän nutzen kann
  • Die Leistung umfasst eine Generierungsgeschwindigkeit von 190 Token pro Sekunde und einen Wert von 70,8 % auf SWE-Bench-Verified; außerdem ist es stark in TypeScript, Python, Java, Rust, C++, Go und weiteren Sprachen
  • Der Preis beträgt $0.20 pro 1 Million Eingabe-Token, $1.50 für Ausgabe und $0.02 für zwischengespeicherte Eingaben; auf einigen Partnerplattformen (GitHub Copilot, Cursor usw.) ist es vorübergehend kostenlos verfügbar
  • In Kürze soll auch eine Variante erscheinen, die multimodale Eingaben, parallele Tool-Aufrufe und erweiterten Kontext unterstützt

Überblick

  • grok-code-fast-1 von xAI ist ein ultraschnelles KI-Coding-Modell, das entwickelt wurde, um Geschwindigkeitsprobleme in realen Entwicklungsumgebungen zu lösen, in denen iteratives Denken und Tool-Nutzung häufig vorkommen
  • Auf Basis des Feedbacks von Ingenieuren aus der Praxis wurde die Modellarchitektur von Grund auf neu aufgebaut, damit sie schnell, agil und für reale Arbeitsabläufe geeignet ist
  • Das Team für Inferenz und Computing Engineering hat zahlreiche innovative Methoden in eine überragend schnelle Serving-Technologie eingeführt
    • Nutzer können das Gefühl haben, dass bereits mehrere Tool-Aufrufe erfolgt sind, noch bevor sie den Gedankengang vollständig gelesen haben
  • Durch optimiertes Prompt-Caching wurde in Partnerumgebungen eine Cache-Trefferquote von über 90 % erreicht

Design und Datensatz

  • Die Trainingsumgebung wurde auf Basis umfangreicher, programmierorientierter Pretraining-Daten aufgebaut
  • Hochwertiges Post-Training wurde mit echten Pull-Request- und Code-Erstellungsdaten durchgeführt
  • In enger Zusammenarbeit mit verschiedenen Launch-Partnern wird das Verhalten des Modells innerhalb agentischer Plattformen kontinuierlich verbessert

Hauptmerkmale und unterstützte Umgebungen

  • grok-code-fast-1 beherrscht gängige Entwicklungswerkzeuge wie grep, Terminal und Dateibearbeitung zuverlässig
  • Nutzer können es direkt in IDEs und anderen wichtigen Entwicklungsumgebungen einsetzen

Programmierleistung

  • Es unterstützt den gesamten Softwareentwicklungs-Stack
  • Es zeigt herausragende Praxistauglichkeit in TypeScript, Python, Java, Rust, C++, Go und weiteren Sprachen
  • Selbst bei minimaler Aufsicht verarbeitet es verschiedene Programmieraufgaben wie Zero-to-One-Projekterstellung, Fragen und Antworten zu Codebasen sowie präzise Bugfixes schnell und genau
  • Grok Code Fast 1 bietet unter den derzeit verfügbaren Modellen die schnellste Reaktionsfähigkeit
  • Wenn man es in kleine Arbeitseinheiten aufteilt, ist es besonders vorteilhaft für iterative und schnelle Workflows
  • Ein praktisches Beispiel: In der Cursor-Umgebung wurde innerhalb nur eines Tages ein Battle-Simulator-Prototyp fertiggestellt
  • Es ist effizient, große Features zu planen, sie in Schritte zu zerlegen und iterativ auszuführen

Preismodell

  • $0.20 pro 1 Million Eingabe-Token
  • $1.50 pro 1 Million Ausgabe-Token
  • $0.02 pro 1 Million zwischengespeicherte Eingabe-Token
  • Mit starker Leistung und wirtschaftlicher Preisgestaltung lassen sich tägliche Programmieraufgaben schnell und effizient erledigen

Modellleistung und Bewertung

  • Mit einer Token-Verarbeitungsgeschwindigkeit (Tokens Per Second, TPS) von 190 erreicht es ein Spitzenniveau in der Branche
  • Im Vergleich zu anderen Modellen (Gemini 2.5 Pro, GPT-5, Claude Sonnet 4, Qwen3-Coder, Grok 4) zeigt es sowohl beim Preis als auch bei der Verarbeitungsgeschwindigkeit starke Wettbewerbsfähigkeit
  • Es kombiniert verschiedene öffentliche Benchmarks und reale Entwicklertests
    • Auf der SWE-Bench-Verified-Teilmenge wurden 70,8 % erreicht
  • Durch die Kombination aus regelmäßiger menschlicher Bewertung durch Ingenieure aus der Praxis und automatisierten Tests werden Nutzwert und Zufriedenheit des Modells maximiert

Ausblick und Nutzungshinweise

  • Es wird über die offizielle API und große Partner angeboten; außerdem gibt es vorübergehend eine kostenlose Testmöglichkeit
    • GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode, Windsurf usw.
  • Kontinuierliche Updates und schnelle Verbesserungszyklen werden zugesichert
  • Neue Varianten mit Funktionen wie multimodalen Eingaben, parallelen Tool-Aufrufen und erweitertem Kontext befinden sich ebenfalls im Training
  • Ein Prompt-Engineering-Guide wird ebenfalls separat bereitgestellt
  • Über die Model Card und Feedback-Kanäle (Discord usw.) können Meinungen geteilt werden

1 Kommentare

 
GN⁺ 2025-08-30
Hacker-News-Kommentare
  • Habe es gestern mit Cline getestet: schnell, passt gut zu agentic flows, und die Codequalität ist ziemlich ordentlich. Ich verstehe nicht, warum dieser Thread so negativ ist (wurde beim Tippen sogar geflaggt). Ich finde das Modell okay, gefühlt mindestens auf dem Niveau von gpt5-mini. Ich habe gpt5-mini ein paar Tage als Hauptmodell genutzt; es passte ins Budget und erledigte die Arbeit gut.

    • Was mir aufgefallen ist:

      • Es ist schnell (getestet in der EU-Zeitzone)
      • Es geht interessant mit agentischen Arbeitsweisen um: Statt eine ganze Datei auf einmal zu ändern, verbessert es sie schrittweise über mehrere Durchgänge
      • Ich habe bei einer HTML-Parsing-Funktion (bs4) ungefähr 110.000 Token verbraucht, und trotzdem hat es die Aufgabe problemlos abgeschlossen; auch bei hohem Kontext keine Probleme
      • Wenn der erste Versuch scheitert, erstellt es erst eine separate Datei zum Mocken/Testen und ändert danach bei Erfolg die Hauptmoduldatei; GPT5-mini kam beim Bearbeiten von Dateien während der Arbeit oft durcheinander und scheiterte
    • Insgesamt okay, für den Preis auch als Daily Driver brauchbar. Man könnte sich vorstellen, Opus + gpt5 high als Planner zu nutzen und dieses Modell als Implementer laufen zu lassen. Wegen der Geschwindigkeit wäre auch ein paralleles pass@x-Setup interessant.

    • Es ist gut, dass es auf allen Ebenen verschiedene Optionen gibt. Verschiedene Anbieter sollten konkurrieren, damit sie unter Druck bleiben und die Preise sinken. gpt5-mini liegt bei 2$/MTok, dieses Modell bei etwa 1,5$/MTok, also fast „gratis“. Ich verstehe diese negative Stimmung nicht.

    • Qwen3-Coder-480B (gehostet bei Cerebras) kostet über OpenRouter 2$/Mtok inklusive Ein- und Ausgabe.

      • Auf OpenRouter heißt es, Cerebras liefere mehr als 2000 Token pro Sekunde, also 10-mal schneller.
      • Unabhängige Benchmarks deuten darauf hin, dass Qwen3-Coder-480B das bessere Modell ist.
    • Sollte man es schon als gute Leistung werten, wenn nur etwa die Hälfte der context length genutzt wird? Bei qwen3-coder habe ich das Gefühl, dass es bei 65k/256k durcheinandergerät, und im Vergleich zu grok ist es 50 % teurer.

    • Guter Review, würde mich interessieren, wie es im Vergleich zu claude code abschneidet.

    • Ich sehe das ähnlich. Ich nutze das Modell in letzter Zeit auch und finde es ziemlich okay, außerdem sehr schnell.

      • Die HN-Kommentare sind Elon Musk gegenüber negativ, und bei LLMs sieht man voreingenommene Reaktionen, deshalb scheint es nicht fair bewertet zu werden.
  • Interessant ist, dass der Benchmark, den dieses Modell hervorhebt, die Token-Ausgabegeschwindigkeit ist; es heißt sogar „fast“.

    • Normalerweise würden Software Engineers wohl denken, dass die Tokenqualität wichtiger ist als die Geschwindigkeit.

    • Entscheidend ist, wie schnell es wirklich ist.

      • Wenn LLM-Ergebnisse sowieso oft falsch sind, kann es wertvoller sein, Prompts schnell mehrfach auszuprobieren und iterativ zu verfeinern.
      • Im Extremfall, wenn ein ganzes Projekt in Millisekunden verarbeitet werden könnte, wäre das selbst bei gleicher Erfolgsquote viel wertvoller.
      • Solche Geschwindigkeit könnte nicht nur die User Experience verändern, sondern auch die Art, wie das Tool überhaupt genutzt wird.
      • Man könnte auch sofort drei verschiedene Vorschläge bekommen.
      • Ich persönlich will nichts mit X zu tun haben und werde Grok daher nicht verwenden; das ist einfach persönliche Präferenz.
    • Das ist nicht der schlechteste von xAI erfundene Messwert.

    • Ich habe die kostenlose API von Cerebras ausprobiert (Qwen Coder 480b, gpt-oss-120b verfügbar, keine Partnerschaft), und mit etwa 3000 Token pro Sekunde ist sie wirklich schnell.

      • Deshalb schaue ich immer auf die Modellgeschwindigkeit.
      • Allerdings hat die Cerebras-Cloud ein tägliches Limit von 70 Millionen Token, und es gibt Rückmeldungen, dass man das sehr schnell erreicht; für tägliche Entwicklung also stark eingeschränkt.
    • Hängt vom Einsatzzweck ab.

      • Bei einfacher Funktions-Autovervollständigung (String-Verarbeitung, Funktionsdefinitionen usw.) ist Geschwindigkeit wichtiger.
      • Beim Codieren an Entscheidungsstellen oder wenn man noch nachdenkt, ist Qualität wichtiger, aber wenn ich genau weiß, was ich tue, hilft ein weniger intelligentes, aber schnelles Modell mehr für den Arbeitsfluss.
      • Langsame Modelle zwingen einen eher dazu, den Code wie bei einem PR-Review gründlich zu prüfen; das verändert den Workflow stark.
    • Geschwindigkeit ist sehr wichtig.

      • Natürlich bringt es nichts, wenn die Qualität zu schlecht ist, aber ein Modell, das so gut wie Claude Sonnet 4 und gleichzeitig schnell ist, könnte agentisches Coding grundlegend verändern.
      • Im Moment schickt man einen Prompt ab und wartet dann 30 Sekunden bis mehrere Minuten; dadurch ist echtes Experimentieren schwer.
      • Wenn alles in wenigen Sekunden erledigt wäre, könnte man viel experimenteller und iterativer arbeiten.
      • Besonders nützlich wäre das bei Frontend-Code, wo man die UI immer wieder anpassen muss.
  • Ich frage mich, was HN derzeit als AI-Coding-Assistant nutzt, zum Beispiel Empfehlungen für VSCode-Plugins und praktische Tipps aus echter Nutzung.

  • Ich frage mich, ob die „Coding“-Version, die erschien, als Grok-4-Codeleistung vielfach als schlecht bewertet wurde, vielleicht dieses Modell ist.

    • Wenn es bei Benchmarks schwach ist, greift man anscheinend lieber zu etwas, das sich leichter aufblasen lässt: Geschwindigkeit.

    • Nach einigem Suchen habe ich nur Posts auf Reddit gefunden, in denen ein offensichtlich spamartiger Account dieses Modell lobt.

    • Link zu diesem Account

    • Es wirkt auf mich, als basiere es auf Grok 3; Grok 3 war extrem schnell und auf Programmierung spezialisiert.

  • Für die gesamte Kategorie „SWE-Bench-Verified“ soll grok-code-fast-1 laut internem Benchmark auf 70,8 % kommen, und ich würde mir dieses Benchmark-Tool selbst gern genauer ansehen.

    • In Berichten von Drittanbietern liegt es eher bei 57,6 %.

    • Relevanter Link

      • Mag kleinlich klingen, aber ich war schon beim Öffnen der Seite überrascht, wie chaotisch die Datumsdarstellung ist (Tag/Monat/Jahr steht durcheinander).

      • Das ist nicht nur verwirrend, sondern sorgt auch dafür, dass die Sortierung nicht richtig funktioniert.

      • Ich habe die Datumsspalte sortiert, und das Ergebnis ergab überhaupt keinen Sinn (es wurde anscheinend am mittleren Eintrag ausgerichtet).

      • Wenn man nicht einmal auf solche Basics achtet, kommt schnell der Verdacht auf, dass auch der Code schlampig sein könnte.

      • [Einige Länder nutzen diese Schreibweise zwar noch, aber die meisten sind längst auf einen Standard umgestiegen]

      • Im Vergleich zu anderen Modellen sehen die Ergebnisse trotzdem gut aus.

  • Ich habe auch mit der Basisversion von Grok 4 ziemlich gute Ergebnisse gesehen.

    • Das Problem ist, dass es wenig erklärt und eher einfach Code austauscht, aber die Ergebnisse an sich waren nicht schlecht.
    • Ich persönlich hätte lieber etwas mehr Feedback und Erklärung zu den vorgeschlagenen Änderungen als einfach nur eine schnellere Version.
    • In letzter Zeit fand ich GPT-5 nützlicher als Sonnet 4.
      • Wenn man nach verschiedenen Architektur-Optionen fragt, gibt es sehr gute Antworten und eine schrittweise Anleitung zur Problemlösung, was mir gefällt.

      • Statt im „One-Shot“-Stil den gesamten Code auf einmal neu zu schreiben, gefällt mir dieser Prozess besser, bei dem sich das Ergebnis an die Richtung anpasst, die ich wirklich möchte.

      • Ich denke, Opus 4.1 oder die Sonnet-Reihe werden in Bewertungen von One-Shot-Problemlösungen nicht besonders treffend erfasst; entscheidend ist, wie gut sie als echter Assistent funktionieren.

      • Auch gpt-5 wiederholt manchmal hartnäckig dieselbe Richtung, selbst wenn ich sie nicht will, egal wie viel man darüber spricht.

        • Insofern gibt es Leute, die die Art von „Ja, genau“-Reaktion von Modellen wie Claude bevorzugen.
        • Je nach Entwicklungsniveau erwartet man Unterschiedliches von einem Modell, aber für mich ist wichtig, dass die letztliche Entscheidung bei mir liegt.
      • Sonnet 4 ist bei Architekturdesign oder tiefgehender Analyse GPT-5 vielleicht unterlegen, aber wenn der detaillierte Plan schon steht und es nur darum geht, viel Code herunterzuschreiben, ist Sonnet 4 besser.

  • Nach ein paar Tagen Testen von Grok fühlt es sich für mich eher wie ein Rückschritt an.

    • Ich habe zum ersten Mal seit Langem erlebt, dass Teile meines Codes zufällig gelöscht wurden.

    • Die führenden Coding-Modelle sind inzwischen ziemlich vertrauenswürdig geworden, aber Grok wirkt noch nicht auf diesem Niveau.

    • Auch wenn es schnell und kostenlos ist: Wenn ich ihm meinen Code nicht anvertrauen kann, taugt es für mich nicht als Tool.

      • Ich habe Grok Code Fast 1 in Kilo Code kostenlos ausprobiert, und die Ergebnisse waren sehr schlecht.

        • Weniger zuverlässig als GPT 5 Mini und ironischerweise auch langsamer.
      • Full Self Coding?

      • Mich würde interessieren, welche Plattform/Sprache du nutzt.

        • Reviews ohne diesen Kontext gehen extrem auseinander, was verwirrend ist.
        • Es gibt große Unterschiede je nach Sprache; im TS-Webentwicklungsbereich sind die Ergebnisse immer besser.
      • Ist es wirklich ein Problem, wenn ein Teil des Codes gelöscht wird? Es gibt doch Versionsverwaltung.

  • Es macht unglaublich schnell komplett unsinnige Dinge, und das ist nichts Gutes.

    • Für einfache, konkrete Aufgaben wie CRUD-Endpunkte, i8n-Dateien usw. ist es wohl geeignet, aber darüber hinaus eher fraglich.

      • Genau für solche Sachen nutze ich dieses Modell.

        • Es ist perfekt für „einfache und lästige Nebenaufgaben“.
        • Man braucht nicht immer ein superintelligentes Modell; man kann es für Dinge nutzen, die niemand machen will, und schnell viel abarbeiten.
        • Man muss es aber etwas genauer anweisen, sonst driften die Ergebnisse ab.
        • Wenn man jedoch klare Beispiele mitgibt, macht es die aufgetragene Arbeit gut.
      • Ich habe es gebeten, eine Justfile zu verbessern, und es hat alles komplett verhunzt und ist in einer Endlosschleife gelandet.

        • Verwendet in Kilo Code; meiner Erfahrung nach kann das je nach Person unterschiedlich ausfallen.
  • Schon in der Stealth-Phase des „sonic“-Modells war es schnell, aber die Qualität war nicht genauer als nötig.

    • Es hat zwar Testcode erzeugt und wiederholt ausgeführt, aber nicht das beabsichtigte Verhalten geprüft, sondern nur Mock-Aufrufe kontrolliert.

    • Es hat Grenzen, wenn es darum geht, auch auf tatsächliche Nutzungsmuster zu achten.

      • In solchen Fällen scheint es stark bei der Erzeugung von Boilerplate zu sein.
  • Ich fand es beeindruckend.

    • Bei einer Frage zum Refactoring hat es mehrere Tool-Aufrufe gemacht, den Code schnell gelesen, logisch analysiert und mir gesagt, es habe zwei Bugs gefunden.
    • Natürlich waren beide keine Bugs.
    • Aber es „sah cool aus“.