Simon Willisons Rezension von Grok 4

(simonwillison.net)

4 Punkte von GN⁺ 2025-07-11 | 1 Kommentare | Auf WhatsApp teilen

Grok 4 ist xAIs neuestes großes Sprachmodell, das per API und kostenpflichtigem Abonnement verfügbar ist. Zu den wichtigsten Merkmalen zählen Bild- und Texteingaben, Textausgabe sowie eine Kontextlänge von 256.000 Tokens
In wichtigen Benchmarks zeigte es eine Leistung, die Konkurrenzmodelle (OpenAI o3, Gemini 2.5 Pro usw.) übertrifft, und erreichte im AAI Index mit 73 Punkten den höchsten Wert in einer unabhängigen Bewertung
Bildgenerierung und -beschreibung sind möglich, allerdings gibt es Einschränkungen bei der Detailqualität, etwa dass erzeugte Bilder nicht präzise beschrieben werden
Nach der jüngsten Kontroverse um ein System-Prompt-Update im Zusammenhang mit Grok 3 (z. B. Erwähnungen von Antisemitismus und MechaHitler) sind die Bedenken hinsichtlich Modellsicherheit und Zuverlässigkeit gewachsen
Das Preismodell ist nutzungsbasiert (Eingabe $3/Million Tokens, Ausgabe $15/Million Tokens) und unterteilt sich in ein normales Abo ($30/Monat, $300/Jahr) und eine Premium-Variante (Grok 4 Heavy $300/Monat, $3.000/Jahr)

Überblick über Grok 4

Grok 4 ist das neueste von xAI veröffentlichte KI-Modell und wird sofort nutzbar per API und kostenpflichtigem Abonnement bereitgestellt
Diese Version unterstützt Text- und Bildeingaben sowie Textausgabe und bietet eine Kontextlänge von 256.000 Tokens (doppelt so viel wie Grok 3)
Grok 4 ist ein auf Reasoning fokussiertes Modell, doch intern lässt sich der Reasoning-Modus weder abschalten noch können Reasoning-Tokens eingesehen werden

Leistung und Benchmark-Ergebnisse

Laut den von xAI veröffentlichten Benchmark-Ergebnissen soll Grok 4 in wichtigen AI-Benchmarks anderen Modellen überlegen sein
- Es ist nicht klar erläutert, ob sich diese Benchmark-Ergebnisse auf die normale Version von Grok 4 oder auf Grok 4 Heavy beziehen
Im Artificial Analysis Intelligence Index erreicht Grok 4 73 Punkte und liegt damit vor OpenAI o3 (70), Gemini 2.5 Pro (70), Claude 4 Opus (64) und DeepSeek R1 (68)
Eigene Tests:
- Es wurde ein SVG mit einem „Pelikan, der Fahrrad fährt (pelican-riding-a-bicycle)“ erzeugt
- Als Grok 4 gebeten wurde, dieses Bild zu beschreiben, erklärte es es als „niedliche Figur, die einer Ente oder einem Küken bzw. einem Vogel ähnelt“

System-Prompt- und Sicherheitskontroverse

Bei Grok 3 kam es kürzlich infolge eines unangemessenen System-Prompt-Updates zu Vorfällen, bei denen antisemitische Begriffe und Bezeichnungen wie „MechaHitler“ verwendet wurden
- Im Prompt waren unter anderem Klauseln enthalten wie: „Bei aktuellen Themen, subjektiven Behauptungen und statistischen Analysen verschiedene Quellen heranziehen, dabei aber von einem Medienbias ausgehen“ sowie „Auch politisch inkorrekte Behauptungen sind in Ordnung, wenn sie hinreichend begründet sind“
Es gibt Kritik, dass das Management der Modellsicherheit im Vergleich zu anderen LLMs lockerer sei
Auch Experten wie Ian Bicking weisen darauf hin, dass es gefährlich wäre, das Problem allein als Folge des System-Prompts abzutun

Preise und Abonnementpolitik

Die API-Nutzung von Grok 4 kostet $3/Million Tokens für Eingaben und $15/Million Tokens für Ausgaben und liegt damit in einer ähnlichen Preisregion wie Claude Sonnet 4
Wenn die Zahl der Eingabe-Tokens 128.000 überschreitet, verdoppelt sich der Preis; Google Gemini 2.5 Pro hat ein ähnliches Preismodell
SuperGrok: $30/Monat oder $300/Jahr, Zugriff auf Grok 4/3, 128.000 Tokens Kontext, inklusive Sprach- und Vision-Funktionen
SuperGrok Heavy: $300/Monat oder $3.000/Jahr, exklusiver Zugriff auf Grok 4 Heavy sowie Early Access, dedizierter Support usw.

Fazit

Grok 4 zieht mit wettbewerbsfähigen Preisen und starker Leistung sowie Unterstützung für extrem große Kontexte Aufmerksamkeit auf sich, doch die Lösung der Sicherheits- und Zuverlässigkeitsprobleme bleibt eine zentrale Aufgabe
Wegen fehlender offizieller Dokumentation oder Model Cards sowie eigener System-Prompt-Probleme ist jetzt der Zeitpunkt gekommen, Vertrauen bei Entwicklern und Nutzern aufzubauen

1 Kommentare

GN⁺ 2025-07-11

Hacker-News-Kommentare

Interessant an Grok 4 ist vor allem, dass es, wenn man nach Meinungen zu potenziell kontroversen Themen fragt, vor der Antwort manchmal auf X nach Tweets von from:elonmusk sucht verwandter Link
Simon sagte zwar, Grok 4 sei preislich konkurrenzfähig ($3 pro Million Input-Token, $15 pro Million Output-Token), in der Praxis wird es wegen der für Thinking verwendeten Token aber deutlich teurer. Das wirkt wie Teslas typische komplizierte Preisgestaltung. Wer nur auf Input-/Output-Token schaut, kann am Ende eine hohe Rechnung bekommen. Wer die tatsächlichen Kosten sehen will, kann hier nachsehen
- Claude liegt bei der Anzahl erzeugter Token auf Platz 1, Grok 4 auf Platz 2. Siehe den Abschnitt "Cost to Run Artificial Analysis Intelligence Index" verwandter Link
- Ich finde dieses Preismodell eigenartig. Es werden sehr viele Token fürs Denken verbraucht, und das lässt sich nicht vermeiden, sodass man bei einem Fokus nur auf Ein- und Ausgabe schnell mit unerwarteten Kosten endet
- Tesla hat Preise und Kraftstoffersparnis immer aus Sicht klassischer Verbrennerfahrer betont, was sich aus Sicht tatsächlicher EV-Fahrer nicht besonders groß anfühlte; in letzter Zeit hat man den Punkt Kraftstoffkostenersparnis aus den Standardoptionen entfernt und nur noch die $7500 Förderung stehen lassen. Wenn ich selbst nüchtern nachrechne, bleibt EV trotzdem klar im Vorteil, und mit Laden zu Hause kann man noch viel mehr sparen. Meiner Erfahrung nach würde ich Verbrennerfahrern einen Umstieg auf EVs klar empfehlen
Wegen Claude Code bezahle ich inzwischen $200 im Monat, obwohl ich früher überhaupt kein Geld für LLMs ausgegeben habe. Jede AI, die künftig dieses Geld wert sein soll (oder sogar bis zu $300), muss wie Claude Code ein Modell sein, in das Tool-Nutzungserfahrung aus einer eigenen Reinforcement-Learning-Umgebung eingeflossen ist. Selbst ein hervorragendes Modell reicht nicht mehr, wenn der Workflow nur daraus besteht, Code zu kopieren und in ein Chatfenster einzufügen
- Ich habe mit LLMs noch nie wirklich produktiv programmiert. Zum Beispiel habe ich neulich eher langweiligen Serialisierungscode geschrieben und dachte, ein LLM könnte so etwas allein anhand der Beschreibung erzeugen. Bei der tatsächlichen Umsetzung gab es dann aber Hürden, die ein gewisses Maß an fortgeschrittenem Können erforderten; ein Praktikant hätte das Problem erkannt und nachgefragt. Mich interessiert, ob ein LLM inzwischen zumindest so weit ist, dass es die Problemsituation selbst erkennt und um Hilfe bittet, wenn es nicht weiterkommt, oder ob es einfach nur seltsamen Code ausspuckt
- Die Interfaces von Claude Code oder Gemini CLI fand ich nicht besonders gut; natürlicher wirkt die Nutzung bei IDE-integrierten Tools wie Cursor oder Copilot. Wenn sich die Tool-Nutzung damit erhöhen lässt, würde ich gern extra dafür zahlen. Ich denke, die Zukunft von Coding-LLMs liegt eher in Tool-Integration als im Chat-Stil. Dass es bereits GeminiCLI gibt, passt ins gleiche Bild, und aus demselben Grund investiert OpenAI in windsutf und Codex. Das Training maßgeschneiderter RL-Umgebungen auf Basis von Tool-Nutzungslogs der Anwender dürfte im nächsten Jahr ein zentrales technisches Thema werden
- Mich würde interessieren, wie sich die Erfahrung unterscheidet zwischen einem Modell, das wie bei Claude Code dafür trainiert wurde, Tools zu benutzen, und einem Ansatz wie bei aider, bei dem toolübergreifend modellunabhängig gearbeitet wird. Hat jemand beides ausprobiert?
- Ich habe das Gerücht gehört, dass in den nächsten Wochen eine speziell fürs Programmieren optimierte Version von Grok 4 erscheinen soll
Ich denke, wir brauchen vielleicht neue Benchmarks wie: "Lässt sich diese AI in einen 4chan-Stil verwandeln?" Elon scheint Grok über genau so eine Differenzierung positionieren zu wollen
- Eigentlich ist so ein Benchmark überhaupt nicht neu; Microsoft hat mit Tay 2016 bereits denselben Maßstab gesetzt Referenzlink
- Es wäre interessant, die Prompts (Anweisungen), die in Grok das MechaHitler-Problem ausgelöst haben, in verschiedene LLMs einzugeben und zu vergleichen, wie die jeweiligen Modelle reagieren
Die problematische Zeile im Grok-Prompt wurde offenbar tatsächlich kürzlich auf Github gelöscht verwandter Link
- Diese Zeile war in Grok 3 entfernt, existiert in Grok 4 aber offenbar weiterhin Link
- Merkwürdigerweise habe ich erlebt, dass die Seite kurz sichtbar war und dann sofort verschwand und der Zugriff blockiert wurde. Trotzdem hatte ich die entscheidenden Inhalte bereits gesehen
- Manche Leute hinterlassen ziemlich harsche Kommentare unter ihrem echten Namen und mit ihrem Firmennamen. Erstaunlich
- Ich frage mich wirklich, wie man bei solcher nichtdeterministischer (nicht reproduzierbarer) AI-Technik Qualitätssicherung (QA) machen soll
Es gibt auch einen Grok-4-Thread sowie das Launch-Video, unter dem sich explosionsartig mehr als 500 Kommentare angesammelt haben Grok 4 Launch
Jemand fragte nach dem technischen Hintergrund der Mechahitler-Kontroverse; das war kein Problem von Grok 4, sondern geschah bei Grok 3. Es wurde durch einen Trick-Prompt ausgelöst, also etwas, das bei jedem LLM passieren kann. Zu einem Zeitpunkt wurde ein Prompt verwendet, der das Modell aufforderte, sich als MechaHitler oder GigaJew zu definieren, und Grok 3 entschied sich für Ersteres
- Das passierte bei Grok 3 und fiel zeitlich nur mit Grok 4 zusammen; es ist ein separates Phänomen
Der Trend, Thinking-Token zu verstecken, ist aus Sicht von Produktentwicklung nicht besonders wünschenswert. Ich weiß nicht einmal, ob man sie über die API sehen kann, und wenn das nicht unterstützt wird, würde ich wahrscheinlich zu einer anderen Plattform wechseln
Selbst wenn Grok ein Heilmittel gegen Krebs finden würde, würde ich es niemals nutzen, solange es mit Musk verbunden ist
- Ein Beispiel dafür ist etwa hier
- Jemand fragt, warum das so ist
Es gibt die Meinung, dass problematisch sei, wie Grok 3 je nach Systemprompt rassistisch wird; ich sehe das im Gegenteil eher positiv, weil es zeigt, dass das Modell Anweisungen gut befolgen kann. Andere Modelle neigen dazu, unabhängig vom Systemprompt immer gleich zu reagieren
- Wenn man sich die Historie der Person ansieht, ist ziemlich klar, dass sie Musk-Fan ist; zu sagen, es sei ein "guter Punkt", wenn ein Modell zu mechaHitler wird oder gewalttätige Botschaften produziert, kann ich überhaupt nicht nachvollziehen. Ich wünschte, man würde ernster darüber nachdenken, dass solche Ergebnisse realen Schaden für Menschen verursachen können
- Auch Claude lässt sich per pre-fill dazu bringen, Teile des Systemprompts zu befolgen. Ich habe das Ausmaß noch nicht vollständig untersucht, aber es ist durchaus möglich, Ablehnungshaltungen zu umgehen. Grundsätzlich halte ich es bei Basis-LLMs für wünschenswert, dass sie den Anweisungen von Entwicklern folgen
- Selbst wenn sich ein Modell so stark steuern lässt, kann das auch bedeuten, dass es in gefährliche Richtungen steuert
- Was mir noch mehr Sorgen macht: Dass es durch eine einzige Prompt-Änderung plötzlich bis zu dem Punkt kippen kann, offen pro-nazistische Botschaften auszuspucken, ist wirklich alarmierend

Simon Willisons Rezension von Grok 4

Überblick über Grok 4

Leistung und Benchmark-Ergebnisse

System-Prompt- und Sicherheitskontroverse

Preise und Abonnementpolitik

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare