5 Punkte von GN⁺ 2025-07-11 | 5 Kommentare | Auf WhatsApp teilen
  • Grok 4 von xAI hat in wichtigen Benchmarks Platz 1 unter den KI-Modellen erreicht
  • Im AAI Index liegt Grok 4 mit 73 Punkten vor OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) und DeepSeek R1 0528 (68)
  • Grok 4 erzielte auch in Benchmarks zu Coding und Mathematik die Bestwerte und stellte unter anderem bei GPQA Diamond (88 %) und Humanity’s Last Exam (24 %) neue Rekorde auf
  • Der Preis ist identisch mit Grok 3; der Preis pro Token entspricht Claude 4 Sonnet und ist etwas höher als bei Gemini 2.5 Pro oder o3
  • Wichtige Funktionen wie 256k-Token-Kontextfenster, Text-/Bildeingabe, Function Calling und strukturierte Ausgaben werden unterstützt

Grok 4 steigt zum Führungsmodell von xAI auf

  • Mit 73 Punkten im Artificial Analysis Intelligence Index erreicht Grok 4 Platz 1 in wichtigen Benchmarks
  • Mit höheren Werten als OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) und DeepSeek R1 0528 (68) ist dies das erste Mal, dass xAI die Führung unter KI-Modellen übernimmt
  • Schon Grok 3 war wettbewerbsfähig, doch Grok 4 ist das erste Modell, mit dem xAI die Spitzenposition erreicht

Benchmark- und Bewertungsergebnisse

  • Sowohl beim Coding-Index (LiveCodeBench & SciCode) als auch beim Mathematik-Index (AIME24 & MATH-500) auf Platz 1
  • GPQA Diamond 88 % und damit besser als der bisherige Rekord von Gemini 2.5 Pro (84 %)
  • Humanity’s Last Exam 24 % und damit über dem bisherigen Wert von Gemini 2.5 Pro (21 %)
  • MMLU-Pro 87 %, AIME 2024 94 % und damit jeweils geteilter Bestwert
  • Ausgabegeschwindigkeit von 75 Token/Sekunde: langsamer als o3 (188), Gemini 2.5 Pro (142) und Claude 4 Sonnet Thinking (85), aber schneller als Claude 4 Opus Thinking (66)

Weitere wichtige Informationen

  • 256k-Token-Kontextfenster (im Vergleich zu Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k im oberen Bereich)
  • Unterstützt Text- und Bildeingaben
  • Unterstützt Function Calling und strukturierte Ausgaben
  • Preismodell: wie bei Grok 3 unverändert $3/$15 pro 1M Eingabe-/Ausgabe-Token, $0.75 pro Cache-Eingabe-Token
    • Gleichauf mit Claude 4 Sonnet, etwas teurer als Gemini 2.5 Pro und o3
  • Grok 4 soll über die xAI API, den Grok-Chatbot (X/Twitter) sowie Microsoft Azure AI Foundry verfügbar sein

Zusammenfassung

  • Grok 4 ist das erste KI-Modell, mit dem xAI die Führung übernimmt, und liegt in Benchmarks und Kennzahlen vor allen wichtigen Konkurrenzmodellen
  • Starke Reasoning-Fähigkeiten, vielfältige Ein-/Ausgabeformen und umfangreiche Kontextunterstützung untermauern die Führungsposition in der Branche
  • Die Implementierungsdetails der Modelle für X/Twitter und für die API können sich in der Praxis unterscheiden

5 Kommentare

 
slowandsnow 2025-07-11

Ich glaube es erst, wenn es erstmal kostenlos verfügbar ist. Grok kostet sogar 30 Dollar, da habe ich Angst, ein Abo abzuschließen...

 
paruaa 2025-07-11

Das scheint die Leistung eines Modells mit weniger Alignment-Prozess zu sein, aber vermutlich wird es nach Gegenwind etwas zurückrudern und an Leistung verlieren.

 
click 2025-07-11

Wenn man gemini cli nutzt, ist die User Experience dank des 1M-Kontexts auf einem ganz anderen Niveau.
Dass man eine komplette Codebasis in den Kontext laden kann, ist ein echter Gamechanger.

 
koolgu 2025-07-11

Ich frage mich, wie stark die Kontextgröße die Nutzung eines Modells beeinflusst, und worin es sich noch von viralem Marketing gegenüber Leuten unterscheidet, die es nicht besser wissen, wenn man immer noch anhand von Benchmarks und oberflächlichem Anschein behauptet, was auf Platz 1 ist.

 
GN⁺ 2025-07-11
Hacker-News-Kommentare
  • Ich kann mir nicht vorstellen, wer für Grok bezahlen würde, zumal es in letzter Zeit völlig aus dem Ruder gelaufen zu sein scheint; die Bewertung von xAI ist einfach nur eine Luftnummer.
    • Ich bezahle für Grok und nutze es seit einigen Monaten statt Google. Es ist wirklich nützlich, weil es Zugriff auf den X Graph hat und viele aktuelle Informationen bietet. Ich wünschte, man könnte es auch in Cline oder Cursor verwenden.
    • Ich frage mich, ob dir klar ist, dass nicht das Grok-Modell Probleme verursacht hat, sondern der @grok-Bot auf X. Bei der API-Version von Grok kommt es nicht plötzlich grundlos zu Hitler-Imitationen (es sei denn, man fordert das direkt an).
  • Bei ARC-AGI2 erreicht es die vierfache Leistung von o3 und die doppelte von opus 4 … auch andere unabhängige Benchmarks fallen stark aus. Der kurze Zyklus, in dem jedes Modell einen Monat lang behauptet, „das beste der Welt“ zu sein, dreht sich immer weiter. Bei diesen Preisen ist das gut für Verbraucher, und auch die Trainingsdatensätze offener Modelle werden vielfältiger — eine Win-win-Situation. Es ist schade zu sehen, wie wegen emotionaler Grabenkämpfe um Prominente kopfschmerzhafte Ausreden herumgereicht werden. Viele Menschen brauchen einen Media-Detox. Früher nannte man LLMs „stochastische Papageien“, aber wenn man sich diesen Thread und Reddit ansieht, sind es eher die Menschen, die dumme und hasserfüllte Dinge papageienhaft wiederholen. Es muss besser werden.
  • Ich frage mich, ob in meinem Code künftig weiterhin Hitler-bezogene Antworten auftauchen werden. Edit: Ich komme mir dumm vor, weil ich nicht erkannt habe, dass das wieder einmal ein „genialer“ Marketing-Move war.