- Grok 4 von xAI hat in wichtigen Benchmarks Platz 1 unter den KI-Modellen erreicht
- Im AAI Index liegt Grok 4 mit 73 Punkten vor OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) und DeepSeek R1 0528 (68)
- Grok 4 erzielte auch in Benchmarks zu Coding und Mathematik die Bestwerte und stellte unter anderem bei GPQA Diamond (88 %) und Humanity’s Last Exam (24 %) neue Rekorde auf
- Der Preis ist identisch mit Grok 3; der Preis pro Token entspricht Claude 4 Sonnet und ist etwas höher als bei Gemini 2.5 Pro oder o3
- Wichtige Funktionen wie 256k-Token-Kontextfenster, Text-/Bildeingabe, Function Calling und strukturierte Ausgaben werden unterstützt
Grok 4 steigt zum Führungsmodell von xAI auf
- Mit 73 Punkten im Artificial Analysis Intelligence Index erreicht Grok 4 Platz 1 in wichtigen Benchmarks
- Mit höheren Werten als OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) und DeepSeek R1 0528 (68) ist dies das erste Mal, dass xAI die Führung unter KI-Modellen übernimmt
- Schon Grok 3 war wettbewerbsfähig, doch Grok 4 ist das erste Modell, mit dem xAI die Spitzenposition erreicht
Benchmark- und Bewertungsergebnisse
- Sowohl beim Coding-Index (LiveCodeBench & SciCode) als auch beim Mathematik-Index (AIME24 & MATH-500) auf Platz 1
- GPQA Diamond 88 % und damit besser als der bisherige Rekord von Gemini 2.5 Pro (84 %)
- Humanity’s Last Exam 24 % und damit über dem bisherigen Wert von Gemini 2.5 Pro (21 %)
- MMLU-Pro 87 %, AIME 2024 94 % und damit jeweils geteilter Bestwert
- Ausgabegeschwindigkeit von 75 Token/Sekunde: langsamer als o3 (188), Gemini 2.5 Pro (142) und Claude 4 Sonnet Thinking (85), aber schneller als Claude 4 Opus Thinking (66)
Weitere wichtige Informationen
- 256k-Token-Kontextfenster (im Vergleich zu Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k im oberen Bereich)
- Unterstützt Text- und Bildeingaben
- Unterstützt Function Calling und strukturierte Ausgaben
- Preismodell: wie bei Grok 3 unverändert $3/$15 pro 1M Eingabe-/Ausgabe-Token, $0.75 pro Cache-Eingabe-Token
- Gleichauf mit Claude 4 Sonnet, etwas teurer als Gemini 2.5 Pro und o3
- Grok 4 soll über die xAI API, den Grok-Chatbot (X/Twitter) sowie Microsoft Azure AI Foundry verfügbar sein
Zusammenfassung
- Grok 4 ist das erste KI-Modell, mit dem xAI die Führung übernimmt, und liegt in Benchmarks und Kennzahlen vor allen wichtigen Konkurrenzmodellen
- Starke Reasoning-Fähigkeiten, vielfältige Ein-/Ausgabeformen und umfangreiche Kontextunterstützung untermauern die Führungsposition in der Branche
- Die Implementierungsdetails der Modelle für X/Twitter und für die API können sich in der Praxis unterscheiden
5 Kommentare
Ich glaube es erst, wenn es erstmal kostenlos verfügbar ist. Grok kostet sogar 30 Dollar, da habe ich Angst, ein Abo abzuschließen...
Das scheint die Leistung eines Modells mit weniger Alignment-Prozess zu sein, aber vermutlich wird es nach Gegenwind etwas zurückrudern und an Leistung verlieren.
Wenn man gemini cli nutzt, ist die User Experience dank des 1M-Kontexts auf einem ganz anderen Niveau.
Dass man eine komplette Codebasis in den Kontext laden kann, ist ein echter Gamechanger.
Ich frage mich, wie stark die Kontextgröße die Nutzung eines Modells beeinflusst, und worin es sich noch von viralem Marketing gegenüber Leuten unterscheidet, die es nicht besser wissen, wenn man immer noch anhand von Benchmarks und oberflächlichem Anschein behauptet, was auf Platz 1 ist.
Hacker-News-Kommentare