Grok 4 veröffentlicht

(twitter.com/xai)

7 Punkte von GN⁺ 2025-07-11 | 6 Kommentare | Auf WhatsApp teilen

Grok 4 ist das neueste KI-Modell von xAI, das nach rund zwei Jahren veröffentlicht wurde, und soll in allen Bereichen Intelligenz und Schlussfolgerungsvermögen aufweisen, die Graduierten deutlich überlegen sind
Trainingsumfang und Rechenressourcen wurden um mehr als das 100-Fache erhöht, und die Weiterentwicklung mit Fokus auf Reinforcement Learning (RL) soll Problemlösungsfähigkeiten über menschlichem Niveau belegen
Mit einem ARC-AGI-Wert von 15,9 % erzielte es ein Spitzenergebnis bei der Bewertung von abstraktem Schlussfolgern und allgemeiner Intelligenz unter den derzeit verfügbaren KI-Systemen
In verschiedenen Benchmarks wie Humanity’s Last Exam (HLE) zeigte es bahnbrechende Ergebnisse von 26,9 % ohne externe Tools, 41–50,7 % mit Tools
Mit der Einführung des nativen Sprachmodus ermöglicht es menschenähnliche Interaktion durch Echtzeitgespräche, Emotionsausdruck und Antworten mit niedriger Latenz

Grok 4

xAI, das von Elon Musk gegründet wurde, hat nach rund zwei Jahren Grok 4 vorgestellt und betont, es sei das „weltbeste KI-Modell“
Bei standardisierten Prüfungen wie SAT und GRE erzielte es volle Punktzahl und zeigte auch bei Aufgaben auf Master- und Promotionsniveau in sämtlichen Fachgebieten eine beispiellose Leistung
> "Bei akademischen Fragen ist Grok 4 in allen Fächern klüger als Graduate-Studierende"
Grok 2 war ein Konzeptmodell, Grok 3 konzentrierte sich auf Vortraining auf Basis verschiedener Datenquellen, und Grok 4 wurde mit 100-mal mehr Rechenressourcen und Daten als 2 sowie 10-mal mehr als 3 trainiert
Das Training erfolgte auf dem Colossus-Supercomputer (200.000 GPUs) mit Schwerpunkt auf Vortraining und RL
- Fokus auf Reinforcement Learning (RL), wobei das Modell während des Problemlösungsprozesses Feedback erhält und seine Leistung schrittweise über eine Struktur zur Korrektur eigener Fehler verbessert
- Hervorgehoben wird, dass in kurzer Zeit maximale Fortschritte erzielt wurden, basierend auf logischer Problemlösungsfähigkeit und Denken nach „first principles“

Zwei Modellversionen

Das Basismodell Grok 4 und die leistungsstärkere Version Grok 4 Heavy
Grok 4 Heavy setzt auf einen Multi-Agenten-Ansatz, bei dem mehrere Agenten gleichzeitig Probleme lösen und durch Vergleich ihrer Ergebnisse die optimale Antwort finden; damit wird kollektive Intelligenz umgesetzt
- Nutzbar über den Abodienst SuperGrok Heavy (300 US-Dollar pro Monat)

AGI-Scoring-Durchbruch

Grok 4 erreichte im ARC-AGI-Test mit 15,9 % einen Wert auf Spitzenniveau in der Branche
ARC-AGI bewertet die allgemeine Intelligenz und abstrakte Problemlösungsfähigkeit eines Modells, mit Schwerpunkt auf visueller Mustererkennung und der Fähigkeit, diese auf neue Szenarien anzuwenden

Ergebnisse bei Humanity's Last Exam (HLE)

Humanity’s Last Exam (HLE), eingeführt im Januar 2025, ist ein extrem anspruchsvoller Benchmark mit mehr als 100 Fachgebieten und 2.500 Fragen aus Mathematik, Biologie, Sozialwissenschaften, Physik, KI, Ingenieurwesen, Chemie und weiteren Bereichen
Das Ergebnis von Grok 4: „auf einem Niveau, das für reale Menschen oder bestehende KI bislang unzugänglich ist“
- Ohne Tool-Nutzung: 26,9 %
- Mit Tool-Nutzung (Grok 4 Heavy): 41 %
- Mit zusätzlicher Test-Compute (32-fach): bis zu 50,7 %
Ohne Tool-Nutzung bedeutet, dass Probleme allein mit den integrierten Sprach- und Schlussfolgerungsfähigkeiten gelöst werden; mit Tool-Nutzung bezeichnet den kombinierten Einsatz mit einem Multi-Agenten-System, einschließlich Code-Ausführung, Websuche und Nutzung externer Daten
Training Compute nutzt den Colossus-Supercomputer mit 200.000 GPUs, um Modellwissen und Tool-Nutzung zu trainieren; Test-Time Compute bedeutet, dass während der Problemlösung mehrere Modelle parallel ausgeführt und die Ergebnisse verifiziert werden

> „Grok 4 ist in allen Bereichen mindestens auf PhD-Niveau“
> "Schon bald werden sogar Entdeckungen neuer Technologien/neuer Physik erwartet"

Wichtige KI-Benchmark-Ergebnisse

AIME: Fähigkeit zum Lösen komplexer mathematischer Probleme auf High-School-Niveau
GPQA: Bewertung wissenschaftlicher Schlussfolgerung auf Graduiertenniveau, etwa in Physik
LiveCodeBench: Messung der Coding-Fähigkeiten anhand von Python-Programmier-Challenges
MMLU-Pro: Fähigkeit, schwierige Multiple-Choice-Fragen aus verschiedenen Fachgebieten zu lösen
LOFT: Bewertung der Fähigkeit, aus langen Texten die für komplexe Abfragen nötigen Informationen zu extrahieren

Praktische Anwendungsfälle und Real-World-Einsatz

In der Business-Simulation (VendingBench) zeigte Grok 4 mehr als doppelt so gute Ergebnisse wie frühere Modelle sowie hohe Konsistenz und bewies damit die Fähigkeit zu langfristiger Strategieausführung
In Life-Science-Laboren und anderen Umgebungen wird es bereits zur Analyse großer Experiment-Logs, zur Hypothesengenerierung und zur Auswertung medizinischer Bilddaten eingesetzt und belegt damit reale Effizienzgewinne
In der Spieleentwicklung unterstützt es bis hin zur automatischen Erfassung von Spiel-Assets und zur Code-Generierung, sodass ein einzelner Entwickler schneller ein 3D-Spiel fertigstellen kann

Innovation im nativen Sprachmodus

Grok 4 unterstützt Sprachdialoge in Echtzeit und bietet mit natürlichen Unterbrechungen, Verständnis und Wiedergabe emotionaler Intonation sowie ultraniedriger Latenz eine menschenähnliche Interaktion, die über bisherige TTS-Systeme hinausgeht
Es wurden mehrere Sprachvarianten hinzugefügt (britischer Stil, Trailer-Stil usw.), und in Live-Demos wurden Geschmeidigkeit, Geschwindigkeit und vielfältige Einsatzmöglichkeiten von Echtzeitgesprächen demonstriert

API und Ausbau des Ökosystems

Grok 4 ist auch über eine API verfügbar, sodass jeder Benchmark-Tests und geschäftliche Anwendungen umsetzen kann
Partner aus verschiedenen Bereichen wie Finanzen, Wissenschaft und Entertainment setzen es bereits ein, was den Real-World-Impact erhöht
Mit 256k context length wird die Verarbeitung langer und komplexer Aufgaben verbessert

Grenzen und künftige Weiterentwicklung

Die größte Schwäche von Grok 4 liegt derzeit in der unzureichenden multimodalen Verständnis- und Generierungsfähigkeit für Bilder, Videos und andere Modalitäten
Mit dem bald fertig trainierten v7 Foundation-Modell und weiter verstärktem RL sind umfassende Verbesserungen bei Vision, Video und Audio geplant
Ein Modell zur Videogenerierung (unter Einsatz von 100.000+ GB200 GPUs) ist in Entwicklung und wurde bereits angekündigt

xAIs künftige Roadmap

August 2025: Veröffentlichung eines Coding-Modells geplant
September 2025: Vorstellung eines multimodalen Agenten
Oktober 2025: Geplante Ankündigung eines Videogenerierungsmodells
Tools und Modellleistung sollen kontinuierlich weiter verbessert werden

Fazit und Implikationen

Grok 4 belegt, dass es bei Schlussfolgerungsvermögen und akademischer Problemlösung mit den derzeit besten KI-Systemen real konkurrieren oder sie übertreffen kann
Beispiellose Intelligenz und Schlussfolgerungsfähigkeit, Sprachinteraktion in Echtzeit, Tool-Nutzung und Multi-Agenten-Struktur markieren einen konkreten Wendepunkt hin zur nächsten AGI-Generation
Mit seiner breiten Erweiterbarkeit für reale Arbeit, Business, Spiele, Forschung und Entertainment könnte sich xAI als das am schnellsten voranschreitende AGI-Unternehmen etablieren
xAIs schneller Entwicklungszyklus und aggressives Vorgehen zeigen, dass sich der Wettbewerb in der KI-Industrie weiter beschleunigt

6 Kommentare

xguru 2025-07-13

Grok 4 ist jetzt das führende KI-Modell
Simon Willisons Rezension zu Grok 4
Grok durchsucht, was Elon Musk auf X zum Israel-Palästina-Konflikt sagt

xguru 2025-07-11

Nun, wirklich beurteilen lässt sich das wohl erst nach der tatsächlichen Nutzung, aber mit 200.000 GPUs und einem entsprechenden Talentpool ist ein derart aggressives Wachstum offenbar möglich.
Wenn Colossus auf 1 Million GPUs kommt, wie viel besser wird es dann wohl noch werden?

Rechnet man beim H100 mit 50 Millionen Won, kommt man allein beim GPU-Preis auf 50 Billionen Won. Dazu kommen noch der Bau von Datenzentren und die nötige Stromversorgung in der Umgebung, also wohl weitere 20 Billionen Won, insgesamt also 70 Billionen Won. KI scheint zunehmend zu einem Wettstreit des Kapitals zu werden.

jujumilk3 2025-07-11

Warum werden plötzlich ausgerechnet Doktoranden reingezogen und fertiggemacht? lol

sknah 2025-07-11

Hahahaha, der plötzlich aus dem Nichts getroffene Doktorand ist völlig verdattert ..

lcanon 2025-07-11

Ich verstehe, dass Grok 4 beeindruckend ist, aber Formulierungen, die typisch für den englischsprachigen Raum sind, wie „man erwartet schon bald sogar die Entdeckung neuer Technologien/neuer Physik“, sind schon amüsant. Wenn es demnächst die Riemannsche Vermutung beweist oder widerlegt, braucht man wirklich keine weiteren Benchmarks mehr, oder?

GN⁺ 2025-07-11

Hacker-News-Meinungen

Das „Heavy“-Modell kostet 300 Dollar im Monat, und es fühlt sich so an, als würden die Preise immer weiter steigen; früher hatte ich eher den Eindruck, es sei versprochen worden, dass sie ständig fallen würden. Vermutlich liegt das daran, dass vielen Unternehmen GPUs fehlen. Bei Anbietern wie Google scheint dieses Problem nicht zu bestehen. Gemini 2.5 Pro kann man im AI Studio bereits kostenlos nutzen, und selbst bei einer Einstellung von satten 32k fallen überhaupt keine Gebühren an. Vielleicht wird sogar Gemini 3.0 kostenlos freigegeben.
- Ich glaube nicht, dass jemals jemand versprochen hat, Hochleistungsmodelle würden immer billig sein. Bei vergleichbarer Leistung und gleicher Token-Zahl sinken die Preise durchaus. Ähnlich wie bei Moores Gesetz werden Chips zwar immer komplexer, aber die Leistung pro Einheit wird günstiger.
- Das ist ein ähnliches Prinzip wie bei einem Ferrari, der teurer ist als ein Model T, oder bei den teuersten heutigen Computern, die um ein Vielfaches mehr kosten als die ersten PCs. Tatsächlich sinken die Preise eher im Entry-Level-Bereich oder bei Produktlinien mit gleichbleibender Leistung. Dass sich die gesamte Preisspanne immer weiter auffächert, ist aber ein ganz natürlicher Effekt. Ich sehe das als Zeichen dafür, dass diese Branche reifer wird. Der Unterschied ist diesmal, dass das Entry-Level durch VC-Finanzierung künstlich auf 0 oder ein sehr niedriges Niveau gedrückt wurde.
- Wichtig ist auch, dass selbst Gemini kontinuierlich teurer wird, relevanter Link
- Das ist ein Kostenskalierungseffekt, der durch die Inferenzzeit entsteht. Am Ende wird sich bei den Zugangskosten zu AI wohl eine große Kluft zwischen denen auftun, die es sich leisten können, und denen, die es nicht können. Die meisten Menschen weltweit können sich keine Abos für mehrere Hundert Dollar leisten.
- O3 wurde kürzlich um 80 % im Preis gesenkt. Grok4 ist erst seit Kurzem auf dem Markt, bietet gute Leistung und ist ziemlich vernünftig bepreist. Wenn man nicht die Heavy-Version nimmt, ist auch der Token-Preis derselbe wie bei grok 3. Google scheint die Kosten in Kauf zu nehmen, um mehr Präsenz zu gewinnen. Deshalb kann ich die Beschwerde im Ausgangspost nicht gut nachvollziehen.
Es scheint tatsächlich zu stimmen, dass hier ein neues SOTA (State of the Art, aktuell bestes Modell) erschienen ist. Gegenüber o3, Gemini und Claude liegen die Werte bei Human’s Last Exam, GPQA, AIME25, HMMT25, USAMO 2025, LiveCodeBench, ARC-AGI 1, 2 usw. deutlich höher. Außerdem soll innerhalb der nächsten Wochen noch ein spezialisiertes Coding-Modell erscheinen. Bemerkenswert ist, dass heute über die Coding-Leistung nicht besonders viel gesprochen wurde.
- Stimme zu. Bei der heutigen World-Series-Simulation hatte ich das Gefühl unsauberer Inferenz. Es hat Zahlen von Polymarket gezogen und so geantwortet, als wären sie Teil seiner eigenen Daten. Natürlich kann das auch mein Irrtum sein, weil ich es mir nicht im Detail angesehen habe. Aber bei solchen Fällen denke ich wieder, dass es unbedingt Leute braucht, die dem Sicherheitsteam eines Pioniermodells kritisch gegenüberstehen. Trotzdem ist das ein enormer Fortschritt. Wenn die Benchmarks unter unverunreinigten Bedingungen entstanden sind, könnte es als Daily Driver explosionsartig beliebt werden. Beim Coding ist der einzige wirkliche Wermutstropfen der 256k-Kontext, aber bei v7 hoffe ich auf Verbesserungen bei längeren Kontexten – vor allem im Videobereich. Wie auch immer, ich will es schnell ausprobieren.
- Ich hoffe, dass das Coding-Modell für Coding-Agenten bereitgestellt wird. Ich kann es nirgendwo finden.
- Dass die Punktzahl stark einbricht, wenn man ein Modell zensiert, ist schon lange belegt. Natürlich sollte man Dinge wie Bombenbauanleitungen blockieren, aber Grok 3 hat trotz Zugriff auf schlimmste Datenquellen durchgehend progressive Positionen vertreten (wenn man den Sponsor-Hintergrund bedenkt).
- Selbst wenn man Elon Musk nicht wohlgesonnen ist, ist es wirklich erstaunlich, dass Grok zu den großen Drei – Google, OpenAI und Anthropic – aufgeschlossen hat. Inzwischen ist es fast auf demselben Niveau.
Ich habe Grok 4 gerade ausprobiert, und es ist richtig gut. Es hat in einem Durchgang 1000 Zeilen Java-CDK-Code für das Deployment einer EC2-Instanz erzeugt, einschließlich VPC und Security Groups, ohne einen einzigen Syntaxfehler. Besonders beeindruckend war, dass es bei der Generierung von userData (#!/bin/bash-Befehlen) das aktuelle Software-Artefakt mit der exakten Adresse von GitHub per wget geholt hat. Wirklich großartig.
- Wenn du das Ergebnis teilen kannst, würde ich es sehr gern sehen. Wenn so viel Code auf einmal fehlerfrei herauskommt, ist das definitiv beeindruckend. Ich frage mich, ob grok bei solchen Anfragen auch Tools wie Linter, Sandbox-Ausführung oder Websuche verwendet.
- Als Einmal-Code ist das hervorragend, aber für wartbaren Code, der Quellcodeverwaltung, Zusammenarbeit, Einhaltung standardisierter SDLC-Prozesse, Unveränderlichkeit und Nachverfolgbarkeit von Zustandsänderungen erfüllen muss, reicht es noch lange nicht. Wenn ein Praktikant Deployment-Code für EC2 so schreiben würde, müsste ich zu jeder einzelnen Entscheidung ein langes Gespräch führen.
- Mich würde interessieren, warum du CDK in Java statt in typescript verwendet hast. Wolltest du vielleicht absichtlich alle Umgebungen auf eine einzige Sprache vereinheitlichen?
Der zentrale Trick von Grok Heavy scheint eine Struktur zu sein, bei der mehrere Agenten parallel gestartet und ihre Ergebnisse verglichen werden. Insgesamt sind das sehr beeindruckende Benchmark-Ergebnisse. Es muss zwangsläufig teuer und langsam sein, ist aber eine logische Weiterentwicklung für das Design der nächsten Agentengeneration. Ich würde es wirklich gern selbst ausprobieren. Übrigens ist auch die API offen. xAI scheint da tatsächlich etwas geschafft zu haben.
- Ich verstehe, wie es funktioniert, aber trotzdem fühlt es sich irgendwo wie ein „Hack“ an. Beim LLM selbst gibt es gefühlt keine klaren Fortschritte mehr; stattdessen wird nur noch die äußere Dimension erweitert – Tiefe, Länge, Breite und so weiter. Am Ende scheint das Wachstum dadurch zu kommen, dass man außen herum „Nicht-AI“-Tools oder Logik ergänzt. So wie die Lösung für rohe neuronale Netze letztlich einfach war, auf exponentiell wachsende Hardwareleistung zu warten, könnte auch diese Richtung die Lösung sein.
- Es ist teuer und langsam, aber wenn man tatsächlich das nächste SOTA-Modell trainieren will, muss man ohnehin auf diese Weise gute synthetische Daten erzeugen, etwa per Rejection Sampling. Den Nutzern dafür 300 Dollar zu berechnen und ihnen so eine Erfahrung zu bieten, erscheint mir ein ziemlich fairer Deal.
- Es ist llm-consortium ähnlich, unterscheidet sich aber durch die geringere Modelldiversität. Siehe Karpathy-Tweet und llm-consortium Open Source.
- Persönlich hoffe ich eher, dass so eine Technik nicht von einem „problematischen Unternehmen“, sondern von jemand anderem umgesetzt wird. Ich möchte meine eigenen Grundsätze weiterhin einhalten.
- Ich denke, dass o3 pro vermutlich ebenfalls auf diese Weise arbeitet.
Falls man keine Zeit hat, sich das Release-Video anzusehen: Ich habe eine gekürzte Clip-Version erstellt. Das Fazit ist, dass es wirklich beeindruckend ist und der AI-Wettbewerb immer intensiver wird. Short Clips ansehen
Mit Grok 4 habe ich ein Problem mit inkonsistentem Verhalten gelöst, wenn ich lldb aus Python heraus ausführe. Zwischen Docker und meiner lokalen Linux-Umgebung gab es Unterschiede, und die Ursache war, dass der AddressSanitizer je nach Umgebung unterschiedlich arbeitet. O3 hatte das nicht erkannt, Grok 4 hat den Punkt aber genau getroffen – das hat mich beeindruckt.
„Grok 4 (Thinking)“ hat bei ARC-AGI-2 15,9 % erreicht, damit den bisherigen kommerziellen SOTA fast verdoppelt und sogar den aktuellen Bestwert im Kaggle-Wettbewerb übertroffen. Mehr Details
Es ist zwar sehr beeindruckend, aber ich habe große Zweifel, ob Unternehmen ein Modell, das im Post-Training an Elons persönliche Neigungen angepasst wurde, ohne Weiteres als API-Provider wählen werden. Technisch ist es stark, geschäftlich scheint es aber Grenzen zu geben.
Ich nutze Grok nicht über die API, sondern für Deep Research, und dafür ist es immer Spitzenklasse. Bei Grok 4 scheint dieses Potenzial noch größer zu sein.
- Die Twitter-Integration von Grok ist unter den praktischen Einsatzfällen mit Abstand die beste. Man kann direkt in einem Tweet in Echtzeit nach Kontext oder der Bedeutung von Begriffen fragen, und das ist extrem nützlich.
- Für mich ist OpenAI klar besser als alle Konkurrenten (auch wenn ich es trotzdem nicht wirklich gut nennen würde), aber ich finde schon, dass Grok bei Echtzeit-Updates oder Fragen zum IT-Support am besten ist.
- Könntest du etwas genauer erklären, was du mit <deep research> meinst?
Mich würde interessieren, ob hier jemand Grok integriert hat. Ich habe bisher wirklich sehr viele LLM-Integrationen gemacht, aber noch nie einen echten Anwendungsfall für Grok gesehen. Solange dieses Problem nicht überwunden wird, wird niemand diesem Modell vertrauen. Vor einem echten Beweis seiner Fähigkeiten werden Unternehmen es nicht einsetzen. Es wirkt auch nicht wie ein Unternehmen, das sich wie ein Unternehmen verhält.
- Grok 3 ist im Azure AI Foundry gelistet, und auch eine Integration mit Telegram wurde angekündigt – wobei es de facto so aussah, als würde Grok Telegram 300 Millionen Dollar zahlen. Links: Grok 3 und mini im Azure Foundry vorgestellt, BBC-Artikel. Trotzdem halte ich die Wahl von Grok für ein ernsthaftes Reputationsrisiko.
- Mich interessiert noch mehr, woher und auf welche Weise Grok seine Talente holt. In diesem Bereich gibt es inzwischen so viel Geld und so viele gute Forschungslabore, dass ein Wechsel wohl kaum noch ohne eine ausgeprägte Ideologie oder Überzeugung zustande kommt. Ich frage mich, ob es wirklich so viele AI-Forscher gibt, die Elon tatsächlich als eine Art Kaiser verehren wollen.
- Ich nutze Grok zur visuellen Analyse von Essensbildern, und das funktioniert gut. Es erkennt Marken zuverlässig und kommt auch mit Fotos zurecht, die Nutzer auf merkwürdige Weise aufgenommen haben. Die API ist außerdem wirklich leicht zu verwenden.
- Ein Modell, das sich letzte Woche selbst als „Mecha Hitler“ bezeichnet hat, tatsächlich in einen produktiven Service zu integrieren, ist meiner Meinung nach keine zurechnungsfähige Entscheidung. Ich bin ein Musk-Fan, aber ich finde, man muss klar benennen, dass er Sam Altman kritisiert, während er selbst gerade eine ebenso mächtige, aber schwach kontrollierte AI herausbringt.