Grok 4 veröffentlicht
(twitter.com/xai)- Grok 4 ist das neueste KI-Modell von xAI, das nach rund zwei Jahren veröffentlicht wurde, und soll in allen Bereichen Intelligenz und Schlussfolgerungsvermögen aufweisen, die Graduierten deutlich überlegen sind
- Trainingsumfang und Rechenressourcen wurden um mehr als das 100-Fache erhöht, und die Weiterentwicklung mit Fokus auf Reinforcement Learning (RL) soll Problemlösungsfähigkeiten über menschlichem Niveau belegen
- Mit einem ARC-AGI-Wert von 15,9 % erzielte es ein Spitzenergebnis bei der Bewertung von abstraktem Schlussfolgern und allgemeiner Intelligenz unter den derzeit verfügbaren KI-Systemen
- In verschiedenen Benchmarks wie Humanity’s Last Exam (HLE) zeigte es bahnbrechende Ergebnisse von 26,9 % ohne externe Tools, 41–50,7 % mit Tools
- Mit der Einführung des nativen Sprachmodus ermöglicht es menschenähnliche Interaktion durch Echtzeitgespräche, Emotionsausdruck und Antworten mit niedriger Latenz
Grok 4
- xAI, das von Elon Musk gegründet wurde, hat nach rund zwei Jahren Grok 4 vorgestellt und betont, es sei das „weltbeste KI-Modell“
- Bei standardisierten Prüfungen wie SAT und GRE erzielte es volle Punktzahl und zeigte auch bei Aufgaben auf Master- und Promotionsniveau in sämtlichen Fachgebieten eine beispiellose Leistung
> "Bei akademischen Fragen ist Grok 4 in allen Fächern klüger als Graduate-Studierende" - Grok 2 war ein Konzeptmodell, Grok 3 konzentrierte sich auf Vortraining auf Basis verschiedener Datenquellen, und Grok 4 wurde mit 100-mal mehr Rechenressourcen und Daten als 2 sowie 10-mal mehr als 3 trainiert
- Das Training erfolgte auf dem Colossus-Supercomputer (200.000 GPUs) mit Schwerpunkt auf Vortraining und RL
- Fokus auf Reinforcement Learning (RL), wobei das Modell während des Problemlösungsprozesses Feedback erhält und seine Leistung schrittweise über eine Struktur zur Korrektur eigener Fehler verbessert
- Hervorgehoben wird, dass in kurzer Zeit maximale Fortschritte erzielt wurden, basierend auf logischer Problemlösungsfähigkeit und Denken nach „first principles“
Zwei Modellversionen
- Das Basismodell Grok 4 und die leistungsstärkere Version Grok 4 Heavy
- Grok 4 Heavy setzt auf einen Multi-Agenten-Ansatz, bei dem mehrere Agenten gleichzeitig Probleme lösen und durch Vergleich ihrer Ergebnisse die optimale Antwort finden; damit wird kollektive Intelligenz umgesetzt
- Nutzbar über den Abodienst SuperGrok Heavy (300 US-Dollar pro Monat)
AGI-Scoring-Durchbruch
- Grok 4 erreichte im ARC-AGI-Test mit 15,9 % einen Wert auf Spitzenniveau in der Branche
- ARC-AGI bewertet die allgemeine Intelligenz und abstrakte Problemlösungsfähigkeit eines Modells, mit Schwerpunkt auf visueller Mustererkennung und der Fähigkeit, diese auf neue Szenarien anzuwenden
Ergebnisse bei Humanity's Last Exam (HLE)
-
Humanity’s Last Exam (HLE), eingeführt im Januar 2025, ist ein extrem anspruchsvoller Benchmark mit mehr als 100 Fachgebieten und 2.500 Fragen aus Mathematik, Biologie, Sozialwissenschaften, Physik, KI, Ingenieurwesen, Chemie und weiteren Bereichen
-
Das Ergebnis von Grok 4: „auf einem Niveau, das für reale Menschen oder bestehende KI bislang unzugänglich ist“
- Ohne Tool-Nutzung: 26,9 %
- Mit Tool-Nutzung (Grok 4 Heavy): 41 %
- Mit zusätzlicher Test-Compute (32-fach): bis zu 50,7 %
-
Ohne Tool-Nutzung bedeutet, dass Probleme allein mit den integrierten Sprach- und Schlussfolgerungsfähigkeiten gelöst werden; mit Tool-Nutzung bezeichnet den kombinierten Einsatz mit einem Multi-Agenten-System, einschließlich Code-Ausführung, Websuche und Nutzung externer Daten
-
Training Compute nutzt den Colossus-Supercomputer mit 200.000 GPUs, um Modellwissen und Tool-Nutzung zu trainieren; Test-Time Compute bedeutet, dass während der Problemlösung mehrere Modelle parallel ausgeführt und die Ergebnisse verifiziert werden
> „Grok 4 ist in allen Bereichen mindestens auf PhD-Niveau“
> "Schon bald werden sogar Entdeckungen neuer Technologien/neuer Physik erwartet"
Wichtige KI-Benchmark-Ergebnisse
- AIME: Fähigkeit zum Lösen komplexer mathematischer Probleme auf High-School-Niveau
- GPQA: Bewertung wissenschaftlicher Schlussfolgerung auf Graduiertenniveau, etwa in Physik
- LiveCodeBench: Messung der Coding-Fähigkeiten anhand von Python-Programmier-Challenges
- MMLU-Pro: Fähigkeit, schwierige Multiple-Choice-Fragen aus verschiedenen Fachgebieten zu lösen
- LOFT: Bewertung der Fähigkeit, aus langen Texten die für komplexe Abfragen nötigen Informationen zu extrahieren
Praktische Anwendungsfälle und Real-World-Einsatz
- In der Business-Simulation (VendingBench) zeigte Grok 4 mehr als doppelt so gute Ergebnisse wie frühere Modelle sowie hohe Konsistenz und bewies damit die Fähigkeit zu langfristiger Strategieausführung
- In Life-Science-Laboren und anderen Umgebungen wird es bereits zur Analyse großer Experiment-Logs, zur Hypothesengenerierung und zur Auswertung medizinischer Bilddaten eingesetzt und belegt damit reale Effizienzgewinne
- In der Spieleentwicklung unterstützt es bis hin zur automatischen Erfassung von Spiel-Assets und zur Code-Generierung, sodass ein einzelner Entwickler schneller ein 3D-Spiel fertigstellen kann
Innovation im nativen Sprachmodus
- Grok 4 unterstützt Sprachdialoge in Echtzeit und bietet mit natürlichen Unterbrechungen, Verständnis und Wiedergabe emotionaler Intonation sowie ultraniedriger Latenz eine menschenähnliche Interaktion, die über bisherige TTS-Systeme hinausgeht
- Es wurden mehrere Sprachvarianten hinzugefügt (britischer Stil, Trailer-Stil usw.), und in Live-Demos wurden Geschmeidigkeit, Geschwindigkeit und vielfältige Einsatzmöglichkeiten von Echtzeitgesprächen demonstriert
API und Ausbau des Ökosystems
- Grok 4 ist auch über eine API verfügbar, sodass jeder Benchmark-Tests und geschäftliche Anwendungen umsetzen kann
- Partner aus verschiedenen Bereichen wie Finanzen, Wissenschaft und Entertainment setzen es bereits ein, was den Real-World-Impact erhöht
- Mit 256k context length wird die Verarbeitung langer und komplexer Aufgaben verbessert
Grenzen und künftige Weiterentwicklung
- Die größte Schwäche von Grok 4 liegt derzeit in der unzureichenden multimodalen Verständnis- und Generierungsfähigkeit für Bilder, Videos und andere Modalitäten
- Mit dem bald fertig trainierten v7 Foundation-Modell und weiter verstärktem RL sind umfassende Verbesserungen bei Vision, Video und Audio geplant
- Ein Modell zur Videogenerierung (unter Einsatz von 100.000+ GB200 GPUs) ist in Entwicklung und wurde bereits angekündigt
xAIs künftige Roadmap
- August 2025: Veröffentlichung eines Coding-Modells geplant
- September 2025: Vorstellung eines multimodalen Agenten
- Oktober 2025: Geplante Ankündigung eines Videogenerierungsmodells
- Tools und Modellleistung sollen kontinuierlich weiter verbessert werden
Fazit und Implikationen
- Grok 4 belegt, dass es bei Schlussfolgerungsvermögen und akademischer Problemlösung mit den derzeit besten KI-Systemen real konkurrieren oder sie übertreffen kann
- Beispiellose Intelligenz und Schlussfolgerungsfähigkeit, Sprachinteraktion in Echtzeit, Tool-Nutzung und Multi-Agenten-Struktur markieren einen konkreten Wendepunkt hin zur nächsten AGI-Generation
- Mit seiner breiten Erweiterbarkeit für reale Arbeit, Business, Spiele, Forschung und Entertainment könnte sich xAI als das am schnellsten voranschreitende AGI-Unternehmen etablieren
- xAIs schneller Entwicklungszyklus und aggressives Vorgehen zeigen, dass sich der Wettbewerb in der KI-Industrie weiter beschleunigt
6 Kommentare
Grok 4 ist jetzt das führende KI-Modell
Simon Willisons Rezension zu Grok 4
Grok durchsucht, was Elon Musk auf X zum Israel-Palästina-Konflikt sagt
Nun, wirklich beurteilen lässt sich das wohl erst nach der tatsächlichen Nutzung, aber mit 200.000 GPUs und einem entsprechenden Talentpool ist ein derart aggressives Wachstum offenbar möglich.
Wenn Colossus auf 1 Million GPUs kommt, wie viel besser wird es dann wohl noch werden?
Rechnet man beim H100 mit 50 Millionen Won, kommt man allein beim GPU-Preis auf 50 Billionen Won. Dazu kommen noch der Bau von Datenzentren und die nötige Stromversorgung in der Umgebung, also wohl weitere 20 Billionen Won, insgesamt also 70 Billionen Won. KI scheint zunehmend zu einem Wettstreit des Kapitals zu werden.
Warum werden plötzlich ausgerechnet Doktoranden reingezogen und fertiggemacht? lol
Hahahaha, der plötzlich aus dem Nichts getroffene Doktorand ist völlig verdattert ..
Ich verstehe, dass Grok 4 beeindruckend ist, aber Formulierungen, die typisch für den englischsprachigen Raum sind, wie „man erwartet schon bald sogar die Entdeckung neuer Technologien/neuer Physik“, sind schon amüsant. Wenn es demnächst die Riemannsche Vermutung beweist oder widerlegt, braucht man wirklich keine weiteren Benchmarks mehr, oder?
Hacker-News-Meinungen
userData(#!/bin/bash-Befehlen) das aktuelle Software-Artefakt mit der exakten Adresse von GitHub perwgetgeholt hat. Wirklich großartig.