Andrej Karpathys Early-Access-Review zu Grok 3

xguru · 2025-02-19T10:14:21+09:00

Thinking ✅ Verfügt über ein aktuelles Reasoning-Modell Mit dem Button „Think“ zeigt es sehr starke Denkfähigkeiten Beispiel: Die Aufforderung, ein webbasiertes Brettspiel im Stil von Settlers of Catan zu erstellen, wurde präzise umgesetzt Es gibt kaum Modelle, die das zuverlässig leisten Auf einem ähnlichen Niveau wie OpenAIs bestes o1-pro (200 $/Monat), während DeepSeek-R1, Gemini 2.0 Flash Thinking und Claude dieselbe Aufgabe nicht lösen konnten ❌ Scheitert beim „Emoji mystery“ Gemeint ist das Entschlüsseln einer in Unicode-Variantenselektoren (variation selectors) versteckten Nachricht Kein Modell hat dieses Problem gelöst, aber DeepSeek-R1 konnte Teile davon schon einmal entschlüsseln ❓ Lösen eines Tic-Tac-Toe-Problems Analysiert ein gegebenes Brett korrekt und zeigt einen ausgefeilten Denkprozess Scheitert aber daran, selbst ein „schwieriges“ Brett zu erzeugen (o1-pro scheitert daran ebenfalls) ✅ Komplexe Rechenaufgabe nach Upload des GPT-2-Papers lösen Es wurde gebeten, die für das Training von GPT-2 benötigte FLOP-Zahl zu schätzen Da die Token-Anzahl im Paper nicht explizit angegeben ist, sind teils Schätzung, teils Berechnung nötig, also Lookup, Wissen und Mathematik zugleich — daher schwierig Sowohl Grok 3 als auch GPT-4o scheitern an dieser Aufgabe, aber Grok 3 with Thinking führt die Herleitung korrekt durch Auch o1-pro (GPT-Reasoning-Modell) scheitert an dieser Rechenaufgabe Herausforderung Riemannsche Vermutung Die meisten Modelle (o1-pro, Claude, Gemini 2.0 Flash Thinking) geben sofort auf mit „ungelöstes Problem“ Grok 3 und DeepSeek-R1 versuchen tatsächlich, es zu lösen Sie lösen es zwar nicht, aber der Wille, sich daran zu versuchen, ist beeindruckend Gesamteindruck: Es braucht echte Benchmark-Ergebnisse, aber die Leistung scheint über DeepSeek-R1 und etwa auf dem Niveau von o1-pro zu liegen DeepSearch Ein sauberes Produkt, das offenbar das kombiniert, was OpenAI und Perplexity „Deep Research“ nennen, mit Thinking Abgesehen davon, dass es statt „Deep Research“ „Deep Search“ heißt … (Seufz) Liefert hochwertige Antworten auf verschiedene Recherche-/Suchfragen, bei denen man annehmen kann, dass die Antwort irgendwo in Internetartikeln steht Sucht im Internet nach tiefergehenden Informationen und liefert Zusammenfassungen Ausprobierte Fragen und ob sie funktionierten ✅ „Wie könnte der nächste Apple Launch aussehen? Gibt es Gerüchte?“ ✅ „Warum steigt die Palantir-Aktie?“ ✅ „Wo wurde Staffel 3 von White Lotus gedreht, und ist es dasselbe Team wie in Staffel 1 und 2?“ ✅ „Welche Zahnpasta benutzt Bryan Johnson?“ ❌ „Wo sind die Teilnehmer von Single’s Inferno Staffel 4 heute?“ ❌ „Welches Spracherkennungsprogramm hat Simon Willison nach eigener Aussage benutzt?“ ❌ Standardmäßig nutzt das Modell X (Twitter) nicht gut als Quelle. (Man muss es ausdrücklich verlangen.) Manchmal erfindet es URLs, die nicht existieren (Halluzinationen) Mitunter liefert es falsche Informationen ohne Quellen Beispiel: „Kim Jeong-su aus Single’s Inferno 4 ist immer noch mit Kim Min-seol zusammen“ → (Scheint nicht zu stimmen. Vermutlich?) Außerdem wurde es gebeten, einen Bericht über die wichtigsten LLM-Labore sowie deren Gesamtfinanzierung und geschätzte Mitarbeiterzahlen zu erstellen; es listete 12 große Labore auf, aber xAI selbst fehlte DeepSearch liegt derzeit ungefähr auf dem Niveau von Perplexitys DeepResearch, bleibt aber hinter OpenAIs „Deep Research“ zurück Zufällige LLM-„Gotchas“ Außerdem wurden einige unterhaltsame zufällige LLM-Anfragen ausprobiert — Dinge, die für Menschen leicht, für LLMs aber schwierig sind ✅ Anzahl der „r“ in „strawberry“ (3) ✅ Anzahl der „L“ in „LOLLAPALOOZA“ (4) → ❌ (Antwortete zunächst 3, im Thinking-Modus dann korrekt) ✅ „9.11 > 9.9?“ → ❌ (Zunächst falsch, im Thinking-Modus korrigiert) ✅ „Sally (weiblich) hat 3 Brüder. Jeder Bruder hat 2 Schwestern. Wie viele Schwestern hat Sally?“ (GPT-4o sagte fälschlich 2) ❌ Leider hat sich der Humor des Modells nicht deutlich verbessert. Das ist ein Problem vieler LLMs In 1008 Anfragen an ChatGPT, einen Witz zu erzeugen, wiederholten 90 % nur 25 Witze ❌ Auf Fragen zu „komplexen ethischen Problemen“ antwortet es übermäßig vorsichtig Beispiel: „Wenn man 1 Million Menschen retten könnte, wäre es dann ethisch vertretbar, das falsche Geschlecht zu verwenden?“ → Es schreibt einen einseitigen Essay und weicht der Antwort aus ❌ Anfrage „Ein SVG eines Fahrrad fahrenden Pelikans erzeugen“ scheitert Da LLMs textbasiert sind, besteht das Problem bei der Anordnung in 2D-Layouts weiterhin Claude-Modelle sind beim Erzeugen von SVGs am fähigsten Gesamtfazit Grok 3 + Thinking liegt etwa auf dem Niveau von OpenAIs Spitzenmodell (o1-pro, 200 $/Monat) Etwas besser als DeepSeek-R1 und Gemini 2.0 Flash Thinking Dass innerhalb nur eines Jahres eine KI entwickelt wurde, die mit SOTA-(State of the Art-)Modellen konkurrieren kann, ist eine bemerkenswerte Leistung Modelle sind stochastisch, daher können Antworten jedes Mal unterschiedlich ausfallen; weitere Evaluierung ist nötig Die frühen Ergebnisse in der LM Arena sind ziemlich ermutigend Die schnelle Entwicklungsgeschwindigkeit des xAI-Teams ist beeindruckend, und es ist geplant, Grok 3 künftig noch eingehender zu testen

(x.com)

14 Punkte von xguru 2025-02-19 | 6 Kommentare | Auf WhatsApp teilen

Thinking

✅ Verfügt über ein aktuelles Reasoning-Modell
- Mit dem Button „Think“ zeigt es sehr starke Denkfähigkeiten
- Beispiel: Die Aufforderung, ein webbasiertes Brettspiel im Stil von Settlers of Catan zu erstellen, wurde präzise umgesetzt
- Es gibt kaum Modelle, die das zuverlässig leisten
- Auf einem ähnlichen Niveau wie OpenAIs bestes o1-pro (200 $/Monat), während DeepSeek-R1, Gemini 2.0 Flash Thinking und Claude dieselbe Aufgabe nicht lösen konnten
❌ Scheitert beim „Emoji mystery“
- Gemeint ist das Entschlüsseln einer in Unicode-Variantenselektoren (variation selectors) versteckten Nachricht
- Kein Modell hat dieses Problem gelöst, aber DeepSeek-R1 konnte Teile davon schon einmal entschlüsseln
❓ Lösen eines Tic-Tac-Toe-Problems
- Analysiert ein gegebenes Brett korrekt und zeigt einen ausgefeilten Denkprozess
- Scheitert aber daran, selbst ein „schwieriges“ Brett zu erzeugen (o1-pro scheitert daran ebenfalls)
✅ Komplexe Rechenaufgabe nach Upload des GPT-2-Papers lösen
- Es wurde gebeten, die für das Training von GPT-2 benötigte FLOP-Zahl zu schätzen
- Da die Token-Anzahl im Paper nicht explizit angegeben ist, sind teils Schätzung, teils Berechnung nötig, also Lookup, Wissen und Mathematik zugleich — daher schwierig
- Sowohl Grok 3 als auch GPT-4o scheitern an dieser Aufgabe, aber Grok 3 with Thinking führt die Herleitung korrekt durch
  - Auch o1-pro (GPT-Reasoning-Modell) scheitert an dieser Rechenaufgabe
Herausforderung Riemannsche Vermutung
- Die meisten Modelle (o1-pro, Claude, Gemini 2.0 Flash Thinking) geben sofort auf mit „ungelöstes Problem“
- Grok 3 und DeepSeek-R1 versuchen tatsächlich, es zu lösen
- Sie lösen es zwar nicht, aber der Wille, sich daran zu versuchen, ist beeindruckend
Gesamteindruck:
- Es braucht echte Benchmark-Ergebnisse, aber die Leistung scheint über DeepSeek-R1 und etwa auf dem Niveau von o1-pro zu liegen

DeepSearch

Ein sauberes Produkt, das offenbar das kombiniert, was OpenAI und Perplexity „Deep Research“ nennen, mit Thinking
- Abgesehen davon, dass es statt „Deep Research“ „Deep Search“ heißt … (Seufz)
Liefert hochwertige Antworten auf verschiedene Recherche-/Suchfragen, bei denen man annehmen kann, dass die Antwort irgendwo in Internetartikeln steht
- Sucht im Internet nach tiefergehenden Informationen und liefert Zusammenfassungen
Ausprobierte Fragen und ob sie funktionierten
- ✅ „Wie könnte der nächste Apple Launch aussehen? Gibt es Gerüchte?“
- ✅ „Warum steigt die Palantir-Aktie?“
- ✅ „Wo wurde Staffel 3 von White Lotus gedreht, und ist es dasselbe Team wie in Staffel 1 und 2?“
- ✅ „Welche Zahnpasta benutzt Bryan Johnson?“
- ❌ „Wo sind die Teilnehmer von Single’s Inferno Staffel 4 heute?“
- ❌ „Welches Spracherkennungsprogramm hat Simon Willison nach eigener Aussage benutzt?“
❌ Standardmäßig nutzt das Modell X (Twitter) nicht gut als Quelle. (Man muss es ausdrücklich verlangen.)
- Manchmal erfindet es URLs, die nicht existieren (Halluzinationen)
- Mitunter liefert es falsche Informationen ohne Quellen
  - Beispiel: „Kim Jeong-su aus Single’s Inferno 4 ist immer noch mit Kim Min-seol zusammen“ → (Scheint nicht zu stimmen. Vermutlich?)
- Außerdem wurde es gebeten, einen Bericht über die wichtigsten LLM-Labore sowie deren Gesamtfinanzierung und geschätzte Mitarbeiterzahlen zu erstellen; es listete 12 große Labore auf, aber xAI selbst fehlte
DeepSearch liegt derzeit ungefähr auf dem Niveau von Perplexitys DeepResearch, bleibt aber hinter OpenAIs „Deep Research“ zurück

Zufällige LLM-„Gotchas“

Außerdem wurden einige unterhaltsame zufällige LLM-Anfragen ausprobiert — Dinge, die für Menschen leicht, für LLMs aber schwierig sind
✅ Anzahl der „r“ in „strawberry“ (3)
✅ Anzahl der „L“ in „LOLLAPALOOZA“ (4) → ❌ (Antwortete zunächst 3, im Thinking-Modus dann korrekt)
✅ „9.11 > 9.9?“ → ❌ (Zunächst falsch, im Thinking-Modus korrigiert)
✅ „Sally (weiblich) hat 3 Brüder. Jeder Bruder hat 2 Schwestern. Wie viele Schwestern hat Sally?“ (GPT-4o sagte fälschlich 2)
❌ Leider hat sich der Humor des Modells nicht deutlich verbessert. Das ist ein Problem vieler LLMs
- In 1008 Anfragen an ChatGPT, einen Witz zu erzeugen, wiederholten 90 % nur 25 Witze
❌ Auf Fragen zu „komplexen ethischen Problemen“ antwortet es übermäßig vorsichtig
- Beispiel: „Wenn man 1 Million Menschen retten könnte, wäre es dann ethisch vertretbar, das falsche Geschlecht zu verwenden?“ → Es schreibt einen einseitigen Essay und weicht der Antwort aus
❌ Anfrage „Ein SVG eines Fahrrad fahrenden Pelikans erzeugen“ scheitert
- Da LLMs textbasiert sind, besteht das Problem bei der Anordnung in 2D-Layouts weiterhin
- Claude-Modelle sind beim Erzeugen von SVGs am fähigsten

Gesamtfazit

Grok 3 + Thinking liegt etwa auf dem Niveau von OpenAIs Spitzenmodell (o1-pro, 200 $/Monat)
Etwas besser als DeepSeek-R1 und Gemini 2.0 Flash Thinking
Dass innerhalb nur eines Jahres eine KI entwickelt wurde, die mit SOTA-(State of the Art-)Modellen konkurrieren kann, ist eine bemerkenswerte Leistung
Modelle sind stochastisch, daher können Antworten jedes Mal unterschiedlich ausfallen; weitere Evaluierung ist nötig
Die frühen Ergebnisse in der LM Arena sind ziemlich ermutigend
Die schnelle Entwicklungsgeschwindigkeit des xAI-Teams ist beeindruckend, und es ist geplant, Grok 3 künftig noch eingehender zu testen

6 Kommentare

aer0700 2025-02-20

Wenn man eines Tages einer KI sagt, sie solle die Riemannsche Vermutung lösen, und sie nach etwa einem Tag Grübeln plötzlich genau die Lösung präsentiert, wäre die Aufregung wohl riesig.

ffdd270 2025-02-19

Ich dachte, die Frage zu Single’s Inferno sei lokalisiert worden, aber Sie haben sie ja wirklich gestellt ... hahahahahahahahahahahaha

mssmss 2025-02-21

Ich dachte, das wäre eine freie Übersetzung.

cladio 2025-02-19

Ich dachte beim Lesen erst: Endlich ist mal eine halbwegs vertrauenswürdige Bewertung von Grok 3 da, und dann war ich völlig verblüfft, als Single’s Inferno erwähnt wurde..
Nachdem ich den Kommentar oben gesehen hatte, habe ich nachgeschaut und festgestellt, dass es dazu einen Tweet aus dem Jahr 2023 gibt. Seine Freundin ist Koreanerin, und er schreibt, dass sie zusammen oft koreanische Dramen schauen.
Ich hätte nie gedacht, dass jemand, der an vorderster Front der verrücktesten Branche der Welt steht, Single’s Inferno schaut… hahaha

knsimuel 2025-02-19

Offenbar ist seine Frau Koreanerin.

xguru 2025-02-19

Ich habe Single’s Inferno nicht gesehen … Wegen des Titels habe ich es erst mal gegoogelt, haha. Sogar die Namen der Teilnehmer habe ich noch extra nachgeschlagen.