Andrej Karpathys jährlicher LLM-Rückblick 2025

(karpathy.bearblog.dev)

21 Punkte von GN⁺ 2025-12-21 | Noch keine Kommentare. | Auf WhatsApp teilen

2025 trat Reinforcement Learning from Verifiable Rewards (RLVR) als neue zentrale Phase des LLM-Trainings hervor und wurde der bestehenden Pipeline aus Pretraining, SFT und RLHF hinzugefügt
LLMs entwickelten in verifizierbaren Umgebungen wie Mathematik- und Code-Puzzles eigenständig Schlussfolgerungsstrategien und erwarben Problemlösungsweisen, die für Menschen wie „Denken“ wirken
Cursor definierte eine neue Ebene von LLM-Apps und zeigte, wie in bestimmten Verticals Context Engineering und komplexe Orchestrierung von LLM-Aufrufen umgesetzt werden können
Claude Code erschien als erstes überzeugendes Beispiel eines LLM-Agenten, der auf dem lokalen Rechner des Nutzers läuft, und zeigte ein neues Interaktionsparadigma mit KI
Vibe Coding ermöglicht nun auch Nichtfachleuten, allein mit Englisch Programme zu erstellen, und deutet auf eine Demokratisierung der Softwareentwicklung sowie veränderte Berufsprofile hin

1. Der Aufstieg von Reinforcement Learning from Verifiable Rewards (RLVR)

Bis Anfang 2025 bestand der produktive LLM-Stack aus drei Phasen: Pretraining, Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF)
RLVR (Reinforcement Learning from Verifiable Rewards) wurde als neue wichtige Phase ergänzt und trainiert LLMs auf automatisch verifizierbare Belohnungen für Mathematik- und Code-Puzzles sowie ähnliche Aufgaben
LLMs erwarben spontan ein „Schlussfolgern“ ähnliches Verhalten, indem sie Probleme selbst in Zwischenschritte der Berechnung zerlegen und verschiedene Lösungsstrategien entwickeln
- Diese Strategien waren im vorherigen Paradigma schwer zu erreichen, weil unklar ist, wie eine optimale Reasoning-Trace überhaupt aussieht
- Das LLM muss durch Belohnungsoptimierung eigenständig einen für sich passenden Ansatz finden
Anders als bei SFT/RLHF erlaubt RLVR eine deutlich längere Optimierung gegenüber objektiven und nicht spielbaren Belohnungsfunktionen
Wegen der hohen Capability-pro-Dollar-Leistung von RLVR wurden ursprünglich für Pretraining vorgesehene Rechenressourcen auf RLVR umverteilt
- Ein Großteil der Fähigkeitsfortschritte 2025 wurde dadurch bestimmt, auf ähnlich große LLMs längere RL-Läufe anzuwenden
Es entstand ein neuer Regler samt neuem Scaling Law für Test-Time Compute, mit dem sich Fähigkeiten über längere Reasoning-Traces und mehr „Denkzeit“ steuern lassen
OpenAI o1 war Ende 2024 die erste Demonstration eines RLVR-Modells, und die Veröffentlichung von o3 Anfang 2025 war der Wendepunkt, an dem der Unterschied intuitiv spürbar wurde

2. Geister vs. Tiere / Jagged Intelligence

2025 begann man, die „Form“ von LLM-Intelligenz intuitiver zu verstehen
LLMs seien nicht etwas, das man wie „Tiere evolviert oder heranwachsen lässt“, sondern eher etwas, das man „als Geist beschwört“
- Neuronale Architektur, Trainingsdaten, Trainingsalgorithmen und Optimierungsdruck sind alle verschieden, daher entstehen im Raum möglicher Intelligenzen sehr andere Wesen
Während menschliche neuronale Netze auf das Überleben einer Gruppe im Dschungel optimiert wurden, sind LLMs auf die Nachahmung menschlicher Texte, das Einsammeln von Belohnungen bei Mathematik-Puzzles und Upvotes in der LM Arena optimiert
Da RLVR in verifizierbaren Domänen möglich wurde, zeigen LLMs dort spitze Fähigkeitsausprägungen und damit unregelmäßige Leistungsprofile
- Gleichzeitig verhalten sie sich wie ein genialer Universalgelehrter und wie ein verwirrter Grundschüler, der sich in Sekunden jailbreaken lässt und Daten preisgeben kann
Es entstand Vertrauensverlust und Gleichgültigkeit gegenüber Benchmarks
- Benchmarks sind fast per Definition verifizierbare Umgebungen und deshalb unmittelbar anfällig für RLVR und schwächere Formen synthetischer Datengenerierung
- Im Prozess des Benchmaxxing bauen Teams Umgebungen in der Nähe des Embedding-Raums des Benchmarks auf und decken ihn so ab
- Lernen auf dem Test-Set wurde zu einer neuen Technik
Wie würde eine Situation aussehen, in der man „alle Benchmarks besteht und trotzdem AGI nicht erreicht“?
Verwandte Beiträge

3. Cursor / Eine neue Ebene von LLM-Apps

Mit dem rasanten Wachstum von Cursor wurde eine neue Ebene von „LLM-Apps“ sichtbar
- Die Formulierung „Cursor for X“ begann sich zu verbreiten
LLM-Apps wie Cursor bündeln und orchestrieren LLM-Aufrufe für ein bestimmtes Vertical
1. Sie betreiben Context Engineering
2. Sie orchestrieren mehrere LLM-Aufrufe als zunehmend komplexen DAG, um Leistung und Kosten auszubalancieren
3. Sie bieten eine anwendungsspezifische GUI für Human in the Loop
4. Sie bieten einen „Autonomie-Slider“
Es wurde intensiv diskutiert, wie „dick“ diese neue App-Ebene eigentlich ist
- Umstritten war, ob LLM-Labs alle Anwendungen vereinnahmen oder ob es Chancen für eigenständige LLM-Apps geben wird
LLM-Labs bringen typischerweise eher fähige Generalisten auf dem Niveau guter Studierender hervor, während LLM-Apps in bestimmten Verticals private Daten, Sensoren, Aktuatoren und Feedback-Loops bereitstellen, diese Modelle organisieren und feinjustieren und sie so zu echten Experten machen könnten

4. Claude Code / KI, die auf dem Computer lebt

Claude Code (CC) trat als erste überzeugende Demonstration eines LLM-Agenten auf
- Durch das Schleifen von Tool-Nutzung und Reasoning konnte er erweiterte Problemlösung leisten
CC läuft auf dem Rechner des Nutzers zusammen mit privater Umgebung, Daten und Kontext
OpenAI setzte bei frühen Codex-/Agentenversuchen fälschlich auf Cloud-Container-Deployments, die aus ChatGPT heraus orchestriert wurden
- Der Fokus lag also auf der Cloud statt einfach auf localhost
Ein Agenten-Schwarm in der Cloud wirkt zwar wie ein „AGI-Endgame“, aber gegenwärtig leben wir eher in einer mittleren, langsamen Sprungwelt mit ungleichmäßigen Fähigkeiten
- Deshalb ist es plausibler, Agenten direkt auf dem Rechner eines Entwicklers laufen zu lassen
Die wichtige Unterscheidung ist nicht, wo die „KI-Arbeit“ läuft, sondern ob es um einen bereits existierenden und gebooteten Computer, Installationen, Kontext, Daten, Secrets, Konfiguration und Interaktion mit niedriger Latenz geht
Anthropic setzte diese Priorität richtig und verpackte CC in einen kompakten CLI-Formfaktor
- Damit entstand ein neues Interaktionsparadigma: KI nicht als Website, die man wie Google besucht, sondern als kleiner Geist, der „auf dem Computer wohnt“

5. Vibe Coding

2025 war das Jahr, in dem KI die Fähigkeitsschwelle überschritt, allein mit Englisch verschiedenste beeindruckende Programme zu erstellen
- Man kann programmieren und dabei die Existenz von Code selbst vergessen
Der Begriff „vibe coding“ wurde in einem Tweet geprägt, ohne zu ahnen, wie weit er sich verbreiten würde
Mit Vibe Coding wird Programmieren nicht länger nur ein Feld für hochtrainierte Spezialisten, sondern etwas, das grundsätzlich jeder tun kann
Anders als bei anderen Technologien profitieren von LLMs normale Menschen sehr viel stärker als Experten, Unternehmen oder Regierungen
Vibe Coding verschafft nicht nur Laien Zugang zum Programmieren, sondern ermöglicht es auch Fachleuten, viel mehr Software zu schreiben, die sonst nie geschrieben worden wäre
Konkrete Beispiele:
- In nanochat wurde per Vibe Coding ein angepasster hocheffizienter BPE-Tokenizer in Rust erstellt, ohne bestehende Bibliotheken zu übernehmen oder Rust tiefgehend zu lernen
- menugen, llm-council, reader3, HN time capsule und andere gewünschte Dinge wurden als schnelle App-Demos per Vibe Coding gebaut
- Um einen einzelnen Bug zu finden, wurde gleich eine komplette Einmal-App per Vibe Coding erstellt – Code wurde plötzlich kostenlos, flüchtig, flexibel und wegwerfbar
Vibe Coding wird Software terraformen und die Definition von Berufen verändern

6. Nano Banana / LLM GUI

Google Gemini Nano Banana war eines der überraschendsten Paradigmenwechsel-Modelle des Jahres 2025
In der Sichtweise, dass LLMs das nächste große Computing-Paradigma ähnlich den Computern der 1970er und 1980er Jahre sind, werden ähnliche Innovationen aus grundlegend ähnlichen Gründen auftreten
- Es werden Äquivalente zu Personal Computing, Mikrocontrollern (kognitiver Kern) und dem Internet (der Agenten) entstehen
In Bezug auf UI/UX ähnelt das „Chatten“ mit LLMs dem Erteilen von Befehlen an eine Computerkonsole der 1980er Jahre
Text ist zwar die bevorzugte rohe Datenrepräsentation für Computer und LLMs, aber nicht das bevorzugte Format für Menschen
- Gerade als Eingabe mögen Menschen es nicht, viel Text zu lesen – es ist langsam und anstrengend
Menschen konsumieren Informationen lieber visuell und räumlich, deshalb wurde im klassischen Computing die GUI erfunden
Ebenso sollten LLMs in für Menschen angenehmen Formaten kommunizieren, etwa über Bilder, Infografiken, Slides, Whiteboards, Animationen/Videos oder Web-Apps
Frühformen davon sind derzeit Dinge wie Emojis und Markdown – also Überschriften, Fettdruck, Kursivschrift, Listen und Tabellen, mit denen Text „visuell aufbereitet“ wird
Nano Banana ist der erste frühe Hinweis darauf, wie eine LLM-GUI aussehen könnte
- Wichtig ist nicht nur die Bilderzeugung an sich, sondern die gekoppelte Fähigkeit, bei der Textgenerierung, Bildgenerierung und Weltwissen gemeinsam in den Modellgewichten verflochten sind

TLDR; Zusammenfassung

2025 war ein spannendes und auch etwas überraschendes Jahr für LLMs
LLMs traten als neue Art von Intelligenz hervor, die viel klüger als erwartet und zugleich viel dümmer als erwartet ist
Ungeachtet dessen sind LLMs sehr nützlich, und selbst beim aktuellen Stand nutzt die Branche wahrscheinlich nicht einmal 10 % ihres Potenzials
Es gibt endlos viele Ideen, die man ausprobieren kann, und konzeptionell scheint dieses Feld noch einen weiten Weg vor sich zu haben
Auch wenn es oberflächlich paradox wirkt, kann man zugleich an schnelle und anhaltende Fortschritte glauben und daran, dass noch sehr viel Arbeit vor uns liegt

Andrej Karpathys jährlicher LLM-Rückblick 2025

1. Der Aufstieg von Reinforcement Learning from Verifiable Rewards (RLVR)

2. Geister vs. Tiere / Jagged Intelligence

3. Cursor / Eine neue Ebene von LLM-Apps

4. Claude Code / KI, die auf dem Computer lebt

5. Vibe Coding

6. Nano Banana / LLM GUI

TLDR; Zusammenfassung

Verwandte Beiträge

Noch keine Kommentare.