21 Punkte von GN⁺ 2025-12-21 | Noch keine Kommentare. | Auf WhatsApp teilen
  • 2025 trat Reinforcement Learning from Verifiable Rewards (RLVR) als neue zentrale Phase des LLM-Trainings hervor und wurde der bestehenden Pipeline aus Pretraining, SFT und RLHF hinzugefügt
  • LLMs entwickelten in verifizierbaren Umgebungen wie Mathematik- und Code-Puzzles eigenständig Schlussfolgerungsstrategien und erwarben Problemlösungsweisen, die für Menschen wie „Denken“ wirken
  • Cursor definierte eine neue Ebene von LLM-Apps und zeigte, wie in bestimmten Verticals Context Engineering und komplexe Orchestrierung von LLM-Aufrufen umgesetzt werden können
  • Claude Code erschien als erstes überzeugendes Beispiel eines LLM-Agenten, der auf dem lokalen Rechner des Nutzers läuft, und zeigte ein neues Interaktionsparadigma mit KI
  • Vibe Coding ermöglicht nun auch Nichtfachleuten, allein mit Englisch Programme zu erstellen, und deutet auf eine Demokratisierung der Softwareentwicklung sowie veränderte Berufsprofile hin

1. Der Aufstieg von Reinforcement Learning from Verifiable Rewards (RLVR)

  • Bis Anfang 2025 bestand der produktive LLM-Stack aus drei Phasen: Pretraining, Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF)
  • RLVR (Reinforcement Learning from Verifiable Rewards) wurde als neue wichtige Phase ergänzt und trainiert LLMs auf automatisch verifizierbare Belohnungen für Mathematik- und Code-Puzzles sowie ähnliche Aufgaben
  • LLMs erwarben spontan ein „Schlussfolgern“ ähnliches Verhalten, indem sie Probleme selbst in Zwischenschritte der Berechnung zerlegen und verschiedene Lösungsstrategien entwickeln
    • Diese Strategien waren im vorherigen Paradigma schwer zu erreichen, weil unklar ist, wie eine optimale Reasoning-Trace überhaupt aussieht
    • Das LLM muss durch Belohnungsoptimierung eigenständig einen für sich passenden Ansatz finden
  • Anders als bei SFT/RLHF erlaubt RLVR eine deutlich längere Optimierung gegenüber objektiven und nicht spielbaren Belohnungsfunktionen
  • Wegen der hohen Capability-pro-Dollar-Leistung von RLVR wurden ursprünglich für Pretraining vorgesehene Rechenressourcen auf RLVR umverteilt
    • Ein Großteil der Fähigkeitsfortschritte 2025 wurde dadurch bestimmt, auf ähnlich große LLMs längere RL-Läufe anzuwenden
  • Es entstand ein neuer Regler samt neuem Scaling Law für Test-Time Compute, mit dem sich Fähigkeiten über längere Reasoning-Traces und mehr „Denkzeit“ steuern lassen
  • OpenAI o1 war Ende 2024 die erste Demonstration eines RLVR-Modells, und die Veröffentlichung von o3 Anfang 2025 war der Wendepunkt, an dem der Unterschied intuitiv spürbar wurde

2. Geister vs. Tiere / Jagged Intelligence

  • 2025 begann man, die „Form“ von LLM-Intelligenz intuitiver zu verstehen
  • LLMs seien nicht etwas, das man wie „Tiere evolviert oder heranwachsen lässt“, sondern eher etwas, das man „als Geist beschwört“
    • Neuronale Architektur, Trainingsdaten, Trainingsalgorithmen und Optimierungsdruck sind alle verschieden, daher entstehen im Raum möglicher Intelligenzen sehr andere Wesen
  • Während menschliche neuronale Netze auf das Überleben einer Gruppe im Dschungel optimiert wurden, sind LLMs auf die Nachahmung menschlicher Texte, das Einsammeln von Belohnungen bei Mathematik-Puzzles und Upvotes in der LM Arena optimiert
  • Da RLVR in verifizierbaren Domänen möglich wurde, zeigen LLMs dort spitze Fähigkeitsausprägungen und damit unregelmäßige Leistungsprofile
    • Gleichzeitig verhalten sie sich wie ein genialer Universalgelehrter und wie ein verwirrter Grundschüler, der sich in Sekunden jailbreaken lässt und Daten preisgeben kann
  • Es entstand Vertrauensverlust und Gleichgültigkeit gegenüber Benchmarks
    • Benchmarks sind fast per Definition verifizierbare Umgebungen und deshalb unmittelbar anfällig für RLVR und schwächere Formen synthetischer Datengenerierung
    • Im Prozess des Benchmaxxing bauen Teams Umgebungen in der Nähe des Embedding-Raums des Benchmarks auf und decken ihn so ab
    • Lernen auf dem Test-Set wurde zu einer neuen Technik
  • Wie würde eine Situation aussehen, in der man „alle Benchmarks besteht und trotzdem AGI nicht erreicht“?
  • Verwandte Beiträge

3. Cursor / Eine neue Ebene von LLM-Apps

  • Mit dem rasanten Wachstum von Cursor wurde eine neue Ebene von „LLM-Apps“ sichtbar
    • Die Formulierung „Cursor for X“ begann sich zu verbreiten
  • LLM-Apps wie Cursor bündeln und orchestrieren LLM-Aufrufe für ein bestimmtes Vertical
    1. Sie betreiben Context Engineering
    2. Sie orchestrieren mehrere LLM-Aufrufe als zunehmend komplexen DAG, um Leistung und Kosten auszubalancieren
    3. Sie bieten eine anwendungsspezifische GUI für Human in the Loop
    4. Sie bieten einen „Autonomie-Slider“
  • Es wurde intensiv diskutiert, wie „dick“ diese neue App-Ebene eigentlich ist
    • Umstritten war, ob LLM-Labs alle Anwendungen vereinnahmen oder ob es Chancen für eigenständige LLM-Apps geben wird
  • LLM-Labs bringen typischerweise eher fähige Generalisten auf dem Niveau guter Studierender hervor, während LLM-Apps in bestimmten Verticals private Daten, Sensoren, Aktuatoren und Feedback-Loops bereitstellen, diese Modelle organisieren und feinjustieren und sie so zu echten Experten machen könnten

4. Claude Code / KI, die auf dem Computer lebt

  • Claude Code (CC) trat als erste überzeugende Demonstration eines LLM-Agenten auf
    • Durch das Schleifen von Tool-Nutzung und Reasoning konnte er erweiterte Problemlösung leisten
  • CC läuft auf dem Rechner des Nutzers zusammen mit privater Umgebung, Daten und Kontext
  • OpenAI setzte bei frühen Codex-/Agentenversuchen fälschlich auf Cloud-Container-Deployments, die aus ChatGPT heraus orchestriert wurden
    • Der Fokus lag also auf der Cloud statt einfach auf localhost
  • Ein Agenten-Schwarm in der Cloud wirkt zwar wie ein „AGI-Endgame“, aber gegenwärtig leben wir eher in einer mittleren, langsamen Sprungwelt mit ungleichmäßigen Fähigkeiten
    • Deshalb ist es plausibler, Agenten direkt auf dem Rechner eines Entwicklers laufen zu lassen
  • Die wichtige Unterscheidung ist nicht, wo die „KI-Arbeit“ läuft, sondern ob es um einen bereits existierenden und gebooteten Computer, Installationen, Kontext, Daten, Secrets, Konfiguration und Interaktion mit niedriger Latenz geht
  • Anthropic setzte diese Priorität richtig und verpackte CC in einen kompakten CLI-Formfaktor
    • Damit entstand ein neues Interaktionsparadigma: KI nicht als Website, die man wie Google besucht, sondern als kleiner Geist, der „auf dem Computer wohnt“

5. Vibe Coding

  • 2025 war das Jahr, in dem KI die Fähigkeitsschwelle überschritt, allein mit Englisch verschiedenste beeindruckende Programme zu erstellen
    • Man kann programmieren und dabei die Existenz von Code selbst vergessen
  • Der Begriff „vibe coding“ wurde in einem Tweet geprägt, ohne zu ahnen, wie weit er sich verbreiten würde
  • Mit Vibe Coding wird Programmieren nicht länger nur ein Feld für hochtrainierte Spezialisten, sondern etwas, das grundsätzlich jeder tun kann
  • Anders als bei anderen Technologien profitieren von LLMs normale Menschen sehr viel stärker als Experten, Unternehmen oder Regierungen
  • Vibe Coding verschafft nicht nur Laien Zugang zum Programmieren, sondern ermöglicht es auch Fachleuten, viel mehr Software zu schreiben, die sonst nie geschrieben worden wäre
  • Konkrete Beispiele:
    • In nanochat wurde per Vibe Coding ein angepasster hocheffizienter BPE-Tokenizer in Rust erstellt, ohne bestehende Bibliotheken zu übernehmen oder Rust tiefgehend zu lernen
    • menugen, llm-council, reader3, HN time capsule und andere gewünschte Dinge wurden als schnelle App-Demos per Vibe Coding gebaut
    • Um einen einzelnen Bug zu finden, wurde gleich eine komplette Einmal-App per Vibe Coding erstellt – Code wurde plötzlich kostenlos, flüchtig, flexibel und wegwerfbar
  • Vibe Coding wird Software terraformen und die Definition von Berufen verändern

6. Nano Banana / LLM GUI

  • Google Gemini Nano Banana war eines der überraschendsten Paradigmenwechsel-Modelle des Jahres 2025
  • In der Sichtweise, dass LLMs das nächste große Computing-Paradigma ähnlich den Computern der 1970er und 1980er Jahre sind, werden ähnliche Innovationen aus grundlegend ähnlichen Gründen auftreten
    • Es werden Äquivalente zu Personal Computing, Mikrocontrollern (kognitiver Kern) und dem Internet (der Agenten) entstehen
  • In Bezug auf UI/UX ähnelt das „Chatten“ mit LLMs dem Erteilen von Befehlen an eine Computerkonsole der 1980er Jahre
  • Text ist zwar die bevorzugte rohe Datenrepräsentation für Computer und LLMs, aber nicht das bevorzugte Format für Menschen
    • Gerade als Eingabe mögen Menschen es nicht, viel Text zu lesen – es ist langsam und anstrengend
  • Menschen konsumieren Informationen lieber visuell und räumlich, deshalb wurde im klassischen Computing die GUI erfunden
  • Ebenso sollten LLMs in für Menschen angenehmen Formaten kommunizieren, etwa über Bilder, Infografiken, Slides, Whiteboards, Animationen/Videos oder Web-Apps
  • Frühformen davon sind derzeit Dinge wie Emojis und Markdown – also Überschriften, Fettdruck, Kursivschrift, Listen und Tabellen, mit denen Text „visuell aufbereitet“ wird
  • Nano Banana ist der erste frühe Hinweis darauf, wie eine LLM-GUI aussehen könnte
    • Wichtig ist nicht nur die Bilderzeugung an sich, sondern die gekoppelte Fähigkeit, bei der Textgenerierung, Bildgenerierung und Weltwissen gemeinsam in den Modellgewichten verflochten sind

TLDR; Zusammenfassung

  • 2025 war ein spannendes und auch etwas überraschendes Jahr für LLMs
  • LLMs traten als neue Art von Intelligenz hervor, die viel klüger als erwartet und zugleich viel dümmer als erwartet ist
  • Ungeachtet dessen sind LLMs sehr nützlich, und selbst beim aktuellen Stand nutzt die Branche wahrscheinlich nicht einmal 10 % ihres Potenzials
  • Es gibt endlos viele Ideen, die man ausprobieren kann, und konzeptionell scheint dieses Feld noch einen weiten Weg vor sich zu haben
  • Auch wenn es oberflächlich paradox wirkt, kann man zugleich an schnelle und anhaltende Fortschritte glauben und daran, dass noch sehr viel Arbeit vor uns liegt

Noch keine Kommentare.

Noch keine Kommentare.