Rückblick auf KI Ende 2025
(antirez.com)- Die Behauptung, LLMs seien nur stochastische Papageien, ist im Jahr 2025 fast verschwunden, und die meisten erkennen inzwischen an, dass interne Repräsentationen der Bedeutung von Prompts und der Richtung von Antworten existieren
- Chain of Thought (CoT) hat sich als zentrale Technik zur Verbesserung der Ausgabequalität von LLMs etabliert, indem Sampling in Modellrepräsentationen mit sequenziellem Token-Lernen durch Reinforcement Learning kombiniert wird
- Reinforcement Learning mit verifizierbaren Belohnungen hat Skalierungsmöglichkeiten jenseits von Token-Limits eröffnet und dürfte die nächste zentrale Entwicklungsrichtung der KI werden
- Der Widerstand gegen LLM-basierte Programmierunterstützung ist deutlich zurückgegangen; die Nutzung teilt sich in webbasierte Zusammenarbeit und unabhängige Coding-Agenten auf
- Forschung an Transformer-Alternativen und die Möglichkeit von AGI laufen parallel, und die Sichtweise gewinnt an Bedeutung, dass unterschiedliche Architekturen unabhängig voneinander allgemeine Intelligenz erreichen können
- Lange Zeit gab es die Behauptung, LLMs seien stochastische Maschinen (stochastic parrots) mit zwei Eigenschaften, die keine Bedeutung verstehen
- 1. Sie besitzen keinerlei Information über die Bedeutung des Prompts
- 2. Sie besitzen auch keinerlei Information darüber, was sie selbst sagen werden
- Durch die fortlaufende Anhäufung funktionaler Erfolge und wissenschaftlicher Hinweise verlor diese Sichtweise zunehmend an Überzeugungskraft und ist bis 2025 nahezu verschwunden
- Chain of Thought (CoT) hat sich mittlerweile als Schlüsseltechnik zur Verbesserung der LLM-Leistung etabliert
- Die Wirkung von CoT besteht darin, relevante Informationen und Konzepte in den Kontext zu heben und so Sampling im internen Repräsentationsraum des Modells, also eine interne Suche, zu ermöglichen
- In Kombination mit Reinforcement Learning lernt das Modell, indem es Token einzeln setzt, seinen Zustand zu verändern und auf nützliche Antworten zu konvergieren
- Die bisherige Sicht, dass die Grenzen der Skalierung durch die Anzahl der Token bestimmt werden, ist nicht länger gültig
- Mit der Einführung von Reinforcement Learning auf Basis verifizierbarer Belohnungen (RLVR) wurde der Bereich der Skalierung erweitert
- Bei Aufgaben mit klaren Belohnungssignalen, etwa der Verbesserung der Programmausführungsgeschwindigkeit, besteht theoretisch die Möglichkeit langfristiger kontinuierlicher Verbesserungen
- Fortschritte beim für LLMs eingesetzten Reinforcement Learning werden zur Schlüsseltechnologie der nächsten KI-Generation werden
- Der Widerstand von Entwicklerinnen und Entwicklern gegen KI-gestützte Programmierung ist spürbar gesunken
- Auch wenn LLMs Fehler machen, hat sich ihre Fähigkeit, nützlichen Code und hilfreiche Hinweise zu liefern, stark verbessert
- Da der Nutzen im Verhältnis zur Investition klarer geworden ist, beginnen selbst zuvor skeptische Entwicklerinnen und Entwickler mit dem Einsatz
- Es koexistieren die Nutzung von LLMs wie eines Kollegen über ein Web-Interface und die Nutzung als eigenständiger Coding-Agent
- Unter einigen renommierten KI-Wissenschaftlern verbreitet sich die Auffassung, dass auch nach dem Transformer ein weiterer Durchbruch möglich ist
- Teams und Unternehmen, die Transformer-Alternativen, explizite symbolische Repräsentation (symbolic representation) und World Models (world model) erforschen, treten auf den Plan
- LLMs werden als differenzierbare Maschinen betrachtet, die in einem Raum trainiert wurden, der diskrete Schlussfolgerungsschritte approximieren kann
- Es wird angenommen, dass AGI mit LLMs auch ohne ein grundlegend neues Paradigma erreichbar sein könnte
- Es besteht die Möglichkeit, dass künstliche allgemeine Intelligenz (AGI) über verschiedene Architekturen hinweg unabhängig erreicht werden kann
- Es wird auch die Behauptung vorgebracht, dass Chain of Thought das Wesen von LLMs verändert habe
- Es zeigt sich, dass manche, die LLMs früher als begrenzt betrachteten, nach CoT ihre Position änderten
- Sie sagen, LLMs seien durch CoT völlig anders geworden, doch das ist falsch
- Es bleibt dieselbe Architektur mit demselben Next-Token-Ziel, und CoT folgt weiterhin genau dem Mechanismus, bei dem Token einzeln erzeugt werden
- Der frühere ARC-Test zur Überprüfung der Grenzen von LLMs hat sich inzwischen zu einem Maßstab für den Nachweis der LLM-Leistung gewandelt
- Der ARC-Test erscheint anders als in der Anfangszeit nicht mehr als unüberwindbare Aufgabe
- Kleine, auf bestimmte Aufgaben optimierte Modelle erzielen bei ARC-AGI-1 bedeutende Ergebnisse
- Mit einer Architektur, von der viele glaubten, sie werde keine Ergebnisse liefern, wurden beeindruckende Resultate bei ARC-AGI-2 mit großen LLMs und umfangreichem CoT erzielt
- Die grundlegendste Herausforderung, vor der KI in den nächsten 20 Jahren stehen wird, ist die Frage, wie das Aussterben der Menschheit vermieden werden kann
2 Kommentare
Passt gut zusammen mit Andrej Karpathys jährlichem LLM-Rückblick 2025.
Hacker-News-Meinungen
Obwohl LLMs für Softwareingenieure sehr nützlich geworden sind, macht mir Angst, wie sehr die Gesellschaft insgesamt ihren Ausgaben vertraut.
Entwickler können Code ausführen und den Nutzen sofort überprüfen, aber normale Menschen halten in Bereichen wie Medizin oder Lebensberatung, wo Verifikation schwierig ist, Halluzinationen (hallucinations) oft für Tatsachen.
Wenn ich sehe, wie erfundene Zitate oder Falschmeldungen reale Entscheidungen beeinflussen, habe ich das Gefühl, dass alle das Problem der Verantwortlichkeit (accountability) ignorieren.
Realistisch gesehen können Menschen Ärzte nicht zehnmal am Tag etwas fragen, und LLMs liefern sofort Antworten auf einem Niveau von 80–90 %.
Sie sind besser als die Google-Suche, und vor allem verfolgen LLMs keine Betrugsabsichten oder Eigeninteressen.
Sie sind nicht perfekt, aber eine durchaus brauchbare Alternative.
Die meisten Menschen haben jedoch kaum Gelegenheit, mit echten Experten zu sprechen, und im Vergleich zu Blogs oder Foren sind LLMs oft sogar einen Schritt besser.
Auch bei medizinischem Rat ist die Nutzung von LLMs nicht nur schlecht, wenn man bedenkt, wie schwer Experten zugänglich sind.
LLMs versuchen derzeit noch, relativ verlässliche Informationen zu geben, aber es macht mir Angst, dass die Welt immer chaotischer wird und es immer schwieriger wird, die tatsächliche Lage zu erfassen.
Artikellink
Es endete mit einer Entschuldigung, aber ich frage mich, wie viele Fehlinformationen bereits reale Entscheidungen beeinflussen.
Klassische Suchmaschinen unterscheiden sich von LLMs darin, dass sie einen nicht unter Druck setzen, einen PR zu mergen.
Aus der Sicht von jemandem mit mehr als 30.000 Stunden Programmiererfahrung erzeugen LLMs oft schlechten Code, sind aber trotzdem sehr nützlich.
Der Schlüssel ist, auch ohne LLM zu wissen, was man tun muss.
Irgendwann wird der Zeitpunkt kommen, an dem das mit einer realistischen Kostenstruktur zusammenpassen muss.
Man wirft ein Problem hinein, macht etwas anderes und prüft später das Ergebnis.
Wenn der Input großen Aufwand erfordert hätte, wäre das nicht so nützlich.
Im Grundzustand sind sie also schwach, aber wenn man das Problem gut definiert, werden sie zu hervorragenden Architekten.
Mich interessiert schon jetzt, wie Arbeitgeber Junior-Entwickler bewerten.
Die Formulierung „der AI-Widerstand der Programmierer ist zurückgegangen“ gefällt mir nicht.
Wörter wie „Widerstand“ oder „Skeptiker“ tragen die Nuance in sich, dass diese Leute falsch lagen.
Die Veränderung liegt nicht an den Menschen, sondern daran, dass sich die Technologie weiterentwickelt hat.
Ich nutze LLMs sehr nützlich für Codegenerierung oder Dokumentensuche, glaube aber nicht, dass sie Intelligenz besitzen.
So wie Python Java nicht ersetzt hat, werden auch LLMs keine Jobs verschwinden lassen.
Auch die extreme Behauptung, „AI übertrifft die menschliche Intelligenz“, ist bisher nicht bewiesen.
In einer Atmosphäre, in der man „entlassen werden könnte, wenn man AI nicht liebt“, bleibt einem gar nichts anderes übrig, als zu sagen, dass man sie mag.
Auch 2026 werden Kommentare wie „LLMs sind nutzlos“ nicht verschwinden.
Ich selbst nutze sie leichtgewichtig für etwa 20 Dollar im Monat, aber wenn ich Nutzungstipps teile, werde ich als „AI-Promoter“ behandelt.
Solche Leute liegen tatsächlich falsch.
Inzwischen hat sich die Technologie weiterentwickelt und wurde an den Geschmack von Programmierern angepasst.
Ich denke, dass LLMs das Versprechen exponentiellen Fortschritts aus den Jahren 2022–2023 nicht eingelöst haben.
Der Unterschied zwischen 2025 und 2023 ist nicht so groß wie der zwischen 2023 und 2021.
Trotzdem sind sie weiterhin nützlich und haben verändert, wie Software geschrieben wird.
Aber die Menschen zeigen immer noch eine Fixierung darauf, dass LLMs mehr als das sein sollen.
Manche verfallen sogar einer AI-Psychose (psychosis), verlieren menschliche Beziehungen oder machen AI zu einem dauerhaften Berater.
Schon allein die Kontextgröße ist von 8K bei GPT-4 auf mehrere Millionen Wörter gewachsen.
Wenn man auch Schlussfolgerungsfähigkeit und multimodale Funktionen berücksichtigt, ist der Fortschritt enorm.
Warum muss die AGI-Zukunft immer katastrophal sein?
Vielleicht, weil nur eine „böse AGI“ die Macht der technischen Elite rechtfertigt.
LLMs wirken auf mich wie eine Technologie, die die menschliche Psyche raffiniert ausnutzt.
Die Menschen sind mental nicht darauf vorbereitet, mit dieser Technologie umzugehen.
Sie loben den Nutzer endlos und gewinnen so seine Zuneigung.
Chatbots kritisieren nicht und schmeicheln, deshalb werden sie schnell zu persönlichen Ratgebern erhoben.
Es fühlt sich an wie das Auge Saurons im Technologiezeitalter.
Als ich die Aussage hörte, dass LLMs sich bei Aufgaben mit klaren Belohnungssignalen wie „Geschwindigkeitsoptimierung“ weiter verbessern könnten, musste ich an Goodharts Gesetz denken.
Laut Goodhart’s law entstehen Verzerrungen, wenn eine Messgröße selbst zum Ziel wird.
Es könnte Code entstehen, der zwar schnell, aber schwer zu verstehen ist.
Es ist gut möglich, dass LLMs zu ähnlichen Ergebnissen kommen.
Superoptimization gibt es seit 1987, und sie erzeugt unverständlichen, aber schnellen Code.
Ich stimme der Aussage „Code ist kostenlos“ nicht zu.
Hinter dem von LLMs erzeugten Code stehen Rechenzentren, die Energie, Wasser und Ressourcen verbrauchen.
Diese Kultur des „kostenlosen Codens“ verursacht dem Planeten realen Schaden.
Man braucht Kontext.
Man muss die Zahlen relativ betrachten.
Tatsächlich gibt es Kosten, die sich nicht direkt in Geld ausdrücken lassen.
Es gab die Kritik: „Das ist nur eine Sammlung unbelegter Behauptungen.“
Nicht jeder Text muss eine wissenschaftliche Arbeit sein.
Es ist einfach ein Ort, um Meinungen auszutauschen.
Ich stimme der Behauptung nicht zu, dass „LLMs keine Bedeutung ausdrücken“.
Schon der Attention-Mechanismus des Transformers ist eine Struktur, die Repräsentationen von Bedeutung auf mehreren Ebenen erzeugt.
Je mehr Parameter vorhanden sind, desto mehr Repräsentationen (representations) können gespeichert werden.
Forscher würden dieses Grundprinzip wohl kaum bestreiten.
Auch ich halte es für möglich, AGI auch ohne neues Paradigma zu erreichen.
Zur Kritik, es seien nur „nicht überprüfbare Behauptungen“ aufgereiht worden:
Es ist einfach ein Text, der eine Meinung ausdrückt.
Genau dafür sind Blogs da, und manchmal eröffnen solche Gedanken neue Perspektiven.