Andrej Karpathy über Code-Agenten, AutoResearch und das loopy Zeitalter der KI [YouTube]

(youtube.com)

29 Punkte von GN⁺ 2026-03-21 | 1 Kommentare | Auf WhatsApp teilen

Mit dem Aufkommen von KI-Code-Agenten hat sich die Art der Softwareentwicklung grundlegend verändert; seit Dezember 2024 ist der Anteil des direkten Codings gefühlt von 80 % auf nahezu 0 % eingebrochen
Dass Einzelpersonen mehrere Agenten parallel betreiben und Arbeiten nach Funktionsblöcken verteilen, etabliert sich als neues Entwicklungsparadigma; der zentrale Engpass ist dabei nicht die Modellfähigkeit, sondern die Fertigkeit der Nutzer
AutoResearch ist ein Framework, das Forschende aus dem Loop nimmt und Agenten Experimente autonom wiederholen lässt; es fand bereits Hyperparameter-Optimierungen, die selbst erfahrene Forschende übersehen hatten
Aktuelle KI-Modelle sind in per RL verifizierbaren Bereichen (Code, Mathematik) hervorragend, stagnieren aber in nicht verifizierbaren Bereichen wie Witzen; statt verallgemeinerter Intelligenz zeigt sich eine unregelmäßige Spezialisierung
Im Bereich der digitalen Informationsverarbeitung wird es zuerst zu großen Umbrüchen kommen; die physische Welt (Robotik) folgt später, dürfte langfristig aber die größere Marktchance sein

Das Zeitalter der Code-Agenten und der Wandel der Arbeitsweise

Seit Dezember 2024 hat sich die grundlegende Arbeitsweise in der Softwareentwicklung komplett verändert: Der Anteil des direkten Eintippens von Code fiel von 80 % auf 20 % und danach fast auf 0
Früher war die Tippgeschwindigkeit der Engpass; mit dem Aufkommen von Agenten ist die Fähigkeit, dem Agenten die eigene Absicht zu vermitteln, zur Schlüsselkompetenz geworden
Die meisten Menschen haben weder wahrgenommen, dass dieser Wandel bereits eingetreten ist, noch wie drastisch er ausfällt
Mehrere Agenten wie Claude Code oder Codex gleichzeitig zu betreiben und effektiv zu steuern, ist zur neuen Herausforderung geworden

Paralleler Agentenbetrieb und die Bedeutung von Erfahrung

Beispiel von Peter Steinberger: Er lässt viele Codex-Agenten parallel laufen, verwaltet mehr als 10 Repositories gleichzeitig und verteilt an jeden Agenten Aufgaben von jeweils etwa 20 Minuten
Die Arbeitseinheit steigt von „eine Zeile Code“ oder „eine Funktion“ auf „ein neues Feature“; Agent 1 bekommt dieses Feature, Agent 2 ein anderes, das nicht kollidiert
- Ein Agent recherchiert, ein anderer schreibt Code, ein weiterer erstellt den Implementierungsplan
Wenn Agenten nicht gut funktionieren, liegt das gefühlt meist nicht an mangelnder Modellfähigkeit, sondern an unzureichender Fertigkeit der Nutzer
- Ursachen sind etwa unzureichende Anweisungen in MD-Dateien für Agenten oder eine schlecht konfigurierte Memory-Tooling-Struktur
Wer die verfügbare Token-Throughput nicht maximal nutzt, empfindet eher Unruhe; verbleibender Spielraum im Abo wird als Zeichen gesehen, dass der Durchsatz nicht vollständig ausgeschöpft wurde
Das Gefühl aus früheren Promotionszeiten, nervös zu werden, wenn GPU-FLOPs nicht maximal ausgelastet waren, hat sich nun in die Fähigkeit zur Steuerung von Token-Throughput verlagert

OpenClaw und die Bedeutung der Agenten-Persönlichkeit

OpenClaw ist im Unterschied zu bisherigen Agenten eine Schicht, die Persistenz auf ein anderes Niveau hebt: Auch ohne ständige Echtzeit-Begleitung durch den Nutzer arbeitet es autonom in einer Sandbox weiter
Das Memory-System ist viel ausgefeilter als bei bisherigen Agenten, bei denen meist nur simpel komprimiert wird, sobald der Kontext voll ist
Die Persönlichkeit des Agenten ist ein sehr wichtiger Faktor
- OpenClaw: wirkt wie ein echtes Teammitglied und vermittelt Begeisterung
- Codex: sehr trocken und nüchtern, wirkt so, als interessiere es sich nicht dafür, was der Nutzer baut
- Claude: steuert den Ton des Lobs sehr gut; auf gewöhnliche Ideen reagiert es zurückhaltend, auf gute Ideen stärker, was den Wunsch nach Anerkennung beim Nutzer verstärkt
Peter Steinberger erzielt gleichzeitig Innovation in fünf Richtungen: Persönlichkeitsdesign, Memory-System, Integration in ein einheitliches WhatsApp-Portal und mehr

Dobby, der Hauself: ein Home-Automation-Beispiel

Im Januar, während einer Phase des „Claw-Wahns“, entstand ein Claw zur Hausverwaltung mit dem Namen „Dobby, der Hauself-Claw“
Der Agent erkundete automatisch Smart-Home-Subsysteme im lokalen Netzwerk
- Sonos-System entdeckt → API-Endpunkte rückwärts analysiert → nach drei Prompts lief Musik im Arbeitszimmer
- Das gesamte Beleuchtungssystem wurde erfasst und sogar ein Dashboard aufgebaut
Mit der Aussage „Es ist Schlafenszeit“ wurde eine Steuerung per natürlicher Sprache umgesetzt, bei der alle Lichter im Haus ausgehen
Änderungserkennung durch externe Kameras → Analyse mit dem Qwen-Vision-Modell → Versand von WhatsApp-Benachrichtigungen wie „Ein FedEx-Lkw ist angekommen“
Früher wurden 6 Apps für das Smart Home verwendet; da Dobby nun alles in natürlicher Sprache steuert, sind einzelne Apps überflüssig geworden

Das Ende der App und eine agent-first Welt

Apps für Smart-Home-Geräte sind sinnlos; sie sollten nur APIs bereitstellen, die Agenten direkt aufrufen
Da LLMs Tools bedienen, die richtigen Tools aufrufen und komplexe Aufgaben ausführen können, werden maßgeschneiderte Apps derzeit überproduziert
Beispiel Laufband-App: Statt Web-UI-Login und komplizierter Abläufe braucht es einen agent-first Ansatz, bei dem der Agent die API direkt aufruft
Der Kunde ist nicht länger nur der Mensch, sondern der Agent, der den Menschen vertritt; die gesamte Branche muss sich daran anpassen
Heute braucht es noch Vibe-Coding, doch in 1 bis 3 Jahren könnten Open-Source-Modelle und andere Systeme auch nichttechnische Absichten leicht umsetzen, sodass die technische Hürde verschwindet

AutoResearch: Forschende aus dem Loop nehmen

Der zentrale Antrieb von AutoResearch: Wer den Token-Throughput maximieren will, muss sich selbst als Engpass aus dem Weg nehmen
Ziel ist es, Abstraktionen so zu refaktorieren, dass Agenten ohne eigenes Eingreifen über längere Zeit autonom laufen
Das Training eines GPT-2-Modells wird als kleines Werkzeug genutzt, um die Idee der rekursiven Selbstverbesserung zu untersuchen
- Im Kern tun alle Frontier Labs genau das: rekursive Selbstverbesserung anstreben
Praktisches Ergebnis: Ein Modell, das ein Forschender mit 20 Jahren Erfahrung für ausreichend abgestimmt hielt, wurde über Nacht von AutoResearch weiter untersucht, wobei übersehene Optimierungen bei weight decay des value embedding und atom beta gefunden wurden
- Da Hyperparameter gemeinsam interagieren, muss bei der Änderung eines Werts oft auch ein anderer angepasst werden; wenn der Mensch der Engpass ist, wird diese Suche begrenzt
Erste Einschränkung: Es funktioniert gut nur bei Aufgaben mit leicht bewertbaren objektiven Metriken (CUDA-Kernel-Optimierung, Code-Effizienz usw.)
Zweite Einschränkung: Die Ränder (edge) aktueller Modelle sind noch rau, sodass eine zu frühe Ausweitung die praktische Nutzbarkeit mindert

Meta-Optimierung von Program MD

Konzept, eine ganze Forschungsorganisation als Markdown-Datei (Program MD) zu beschreiben: alle Rollen und ihre Verbindungen werden festgelegt
Mehrere Forschungsorganisationen lassen sich als Code definieren und mit unterschiedlichen Eigenschaften versehen
- Etwa unterschiedliche Stand-up-Frequenzen oder verschiedene Grade der Risikobereitschaft
Sobald dies in Code gegossen ist, lässt sich auch eine Optimierung des Codes selbst (Meta-Optimierung) denken
- Man lässt verschiedene Program-MD-Varianten schreiben, misst auf derselben Hardware, wo die größten Verbesserungen entstehen, und gibt diese Daten wieder an das Modell zurück, damit es bessere Program MDs schreibt
Wie bei Schichten einer Zwiebel stapeln sich Abstraktionsebenen: LLM-Alignment → Agent → mehrere Agenten → Anweisungen → Optimierung der Anweisungen

Die unregelmäßige Intelligenz aktueller KI-Modelle

Heutige Modelle sind eine seltsame Kombination aus hochklassigem Doktoranden-Niveau und Fehlern wie bei einem Zehnjährigen
In mit RL (Reinforcement Learning) verifizierbaren Bereichen (Code-Korrektheit, Bestehen von Unit-Tests) verbessern sie sich schnell, in nicht verifizierbaren Bereichen wie Witzen stagnieren sie dagegen auf dem Stand von vor 3 bis 5 Jahren
- Beispiel: Selbst ein modernes ChatGPT liefert auf die Bitte um einen Witz noch immer etwas wie „Warum vertrauen Wissenschaftler Atomen nicht? Weil sie alles ausmachen.“
Die Intelligenz im Code-Bereich generalisiert nicht auf andere Bereiche wie Witze
- Die Annahme mancher Forschungsgruppen, dass mehr Intelligenz in verifizierbaren Bereichen automatisch zu allgemeiner Kompetenz führt, bestätigt sich in der Praxis nicht
Modelle entwickeln sich mit Lichtgeschwindigkeit entlang der Bahn ihrer Trainingsziele, stagnieren aber außerhalb davon

Warum Intelligenz Speziation braucht

Aktuelle Labs neigen zu einer Monokultur aus einem einzelnen Modell, in der Intelligenz für alle Bereiche in einen einzigen Parametersatz gepresst werden soll
Wie in der Tierwelt braucht es vielfältige spezialisierte Modelle für unterschiedliche Nischen
- Mit erhaltenem kognitiven Kern, aber spezialisiert auf bestimmte Domänen, kleiner und effizienter
- Beispiel: domainenspezifische Releases wie ein Lean-basiertes Modell nur für Mathematik
Warum diese Speziation noch nicht ausreichend stattfindet
- Die Wissenschaft des verlustfreien Fine-Tunings des „Gehirns“ ist noch nicht vollständig entwickelt
- Das Arbeiten über das Kontextfenster ist günstig, aber direkte Änderungen an Gewichten bergen das Risiko, das gesamte Modell grundlegend zu verändern
- Labs jagen derzeit der maximalen allgemeinen Einsetzbarkeit nach und fokussieren daher eher Generalität als Spezialisierung
Ein Mangel an verfügbarer Compute-Infrastruktur könnte Speziation kurzfristig sogar fördern

Open Source und das Gleichgewicht zu Frontier Labs

Geschlossene Modelle führen zwar, doch der Rückstand von Open-Source-Modellen konvergiert von 18 Monaten auf 6 bis 8 Monate
Ähnlich wie Linux im Betriebssystemmarkt gibt es in der Branche Bedarf an einer sicheren offenen Plattform, die gemeinsam genutzt werden kann
Der größte Unterschied ist, dass die LLM-Entwicklung massive CapEx erfordert
Die meisten Consumer-Use-Cases lassen sich mit Open-Source-Modellen bereits ausreichend abdecken; in den kommenden Jahren dürfte sogar lokale Ausführung möglich werden
Frontier-Intelligenz wird für Nobelpreis-würdige Aufgaben oder Großprojekte wie die Umstellung von Linux von C auf Rust gebraucht; diesen Bereich bedienen geschlossene Modelle
Das heutige Gleichgewicht ist zufällig eine ziemlich brauchbare Konstellation, birgt aber das systemische Risiko einer Zentralisierung von Intelligenz in wenigen Frontier Labs
- Mehr Labs sollten an der Frontier mitwirken; wie bei ML-Ensembles ist ein Ensemble unterschiedlicher Perspektiven am besten

Open-Source-Forschungskooperation: verteilte Skalierung von AutoResearch

Idee, AutoResearch auf einen nicht vertrauenswürdigen Worker-Pool im Internet auszuweiten
- Ähnlich wie bei einer Blockchain: statt Blöcken gibt es Commits, und der Proof of Work besteht darin, viele Experimente auszuführen, um funktionierende Commits zu finden
- Kandidatenlösungen zu erzeugen ist teuer, Verifikation ist jedoch billig – eine asymmetrische Struktur ähnlich SETI@home oder Folding@home
Modell, bei dem Unternehmen oder Einzelpersonen Compute spenden für AutoResearch-Tracks, die sie interessieren
- Beispiel: Compute für AutoResearch in der Krebsforschung beisteuern → Rückfluss an die Forschenden
Vertrauenswürdige Compute in Frontier Labs ist begrenzt, die nicht vertrauenswürdige Compute der gesamten Erde ist jedoch um ein Vielfaches größer
Sicherheitsproblem: Die Ausführung beliebigen Codes ist riskant, könnte aber mit passenden Verifikationssystemen adressiert werden

Arbeitsmarkt und die Auswirkungen von KI

Analyse der Perspektiven verschiedener Berufe in den nächsten 10 Jahren anhand von Daten des U.S. Bureau of Labor Statistics (BLS)
KI ist derzeit ein geisterhaftes Wesen, das die digitale Welt manipuliert, ohne physische Verkörperung
- Bits umzuschalten und digitale Informationen zu kopieren/einzufügen ist eine Million Mal schneller als Atome zu bewegen
Berufe der digitalen Informationsverarbeitung werden sich zuerst stark verändern; Berufe in der physischen Welt folgen später
Vorsichtiger Optimismus für Software Engineering
- Software war bisher zu teuer und zu knapp; sinken die Kosten, könnte nach dem Jevons-Paradoxon die Nachfrage sogar steigen
- Beispiel ATM und Bankschalter: Geldautomaten senkten die Betriebskosten von Filialen, wodurch mehr Filialen und auch mehr Schalterpersonal entstanden
Code wird nun ephemer, kann also verändert und angepasst werden, statt an unvollkommene Abo-Software gebunden zu bleiben
Forschende in Frontier Labs arbeiten im Kern daran, sich selbst zu automatisieren, was auch ein gewisses Unbehagen erzeugt

Digitale-physische Schnittstellen und künftige Chancen

Erwartete Reihenfolge: ① große Veränderungen im digitalen Raum → ② digitale-physische Schnittstellen → ③ physische Welt
Sensoren der physischen Welt (Kameras usw.) liefern Daten an digitale Intelligenz, und deren Ergebnisse wirken zurück auf die physische Welt
- Beispiel Periodic (AutoResearch in den Materialwissenschaften): Der Sensor für die Intelligenz ist teure Laborausrüstung
- In der Biologie sind die Sensoren komplexere Geräte als nur Videokameras
Es fehlen bislang ausreichend entwickelte Informationsmärkte
- Es gibt noch keine gute Struktur, in der Agenten autonom auf Wettmärkten oder Aktienmärkten agieren und physische Weltdaten einkaufen
- Beispiel: Es fehlt noch ein Prozess, um bei einem Ereignis im Iran 10 Dollar für Fotos oder Videos vor Ort zu zahlen
Verweis auf den Roman „Daemon“: eine Zukunft, in der Menschen als Sensoren und Aktuatoren der Intelligenz fungieren

Sicht auf Robotik

Lehre aus der Erfahrung mit autonomem Fahren: Vor 10 Jahren entstanden viele Startups, die langfristig jedoch größtenteils scheiterten
Robotik ist kapitalintensiv, zeitaufwendig, chaotisch und komplex
Sie wird sich wahrscheinlich langsamer entwickeln als der digitale Raum, doch ihr Total Addressable Market (TAM) könnte deutlich größer sein
Atome sind eine Million Mal schwieriger zu handhaben als Bits, entsprechend größer ist aber auch die Marktchance

Innerhalb vs. außerhalb von Frontier Labs: das Dilemma unabhängiger Forschender

Innerhalb von Frontier Labs sitzt man zwar im Entscheidungsraum, steht aber unter dem Druck, dass es Dinge gibt, über die man nicht sprechen darf und doch sprechen sollte
Außerhalb ist man unabhängig, aber weil Labs intransparent sind, beginnt das Urteilsvermögen zu driften
Das ideale Setup: Zeit in Frontier Labs verbringen, um die reale Lage zu verstehen, und außerhalb davon Einfluss auf Ökosystem-Ebene ausüben
So wie ML-Ensembles einzelnen Modellen überlegen sind, braucht es auch ein Ensemble von Menschen, die über die schwierigsten Probleme nachdenken
Wenn zwei oder drei Personen hinter verschlossenen Türen entscheiden, ist das keine gute Zukunft; es braucht mehr Labs

microGPT und die Zukunft der Bildung

microGPT: ein Projekt, das das Wesen des LLM-Trainings auf etwa 200 Zeilen Python-Code verdichtet
- Besteht aus Datensatz (Text), neuronaler Netzwerkarchitektur (~50 Zeilen), autograd-Engine (~100 Zeilen), Optimizer (~10 Zeilen) und Trainingsloop
- Die gesamte Komplexität dient der Effizienz; der Algorithmus selbst ist sehr einfach
Wandel in der Wissensvermittlung: Früher wurde direkt für Menschen erklärt, in Guides oder Vorträgen; heute wird es entscheidend, für Agenten zu erklären
- Wenn man 200 Zeilen Code einem Agenten erklärt, kann dieser sie jedem Nutzer passend zum jeweiligen Niveau mit unendlicher Geduld neu erklären
Konzept des „Skills“: Ein Curriculum in Markdown, das dem Agenten vorgibt, wie er etwas lehren soll
- Auch Dokumentation von Code-Bibliotheken sollte statt menschenorientiertem HTML in Markdown-Form für Agenten überführt werden
Rolle menschlicher Lehrender: die zentralen Bits entwerfen, die Agenten noch nicht beherrschen, und die wichtigen Punkte des Curriculums gezielt einbringen
- Was Agenten können, werden sie bald besser können als Menschen; deshalb braucht es eine strategische Entscheidung, wofür Menschen ihre Zeit einsetzen

1 Kommentare

jokerized 2026-03-22

Witze sind wirklich eine große Hürde. Wenn man eine AI mit Humor entwickeln würde, wäre das eine echte Revolution. Daran sieht man es ja: Wenn man sie jetzt bittet, einen Witz zu machen, ist das einfach todlangweilig.