Karpathy: nanochat mit Autoresearch zwei Tage lang automatisch getunt, GPT-2-Trainingszeit um 11 % verkürzt

(x.com/karpathy)

17 Punkte von xguru 2026-03-11 | 3 Kommentare | Auf WhatsApp teilen

Der vor 3 Tagen veröffentlichte Autoresearch-Agent hat beim depth=12-Modell in rund 2 Tagen autonom etwa 700 Änderungen ausprobiert und dabei etwa 20 wirksame Änderungen gefunden, die den Validation Loss verbessern
Die gefundenen Änderungen sind alle additiv (additive) und lassen sich unverändert auf das größere depth=24-Modell übertragen, wodurch sich auf dem Leaderboard die „Time to GPT-2“ von 2,02 Stunden auf 1,80 Stunden, also um etwa 11 %, verkürzt
Bisher wurde der Prozess der iterativen manuellen Optimierung – von Ideenfindung → Implementierung → Prüfung des Validation Loss → Nachschlagen in Papers usw. – 20 Jahre lang durchgeführt
Diesmal hat der Agent den kompletten Workflow end-to-end übernommen: Er analysiert die Sequenz der Experimentergebnisse und plant auf dieser Basis autonom das nächste Experiment
Die Ergebnisse von „round 1“ sind bereits committet, und als Nächstes soll „round 2“ starten; parallel dazu wird auch ein Ansatz für Zusammenarbeit zwischen mehreren Agenten (collaboration) zur Parallelisierung erforscht (AgentHub)
Noch ist das nicht auf dem Niveau bahnbrechender Forschung (ground-breaking research), aber real übersehene Verbesserungen aus manuellem Tuning summieren sich und führen zu einer spürbaren Leistungssteigerung
Im großen Maßstab ist das deutlich komplexer als das Tuning einer einzelnen train.py, aber im Kern ein Engineering-Problem und damit lösbar
Mit einem Agent-Schwarm (agent swarm) werden zunächst kleine Modelle getunt und vielversprechende Ideen schrittweise auf größere Skalen gehoben – eine Entwicklung, die jedes Frontier-Lab für LLMs letztlich übernehmen dürfte
Jede Metrik, die sich effizient bewerten lässt (oder für die es Proxy-Metriken gibt), kann Ziel dieser automatischen Optimierung werden

3 Kommentare

hanje3765 2026-03-11

Ich habe mir das Konzept von Autoresearch und AgentHub kurz angesehen,
und dachte dabei, dass die Kombination aus beiden nicht eigentlich genau das wäre, was Wissenschaft und Forschungsinstitute im Kern ausmacht.
Forschungsinstitute veröffentlichen ihre Ergebnisse auf Konferenzen, greifen Feedback auf, und neue Institute forschen darauf aufbauend weiter — das wirkte auf mich wie eine erweiterte Form von Reinforcement Learning.
RL ist zwar nicht erklärbar, aber ich hatte das Gefühl, dass sich bei einer Ausweitung dieses Ansatzes plötzlich alles erklären lässt, und genau das fand ich wirklich innovativ.
Über Karpathy heißt es ja, dass er zur Entwicklung von Teslas FSD beigetragen hat, daher fragte ich mich auch, ob er ein dort anschließendes Konzept in die Forschung übertragen hat.
Wie auch immer, er ist auf jeden Fall einer der Menschen, die ich weiterhin im Auge behalten werde.

sea715 2026-03-11

Stimmt, deshalb denke ich, dass das in gewisser Weise die letzte Hürde sein könnte, bevor AGI kommt.

xguru 2026-03-11

Er scheint irgendwie ein ganz anderes Leben zu führen, haha.

Karpathy: nanochat mit Autoresearch zwei Tage lang automatisch getunt, GPT-2-Trainingszeit um 11 % verkürzt

Verwandte Beiträge

3 Kommentare