- Der vor 3 Tagen veröffentlichte Autoresearch-Agent hat beim depth=12-Modell in rund 2 Tagen autonom etwa 700 Änderungen ausprobiert und dabei etwa 20 wirksame Änderungen gefunden, die den Validation Loss verbessern
- Die gefundenen Änderungen sind alle additiv (additive) und lassen sich unverändert auf das größere depth=24-Modell übertragen, wodurch sich auf dem Leaderboard die „Time to GPT-2“ von 2,02 Stunden auf 1,80 Stunden, also um etwa 11 %, verkürzt
- Bisher wurde der Prozess der iterativen manuellen Optimierung – von Ideenfindung → Implementierung → Prüfung des Validation Loss → Nachschlagen in Papers usw. – 20 Jahre lang durchgeführt
- Diesmal hat der Agent den kompletten Workflow end-to-end übernommen: Er analysiert die Sequenz der Experimentergebnisse und plant auf dieser Basis autonom das nächste Experiment
- Die Ergebnisse von „round 1“ sind bereits committet, und als Nächstes soll „round 2“ starten; parallel dazu wird auch ein Ansatz für Zusammenarbeit zwischen mehreren Agenten (collaboration) zur Parallelisierung erforscht (AgentHub)
- Noch ist das nicht auf dem Niveau bahnbrechender Forschung (ground-breaking research), aber real übersehene Verbesserungen aus manuellem Tuning summieren sich und führen zu einer spürbaren Leistungssteigerung
- Im großen Maßstab ist das deutlich komplexer als das Tuning einer einzelnen
train.py, aber im Kern ein Engineering-Problem und damit lösbar
- Mit einem Agent-Schwarm (agent swarm) werden zunächst kleine Modelle getunt und vielversprechende Ideen schrittweise auf größere Skalen gehoben – eine Entwicklung, die jedes Frontier-Lab für LLMs letztlich übernehmen dürfte
- Jede Metrik, die sich effizient bewerten lässt (oder für die es Proxy-Metriken gibt), kann Ziel dieser automatischen Optimierung werden
3 Kommentare
Ich habe mir das Konzept von Autoresearch und AgentHub kurz angesehen,
und dachte dabei, dass die Kombination aus beiden nicht eigentlich genau das wäre, was Wissenschaft und Forschungsinstitute im Kern ausmacht.
Forschungsinstitute veröffentlichen ihre Ergebnisse auf Konferenzen, greifen Feedback auf, und neue Institute forschen darauf aufbauend weiter — das wirkte auf mich wie eine erweiterte Form von Reinforcement Learning.
RL ist zwar nicht erklärbar, aber ich hatte das Gefühl, dass sich bei einer Ausweitung dieses Ansatzes plötzlich alles erklären lässt, und genau das fand ich wirklich innovativ.
Über Karpathy heißt es ja, dass er zur Entwicklung von Teslas FSD beigetragen hat, daher fragte ich mich auch, ob er ein dort anschließendes Konzept in die Forschung übertragen hat.
Wie auch immer, er ist auf jeden Fall einer der Menschen, die ich weiterhin im Auge behalten werde.
Stimmt, deshalb denke ich, dass das in gewisser Weise die letzte Hürde sein könnte, bevor AGI kommt.
Er scheint irgendwie ein ganz anderes Leben zu führen, haha.