- Es wurde eine neue Kennzahl vorgeschlagen, die die Leistung anhand der „Länge“ von Aufgaben misst, die ein KI-Modell vollständig ausführen kann
- Analysen zeigen, dass sich die Länge von Aufgaben, die KI in den vergangenen 6 Jahren autonom abschließen kann, etwa alle 7 Monate verdoppelt hat
- Aufgaben, die menschliche Experten in weniger als 4 Minuten beenden, werden fast zu 100 % erfolgreich gelöst, aber bei Aufgaben mit mehr als 4 Stunden Dauer liegt die Erfolgsquote unter 10 %
- Sollte sich dieser Trend fortsetzen, wird prognostiziert, dass KI innerhalb weniger Jahre Projekte im Umfang von mehreren Wochen eigenständig ausführen kann
- Die Studie hat wichtige Implikationen für KI-Benchmarks, die Vorhersage künftiger Fähigkeiten und das Risikomanagement
Forschungsüberblick
- METR stellt eine neue Methode vor, um zu messen, wie lange Aufgaben sind, die KI abschließen kann
- Maßstab ist die Zeit, die menschliche Experten benötigen, um die jeweilige Aufgabe auszuführen
- Die Beziehung zwischen Erfolgswahrscheinlichkeit des Modells und menschlicher Bearbeitungszeit wird mit einer logistischen Kurve modelliert
- Dieser Ansatz wird als nützliche Kennzahl vorgestellt, um die tatsächliche praktische Einsetzbarkeit von KI zu bewerten
- Er ergänzt die Schwächen bestehender Benchmarks, die stark auf die Fähigkeit zur Lösung einzelner Probleme fokussiert sind
Zentrale Ergebnisse
- Aktuelle Leistungsgrenzen der Modelle
- Aufgaben, die Menschen in weniger als 4 Minuten erledigen, werden fast zu 100 % erfolgreich gelöst
- Bei Aufgaben mit mehr als 4 Stunden Dauer liegt die Erfolgsquote unter 10 %
- Beispiel: Claude 3.7 Sonnet erreicht bei Aufgaben von etwa 1 Stunde Länge eine Erfolgsquote von 50 %
- Trend der Leistungsverbesserung
- In den vergangenen 6 Jahren hat sich die mit 50 % Verlässlichkeit bewältigbare Aufgabenlänge etwa alle 7 Monate verdoppelt
- Die Analyse auf logarithmischer Skala bestätigt anhaltendes exponentielles Wachstum
- Falls der Trend anhält, besteht die Möglichkeit, innerhalb von 2 bis 4 Jahren Aufgaben im Wochenmaßstab auszuführen
Methodik und Validierung
- Validierung auf Basis von Datensätzen
- Für verschiedene Aufgabengruppen (Software, Reasoning usw.) wurde die menschliche Bearbeitungszeit erfasst
- Auch im Datensatz SWE-Bench Verified wurde ein ähnlicher exponentieller Anstieg bestätigt
- In diesen Daten wurde eine Verdopplungsgeschwindigkeit von unter 3 Monaten beobachtet
- Sensitivitätsanalyse
- Die Robustheit gegenüber verschiedenen Faktoren wie Modell- und Aufgabenauswahl sowie Rauschen wurde geprüft
- In Simulationen zur Vorhersage des Zeitpunkts, an dem 1-monatige Aufgaben bewältigt werden können, bleibt der Trend auch bei großen Messfehlern bestehen
Interpretation und Grenzen
- Dies erklärt die Diskrepanz zwischen Benchmark-Ergebnissen von KI und ihrer tatsächlichen Nützlichkeit
- In Prüfungsaufgaben usw. übertrifft KI den Menschen, bei realen langfristigen Projekten ist sie jedoch unzureichend
- Die Unsicherheit bei der Extrapolation des Trends wird anerkannt
- Werden nur Daten aus 2024 bis 2025 verwendet, verschiebt sich der Zeitpunkt für die Bewältigung von Aufgaben im Monatsmaßstab um etwa 2,5 Jahre nach vorn
- Es wird erwähnt, dass jüngere Trends die künftige Leistung möglicherweise besser vorhersagen als ältere Daten
Fazit und Bedeutung
- Der Ansatz, KI-Leistung über die „Aufgabenlänge“ zu messen,
- ermöglicht die Quantifizierung von Leistungsverbesserungen über verschiedene Schwierigkeitsgrade und Domänen hinweg
- erlaubt eine Interpretation absoluter Leistung, die direkt mit realen Auswirkungen verknüpft ist
- Wenn das anhaltende exponentielle Wachstum weitergeht,
- dürfte die autonome Durchführung von Projekten im Monatsmaßstab innerhalb von 10 Jahren möglich werden
- dies geht zugleich mit enormem potenziellem Nutzen und Risiken einher
- Die Forschungsdaten und der Analysecode sind auf GitHub veröffentlicht, um Folgeforschung und Replikationsstudien zu fördern
- Zugehörige Infrastruktur: vivaria, eval-analysis-public
2 Kommentare
Scheint ein sehr guter Benchmark zu sein.
Wenn man sich die aktuellen AI-Coding-Tools ansieht, gibt es oft Fälle, in denen sie im Voraus einen Plan erstellen und dann im Agent-Modus handeln. Mich würde auch interessieren, ob das tatsächlich einen signifikanten Einfluss auf die langfristige Erfolgsquote hat.
Hacker-News-Kommentare
Es war ein Prompt von der Länge einer einzigen Tweet-Zeile und in 15 Minuten fertig, während ich in der Zeit Kirby Air Riders gespielt habe
Schade fand ich nur, dass ich durch diesen Prozess nichts über den Aufbau von vector search gelernt habe. Am Ende war die Funktion selbst das Ziel, Lernen nur Nebensache
Statt 4 Stunden alles selbst zu bauen, ist es viel effizienter, wenn der Agent es in 15 Minuten erstellt, ich in der Zeit etwas anderes mache und danach etwa 30 Minuten den Code lese, anpasse und Fragen stelle
30 konzentrierte Minuten Lernen können besser sein als 4 Stunden Try-and-Error
Auch die AI verliert irgendwann die Struktur des Codes aus dem Blick, und man wird letztlich zu einem von Opus abhängigen Kunden
Früher hat es Spaß gemacht, mit Musik im Hintergrund Probleme in Scala zu lösen, heute bekommt man Ergebnisse so leicht, dass es eher ein Gefühl von Leere hinterlässt
Wenn ich selbst Handelsmodelle baue, will ich auch lieber, dass das LLM den Code schreibt, statt dass ich Diagramme von Grund auf selbst lerne
Dadurch verschwende ich keine Zeit mit kleinteiliger API-Verarbeitung und kann mich nur auf die Teile konzentrieren, in denen echte Entscheidungen nötig sind
Beim Portieren eines Python-HTML5-Parsers nach JavaScript habe ich Codex CLI auf 9.200 html5lib-Tests angesetzt, und es war beeindruckend zu sehen, wie es über mehr als 4 Stunden in einer Schleife Probleme gelöst hat
Den zugehörigen Beitrag habe ich hier zusammengefasst
Opus 4.5 kann Aufgaben auf diesem Niveau mit 50 % Zuverlässigkeit erledigen, die tatsächliche Laufzeit ist aber viel kürzer
Wenn künftig 8-Stunden- oder 40-Stunden-Schwellen überschritten werden, wird es noch interessanter
Sie zeigt gut, dass Benchmarks zwar schnell geknackt werden, echte Automatisierung in der Praxis aber weiterhin schwierig ist
Wer mit jq, dem PyPI-Ökosystem oder TypeScript-Kommentaren vertraut ist, kann es unter Umständen viel schneller abschließen
Letztlich liegt der Reiz der AI darin, dass man solche Hilfe auf Expertenniveau sofort verfügbar hat
Die meisten Modelle sagen dann so etwas wie „Lass uns zum nächsten Schritt übergehen“ und brechen von selbst ab
Mich würde interessieren, ob jemand dafür schon eine Lösung gefunden hat
Auch der Preisabstand ist kleiner geworden, wodurch der praktische Nutzen gestiegen ist, und Haiku 4.5 ist mit aktiviertem reasoning ebenfalls ziemlich brauchbar
Für kleine Tools oder das Bearbeiten einzelner Seiten ist es besonders gut geeignet
Dank LLMs verschmelzen diese beiden Phasen auf natürliche Weise
Wenn ich zum Beispiel AnimeJS-Animationen baue, lerne ich, indem ich beobachte, wie CCAgent den Code schreibt, und strukturiere und refaktoriere danach selbst
So bekommt man gleichzeitig Zeitersparnis und kreative Kontrolle
Das heißt: Für kurze Aufgaben ist GPT 5.1 besser geeignet, für lange Aufgaben Opus
Einer 4-Stunden-Aufgabe bei 50 % Erfolgsquote die AI zuzuweisen, kommt faktisch einem Glücksspiel nahe, und wenn anschließend noch Debugging nötig ist, ist der Verlust groß
Deshalb halte ich Checkpoints zur menschlichen Prüfung alle 30 Minuten für sinnvoll
Wichtig ist aber auch, ob die AI sich selbst wieder erholen kann, wenn sie zwischendurch feststeckt
Oberflächlich sieht alles sauber aus, aber viele subtile Bugs zeigen sich erst später
Deshalb nutze ich für wichtige Arbeiten noch keine Agenten, auch weil sie einem die Freude an der Arbeit nehmen
Wenn man mit einer Wahrscheinlichkeit von 50 % ein Ergebnis bekommt, könnte das eine zeitlich effiziente Wette sein
Man kann viele Ansätze schnell ausprobieren, und selbst aus Fehlschlägen lernt man etwas
Erst dann sieht man klarer, warum LLMs selbst bei Aufgaben, die für Menschen leicht sind, immer noch so oft scheitern
Das Ergebnis lässt sich numerisch überprüfen, kürzerer Code ist besser, und statt bloßer Kombinationen braucht es systemisches Denken
Bisher war Gemini Pro 3 bei der Optimierung von SIMD-Code am stärksten
Wenn man eine 4-Stunden-Aufgabe mehrfach wiederholt, fällt die Erfolgswahrscheinlichkeit auf 6,25 %
Das hängt von der Art der Aufgabe ab