Messung der Fähigkeit von KI, langfristige Aufgaben auszuführen

(metr.org)

10 Punkte von GN⁺ 2025-12-23 | 2 Kommentare | Auf WhatsApp teilen

Es wurde eine neue Kennzahl vorgeschlagen, die die Leistung anhand der „Länge“ von Aufgaben misst, die ein KI-Modell vollständig ausführen kann
Analysen zeigen, dass sich die Länge von Aufgaben, die KI in den vergangenen 6 Jahren autonom abschließen kann, etwa alle 7 Monate verdoppelt hat
Aufgaben, die menschliche Experten in weniger als 4 Minuten beenden, werden fast zu 100 % erfolgreich gelöst, aber bei Aufgaben mit mehr als 4 Stunden Dauer liegt die Erfolgsquote unter 10 %
Sollte sich dieser Trend fortsetzen, wird prognostiziert, dass KI innerhalb weniger Jahre Projekte im Umfang von mehreren Wochen eigenständig ausführen kann
Die Studie hat wichtige Implikationen für KI-Benchmarks, die Vorhersage künftiger Fähigkeiten und das Risikomanagement

Forschungsüberblick

METR stellt eine neue Methode vor, um zu messen, wie lange Aufgaben sind, die KI abschließen kann
- Maßstab ist die Zeit, die menschliche Experten benötigen, um die jeweilige Aufgabe auszuführen
- Die Beziehung zwischen Erfolgswahrscheinlichkeit des Modells und menschlicher Bearbeitungszeit wird mit einer logistischen Kurve modelliert
Dieser Ansatz wird als nützliche Kennzahl vorgestellt, um die tatsächliche praktische Einsetzbarkeit von KI zu bewerten
- Er ergänzt die Schwächen bestehender Benchmarks, die stark auf die Fähigkeit zur Lösung einzelner Probleme fokussiert sind

Zentrale Ergebnisse

Aktuelle Leistungsgrenzen der Modelle
- Aufgaben, die Menschen in weniger als 4 Minuten erledigen, werden fast zu 100 % erfolgreich gelöst
- Bei Aufgaben mit mehr als 4 Stunden Dauer liegt die Erfolgsquote unter 10 %
- Beispiel: Claude 3.7 Sonnet erreicht bei Aufgaben von etwa 1 Stunde Länge eine Erfolgsquote von 50 %
Trend der Leistungsverbesserung
- In den vergangenen 6 Jahren hat sich die mit 50 % Verlässlichkeit bewältigbare Aufgabenlänge etwa alle 7 Monate verdoppelt
- Die Analyse auf logarithmischer Skala bestätigt anhaltendes exponentielles Wachstum
- Falls der Trend anhält, besteht die Möglichkeit, innerhalb von 2 bis 4 Jahren Aufgaben im Wochenmaßstab auszuführen

Methodik und Validierung

Validierung auf Basis von Datensätzen
- Für verschiedene Aufgabengruppen (Software, Reasoning usw.) wurde die menschliche Bearbeitungszeit erfasst
- Auch im Datensatz SWE-Bench Verified wurde ein ähnlicher exponentieller Anstieg bestätigt
- In diesen Daten wurde eine Verdopplungsgeschwindigkeit von unter 3 Monaten beobachtet
Sensitivitätsanalyse
- Die Robustheit gegenüber verschiedenen Faktoren wie Modell- und Aufgabenauswahl sowie Rauschen wurde geprüft
- In Simulationen zur Vorhersage des Zeitpunkts, an dem 1-monatige Aufgaben bewältigt werden können, bleibt der Trend auch bei großen Messfehlern bestehen

Interpretation und Grenzen

Dies erklärt die Diskrepanz zwischen Benchmark-Ergebnissen von KI und ihrer tatsächlichen Nützlichkeit
- In Prüfungsaufgaben usw. übertrifft KI den Menschen, bei realen langfristigen Projekten ist sie jedoch unzureichend
Die Unsicherheit bei der Extrapolation des Trends wird anerkannt
- Werden nur Daten aus 2024 bis 2025 verwendet, verschiebt sich der Zeitpunkt für die Bewältigung von Aufgaben im Monatsmaßstab um etwa 2,5 Jahre nach vorn
- Es wird erwähnt, dass jüngere Trends die künftige Leistung möglicherweise besser vorhersagen als ältere Daten

Fazit und Bedeutung

Der Ansatz, KI-Leistung über die „Aufgabenlänge“ zu messen,
- ermöglicht die Quantifizierung von Leistungsverbesserungen über verschiedene Schwierigkeitsgrade und Domänen hinweg
- erlaubt eine Interpretation absoluter Leistung, die direkt mit realen Auswirkungen verknüpft ist
Wenn das anhaltende exponentielle Wachstum weitergeht,
- dürfte die autonome Durchführung von Projekten im Monatsmaßstab innerhalb von 10 Jahren möglich werden
- dies geht zugleich mit enormem potenziellem Nutzen und Risiken einher
Die Forschungsdaten und der Analysecode sind auf GitHub veröffentlicht, um Folgeforschung und Replikationsstudien zu fördern
- Zugehörige Infrastruktur: vivaria, eval-analysis-public

2 Kommentare

crawler 2025-12-23

Scheint ein sehr guter Benchmark zu sein.
Wenn man sich die aktuellen AI-Coding-Tools ansieht, gibt es oft Fälle, in denen sie im Voraus einen Plan erstellen und dann im Agent-Modus handeln. Mich würde auch interessieren, ob das tatsächlich einen signifikanten Einfluss auf die langfristige Erfolgsquote hat.

GN⁺ 2025-12-23

Hacker-News-Kommentare

Ich hatte vor Kurzem bei meinem Hobbyprojekt nur darum gebeten, „vector search hinzuzufügen“, und Opus hat manticore eingerichtet, ein Embedding-Modell geholt, ein Tool zur Migration des bestehenden Keyword-Index gebaut und sogar das Frontend aufgesetzt
Es war ein Prompt von der Länge einer einzigen Tweet-Zeile und in 15 Minuten fertig, während ich in der Zeit Kirby Air Riders gespielt habe
Schade fand ich nur, dass ich durch diesen Prozess nichts über den Aufbau von vector search gelernt habe. Am Ende war die Funktion selbst das Ziel, Lernen nur Nebensache
- Ich glaube nicht, dass eine absichtlich langsame Vorgehensweise automatisch die bessere Lernmethode ist
  Statt 4 Stunden alles selbst zu bauen, ist es viel effizienter, wenn der Agent es in 15 Minuten erstellt, ich in der Zeit etwas anderes mache und danach etwa 30 Minuten den Code lese, anpasse und Fragen stelle
  30 konzentrierte Minuten Lernen können besser sein als 4 Stunden Try-and-Error
- Aber so entsteht am Ende nur ein riesiger, nicht wartbarer Codeklotz
  Auch die AI verliert irgendwann die Struktur des Codes aus dem Blick, und man wird letztlich zu einem von Opus abhängigen Kunden
- Opus oder Anthropic sind eindeutig absolute Spitzenklasse, aber jedes Mal bei der Nutzung fühlt es sich wie intellektuelles Fast Food an
  Früher hat es Spaß gemacht, mit Musik im Hintergrund Probleme in Scala zu lösen, heute bekommt man Ergebnisse so leicht, dass es eher ein Gefühl von Leere hinterlässt
- Mit dem Satz „Ich wollte die Funktion, nicht lernen, wie man sie baut“ kann ich mich vollkommen identifizieren
  Wenn ich selbst Handelsmodelle baue, will ich auch lieber, dass das LLM den Code schreibt, statt dass ich Diagramme von Grund auf selbst lerne
  Dadurch verschwende ich keine Zeit mit kleinteiliger API-Verarbeitung und kann mich nur auf die Teile konzentrieren, in denen echte Entscheidungen nötig sind
- Könntest du diesen vector-search-Code vielleicht teilen?
Das Konzept von „long task“ habe ich erst richtig verstanden, nachdem ich es selbst erlebt hatte
Beim Portieren eines Python-HTML5-Parsers nach JavaScript habe ich Codex CLI auf 9.200 html5lib-Tests angesetzt, und es war beeindruckend zu sehen, wie es über mehr als 4 Stunden in einer Schleife Probleme gelöst hat
Den zugehörigen Beitrag habe ich hier zusammengefasst
- METRs „4-Stunden-Aufgabe“ bedeutet nicht, dass die AI tatsächlich 4 Stunden braucht, sondern eine Schwierigkeit, für die ein Mensch 4 Stunden benötigen würde
  Opus 4.5 kann Aufgaben auf diesem Niveau mit 50 % Zuverlässigkeit erledigen, die tatsächliche Laufzeit ist aber viel kürzer
  Wenn künftig 8-Stunden- oder 40-Stunden-Schwellen überschritten werden, wird es noch interessanter
- Diese Kennzahl misst nicht die tatsächliche Geschwindigkeit der AI, sondern den Schwierigkeitsgrad nach menschlichem Maßstab
  Sie zeigt gut, dass Benchmarks zwar schnell geknackt werden, echte Automatisierung in der Praxis aber weiterhin schwierig ist
- Bei METRs „human hours equivalent“ ist wichtig, welchen Menschen man als Maßstab nimmt
  Wer mit jq, dem PyPI-Ökosystem oder TypeScript-Kommentaren vertraut ist, kann es unter Umständen viel schneller abschließen
  Letztlich liegt der Reiz der AI darin, dass man solche Hilfe auf Expertenniveau sofort verfügbar hat
- Wenn man allerdings mit Codex oder Claude Code lange Tasks laufen lässt, kommen Berechtigungsanfragen viel zu häufig, und oft stoppt es zwischendurch
  Die meisten Modelle sagen dann so etwas wie „Lass uns zum nächsten Schritt übergehen“ und brechen von selbst ab
- GPT5.2 verlangt besonders übermäßig oft nach Nutzereingaben, sodass man es kaum länger als 2 Minuten am Stück arbeiten lassen kann
  Mich würde interessieren, ob jemand dafür schon eine Lösung gefunden hat
Bei der Bewertung von Modellen bin ich vorsichtig, aber den Unterschied zwischen Opus 4.5 und Sonnet 4.5 habe ich definitiv gespürt
Auch der Preisabstand ist kleiner geworden, wodurch der praktische Nutzen gestiegen ist, und Haiku 4.5 ist mit aktiviertem reasoning ebenfalls ziemlich brauchbar
Für kleine Tools oder das Bearbeiten einzelner Seiten ist es besonders gut geeignet
Ich denke, Softwarelernen besteht aus zwei Phasen: exploration und exploitation
Dank LLMs verschmelzen diese beiden Phasen auf natürliche Weise
Wenn ich zum Beispiel AnimeJS-Animationen baue, lerne ich, indem ich beobachte, wie CCAgent den Code schreibt, und strukturiere und refaktoriere danach selbst
So bekommt man gleichzeitig Zeitersparnis und kreative Kontrolle
Opus wirkt im Vergleich zu GPT 5.1 wie ein größerer Sprung, aber beim 80-%-Zuverlässigkeitsmaßstab liegt GPT 5.1 immer noch vorn
Das heißt: Für kurze Aufgaben ist GPT 5.1 besser geeignet, für lange Aufgaben Opus
- Bei einer Erfolgsquote von 50 % ist die Verschwendung teurer Tokens groß, aber ich erwarte, dass Open-Source-Modelle dieses Niveau bis nächstes Jahr ebenfalls erreichen
Der Kern von METR ist, Komplexität anhand von „menschlich äquivalenter Zeit“ zu messen
Einer 4-Stunden-Aufgabe bei 50 % Erfolgsquote die AI zuzuweisen, kommt faktisch einem Glücksspiel nahe, und wenn anschließend noch Debugging nötig ist, ist der Verlust groß
Deshalb halte ich Checkpoints zur menschlichen Prüfung alle 30 Minuten für sinnvoll
Wichtig ist aber auch, ob die AI sich selbst wieder erholen kann, wenn sie zwischendurch feststeckt
- Allerdings produziert die AI in 30 Minuten so viel Output, dass die Prüfung zum Albtraum wird
  Oberflächlich sieht alles sauber aus, aber viele subtile Bugs zeigen sich erst später
  Deshalb nutze ich für wichtige Arbeiten noch keine Agenten, auch weil sie einem die Freude an der Arbeit nehmen
- Selbst wenn man 4 Stunden „verliert“, ist es kein echter Verlust, wenn man in der Zeit andere Dinge erledigt hat
  Wenn man mit einer Wahrscheinlichkeit von 50 % ein Ergebnis bekommt, könnte das eine zeitlich effiziente Wette sein
- Selbst bei einem Fehlschlag verliert man real nur die paar Minuten, in denen die AI gearbeitet hat, daher ist es für die Exploration von Prototypen hervorragend geeignet
  Man kann viele Ansätze schnell ausprobieren, und selbst aus Fehlschlägen lernt man etwas
Wir brauchen auch Grafiken für 95 % oder 99 % Zuverlässigkeit
Erst dann sieht man klarer, warum LLMs selbst bei Aufgaben, die für Menschen leicht sind, immer noch so oft scheitern
Ich halte Performance-Optimierung für einen guten Benchmark zur Messung realer Intelligenz von AI
Das Ergebnis lässt sich numerisch überprüfen, kürzerer Code ist besser, und statt bloßer Kombinationen braucht es systemisches Denken
Bisher war Gemini Pro 3 bei der Optimierung von SIMD-Code am stärksten
Das Problem bei 50 % Erfolgsquote ist, dass die Wahrscheinlichkeit bei Wiederholungen rapide sinkt
Wenn man eine 4-Stunden-Aufgabe mehrfach wiederholt, fällt die Erfolgswahrscheinlichkeit auf 6,25 %
- Andererseits ist es vielleicht nicht einfach nur „Pech“, sondern bei einer einmal gescheiterten Aufgabe kann die Erfolgswahrscheinlichkeit im nächsten Versuch anders sein
  Das hängt von der Art der Aufgabe ab