10 Punkte von GN⁺ 2025-12-23 | 2 Kommentare | Auf WhatsApp teilen
  • Es wurde eine neue Kennzahl vorgeschlagen, die die Leistung anhand der „Länge“ von Aufgaben misst, die ein KI-Modell vollständig ausführen kann
  • Analysen zeigen, dass sich die Länge von Aufgaben, die KI in den vergangenen 6 Jahren autonom abschließen kann, etwa alle 7 Monate verdoppelt hat
  • Aufgaben, die menschliche Experten in weniger als 4 Minuten beenden, werden fast zu 100 % erfolgreich gelöst, aber bei Aufgaben mit mehr als 4 Stunden Dauer liegt die Erfolgsquote unter 10 %
  • Sollte sich dieser Trend fortsetzen, wird prognostiziert, dass KI innerhalb weniger Jahre Projekte im Umfang von mehreren Wochen eigenständig ausführen kann
  • Die Studie hat wichtige Implikationen für KI-Benchmarks, die Vorhersage künftiger Fähigkeiten und das Risikomanagement

Forschungsüberblick

  • METR stellt eine neue Methode vor, um zu messen, wie lange Aufgaben sind, die KI abschließen kann
    • Maßstab ist die Zeit, die menschliche Experten benötigen, um die jeweilige Aufgabe auszuführen
    • Die Beziehung zwischen Erfolgswahrscheinlichkeit des Modells und menschlicher Bearbeitungszeit wird mit einer logistischen Kurve modelliert
  • Dieser Ansatz wird als nützliche Kennzahl vorgestellt, um die tatsächliche praktische Einsetzbarkeit von KI zu bewerten
    • Er ergänzt die Schwächen bestehender Benchmarks, die stark auf die Fähigkeit zur Lösung einzelner Probleme fokussiert sind

Zentrale Ergebnisse

  • Aktuelle Leistungsgrenzen der Modelle
    • Aufgaben, die Menschen in weniger als 4 Minuten erledigen, werden fast zu 100 % erfolgreich gelöst
    • Bei Aufgaben mit mehr als 4 Stunden Dauer liegt die Erfolgsquote unter 10 %
    • Beispiel: Claude 3.7 Sonnet erreicht bei Aufgaben von etwa 1 Stunde Länge eine Erfolgsquote von 50 %
  • Trend der Leistungsverbesserung
    • In den vergangenen 6 Jahren hat sich die mit 50 % Verlässlichkeit bewältigbare Aufgabenlänge etwa alle 7 Monate verdoppelt
    • Die Analyse auf logarithmischer Skala bestätigt anhaltendes exponentielles Wachstum
    • Falls der Trend anhält, besteht die Möglichkeit, innerhalb von 2 bis 4 Jahren Aufgaben im Wochenmaßstab auszuführen
    Anzeige

Methodik und Validierung

  • Validierung auf Basis von Datensätzen
    • Für verschiedene Aufgabengruppen (Software, Reasoning usw.) wurde die menschliche Bearbeitungszeit erfasst
    • Auch im Datensatz SWE-Bench Verified wurde ein ähnlicher exponentieller Anstieg bestätigt
    • In diesen Daten wurde eine Verdopplungsgeschwindigkeit von unter 3 Monaten beobachtet
  • Sensitivitätsanalyse
    • Die Robustheit gegenüber verschiedenen Faktoren wie Modell- und Aufgabenauswahl sowie Rauschen wurde geprüft
    • In Simulationen zur Vorhersage des Zeitpunkts, an dem 1-monatige Aufgaben bewältigt werden können, bleibt der Trend auch bei großen Messfehlern bestehen

Interpretation und Grenzen

  • Dies erklärt die Diskrepanz zwischen Benchmark-Ergebnissen von KI und ihrer tatsächlichen Nützlichkeit
    • In Prüfungsaufgaben usw. übertrifft KI den Menschen, bei realen langfristigen Projekten ist sie jedoch unzureichend
    Anzeige
  • Die Unsicherheit bei der Extrapolation des Trends wird anerkannt
    • Werden nur Daten aus 2024 bis 2025 verwendet, verschiebt sich der Zeitpunkt für die Bewältigung von Aufgaben im Monatsmaßstab um etwa 2,5 Jahre nach vorn
    • Es wird erwähnt, dass jüngere Trends die künftige Leistung möglicherweise besser vorhersagen als ältere Daten

Fazit und Bedeutung

  • Der Ansatz, KI-Leistung über die „Aufgabenlänge“ zu messen,
    • ermöglicht die Quantifizierung von Leistungsverbesserungen über verschiedene Schwierigkeitsgrade und Domänen hinweg
    • erlaubt eine Interpretation absoluter Leistung, die direkt mit realen Auswirkungen verknüpft ist
  • Wenn das anhaltende exponentielle Wachstum weitergeht,
    • dürfte die autonome Durchführung von Projekten im Monatsmaßstab innerhalb von 10 Jahren möglich werden
    • dies geht zugleich mit enormem potenziellem Nutzen und Risiken einher
  • Die Forschungsdaten und der Analysecode sind auf GitHub veröffentlicht, um Folgeforschung und Replikationsstudien zu fördern

2 Kommentare

 
crawler 2025-12-23

Scheint ein sehr guter Benchmark zu sein.
Wenn man sich die aktuellen AI-Coding-Tools ansieht, gibt es oft Fälle, in denen sie im Voraus einen Plan erstellen und dann im Agent-Modus handeln. Mich würde auch interessieren, ob das tatsächlich einen signifikanten Einfluss auf die langfristige Erfolgsquote hat.

 
GN⁺ 2025-12-23
Hacker-News-Kommentare
  • Ich hatte vor Kurzem bei meinem Hobbyprojekt nur darum gebeten, „vector search hinzuzufügen“, und Opus hat manticore eingerichtet, ein Embedding-Modell geholt, ein Tool zur Migration des bestehenden Keyword-Index gebaut und sogar das Frontend aufgesetzt
    Es war ein Prompt von der Länge einer einzigen Tweet-Zeile und in 15 Minuten fertig, während ich in der Zeit Kirby Air Riders gespielt habe
    Schade fand ich nur, dass ich durch diesen Prozess nichts über den Aufbau von vector search gelernt habe. Am Ende war die Funktion selbst das Ziel, Lernen nur Nebensache
    • Ich glaube nicht, dass eine absichtlich langsame Vorgehensweise automatisch die bessere Lernmethode ist
      Statt 4 Stunden alles selbst zu bauen, ist es viel effizienter, wenn der Agent es in 15 Minuten erstellt, ich in der Zeit etwas anderes mache und danach etwa 30 Minuten den Code lese, anpasse und Fragen stelle
      30 konzentrierte Minuten Lernen können besser sein als 4 Stunden Try-and-Error
    • Aber so entsteht am Ende nur ein riesiger, nicht wartbarer Codeklotz
      Auch die AI verliert irgendwann die Struktur des Codes aus dem Blick, und man wird letztlich zu einem von Opus abhängigen Kunden
    • Opus oder Anthropic sind eindeutig absolute Spitzenklasse, aber jedes Mal bei der Nutzung fühlt es sich wie intellektuelles Fast Food an
      Früher hat es Spaß gemacht, mit Musik im Hintergrund Probleme in Scala zu lösen, heute bekommt man Ergebnisse so leicht, dass es eher ein Gefühl von Leere hinterlässt
    • Mit dem Satz „Ich wollte die Funktion, nicht lernen, wie man sie baut“ kann ich mich vollkommen identifizieren
      Wenn ich selbst Handelsmodelle baue, will ich auch lieber, dass das LLM den Code schreibt, statt dass ich Diagramme von Grund auf selbst lerne
      Dadurch verschwende ich keine Zeit mit kleinteiliger API-Verarbeitung und kann mich nur auf die Teile konzentrieren, in denen echte Entscheidungen nötig sind
    • Könntest du diesen vector-search-Code vielleicht teilen?
  • Das Konzept von „long task“ habe ich erst richtig verstanden, nachdem ich es selbst erlebt hatte
    Beim Portieren eines Python-HTML5-Parsers nach JavaScript habe ich Codex CLI auf 9.200 html5lib-Tests angesetzt, und es war beeindruckend zu sehen, wie es über mehr als 4 Stunden in einer Schleife Probleme gelöst hat
    Den zugehörigen Beitrag habe ich hier zusammengefasst
    • METRs „4-Stunden-Aufgabe“ bedeutet nicht, dass die AI tatsächlich 4 Stunden braucht, sondern eine Schwierigkeit, für die ein Mensch 4 Stunden benötigen würde
      Opus 4.5 kann Aufgaben auf diesem Niveau mit 50 % Zuverlässigkeit erledigen, die tatsächliche Laufzeit ist aber viel kürzer
      Wenn künftig 8-Stunden- oder 40-Stunden-Schwellen überschritten werden, wird es noch interessanter
    • Diese Kennzahl misst nicht die tatsächliche Geschwindigkeit der AI, sondern den Schwierigkeitsgrad nach menschlichem Maßstab
      Sie zeigt gut, dass Benchmarks zwar schnell geknackt werden, echte Automatisierung in der Praxis aber weiterhin schwierig ist
    • Bei METRs „human hours equivalent“ ist wichtig, welchen Menschen man als Maßstab nimmt
      Wer mit jq, dem PyPI-Ökosystem oder TypeScript-Kommentaren vertraut ist, kann es unter Umständen viel schneller abschließen
      Letztlich liegt der Reiz der AI darin, dass man solche Hilfe auf Expertenniveau sofort verfügbar hat
    • Wenn man allerdings mit Codex oder Claude Code lange Tasks laufen lässt, kommen Berechtigungsanfragen viel zu häufig, und oft stoppt es zwischendurch
      Die meisten Modelle sagen dann so etwas wie „Lass uns zum nächsten Schritt übergehen“ und brechen von selbst ab
    • GPT5.2 verlangt besonders übermäßig oft nach Nutzereingaben, sodass man es kaum länger als 2 Minuten am Stück arbeiten lassen kann
      Mich würde interessieren, ob jemand dafür schon eine Lösung gefunden hat
  • Bei der Bewertung von Modellen bin ich vorsichtig, aber den Unterschied zwischen Opus 4.5 und Sonnet 4.5 habe ich definitiv gespürt
    Auch der Preisabstand ist kleiner geworden, wodurch der praktische Nutzen gestiegen ist, und Haiku 4.5 ist mit aktiviertem reasoning ebenfalls ziemlich brauchbar
    Für kleine Tools oder das Bearbeiten einzelner Seiten ist es besonders gut geeignet
  • Ich denke, Softwarelernen besteht aus zwei Phasen: exploration und exploitation
    Dank LLMs verschmelzen diese beiden Phasen auf natürliche Weise
    Wenn ich zum Beispiel AnimeJS-Animationen baue, lerne ich, indem ich beobachte, wie CCAgent den Code schreibt, und strukturiere und refaktoriere danach selbst
    So bekommt man gleichzeitig Zeitersparnis und kreative Kontrolle
  • Opus wirkt im Vergleich zu GPT 5.1 wie ein größerer Sprung, aber beim 80-%-Zuverlässigkeitsmaßstab liegt GPT 5.1 immer noch vorn
    Das heißt: Für kurze Aufgaben ist GPT 5.1 besser geeignet, für lange Aufgaben Opus
    • Bei einer Erfolgsquote von 50 % ist die Verschwendung teurer Tokens groß, aber ich erwarte, dass Open-Source-Modelle dieses Niveau bis nächstes Jahr ebenfalls erreichen
  • Der Kern von METR ist, Komplexität anhand von „menschlich äquivalenter Zeit“ zu messen
    Einer 4-Stunden-Aufgabe bei 50 % Erfolgsquote die AI zuzuweisen, kommt faktisch einem Glücksspiel nahe, und wenn anschließend noch Debugging nötig ist, ist der Verlust groß
    Deshalb halte ich Checkpoints zur menschlichen Prüfung alle 30 Minuten für sinnvoll
    Wichtig ist aber auch, ob die AI sich selbst wieder erholen kann, wenn sie zwischendurch feststeckt
    • Allerdings produziert die AI in 30 Minuten so viel Output, dass die Prüfung zum Albtraum wird
      Oberflächlich sieht alles sauber aus, aber viele subtile Bugs zeigen sich erst später
      Deshalb nutze ich für wichtige Arbeiten noch keine Agenten, auch weil sie einem die Freude an der Arbeit nehmen
    • Selbst wenn man 4 Stunden „verliert“, ist es kein echter Verlust, wenn man in der Zeit andere Dinge erledigt hat
      Wenn man mit einer Wahrscheinlichkeit von 50 % ein Ergebnis bekommt, könnte das eine zeitlich effiziente Wette sein
    • Selbst bei einem Fehlschlag verliert man real nur die paar Minuten, in denen die AI gearbeitet hat, daher ist es für die Exploration von Prototypen hervorragend geeignet
      Man kann viele Ansätze schnell ausprobieren, und selbst aus Fehlschlägen lernt man etwas
  • Wir brauchen auch Grafiken für 95 % oder 99 % Zuverlässigkeit
    Erst dann sieht man klarer, warum LLMs selbst bei Aufgaben, die für Menschen leicht sind, immer noch so oft scheitern
  • Ich halte Performance-Optimierung für einen guten Benchmark zur Messung realer Intelligenz von AI
    Das Ergebnis lässt sich numerisch überprüfen, kürzerer Code ist besser, und statt bloßer Kombinationen braucht es systemisches Denken
    Bisher war Gemini Pro 3 bei der Optimierung von SIMD-Code am stärksten
  • Das Problem bei 50 % Erfolgsquote ist, dass die Wahrscheinlichkeit bei Wiederholungen rapide sinkt
    Wenn man eine 4-Stunden-Aufgabe mehrfach wiederholt, fällt die Erfolgswahrscheinlichkeit auf 6,25 %
    • Andererseits ist es vielleicht nicht einfach nur „Pech“, sondern bei einer einmal gescheiterten Aufgabe kann die Erfolgswahrscheinlichkeit im nächsten Versuch anders sein
      Das hängt von der Art der Aufgabe ab