10 Punkte von GN⁺ 2025-12-23 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Es wurde eine neue Kennzahl vorgeschlagen, die die Leistung anhand der „Länge“ von Aufgaben misst, die ein KI-Modell vollständig ausführen kann
  • Analysen zeigen, dass sich die Länge von Aufgaben, die KI in den vergangenen 6 Jahren autonom abschließen kann, etwa alle 7 Monate verdoppelt hat
  • Aufgaben, die menschliche Experten in weniger als 4 Minuten beenden, werden fast zu 100 % erfolgreich gelöst, aber bei Aufgaben mit mehr als 4 Stunden Dauer liegt die Erfolgsquote unter 10 %
  • Sollte sich dieser Trend fortsetzen, wird prognostiziert, dass KI innerhalb weniger Jahre Projekte im Umfang von mehreren Wochen eigenständig ausführen kann
  • Die Studie hat wichtige Implikationen für KI-Benchmarks, die Vorhersage künftiger Fähigkeiten und das Risikomanagement

Forschungsüberblick

  • METR stellt eine neue Methode vor, um zu messen, wie lange Aufgaben sind, die KI abschließen kann
    • Maßstab ist die Zeit, die menschliche Experten benötigen, um die jeweilige Aufgabe auszuführen
    • Die Beziehung zwischen Erfolgswahrscheinlichkeit des Modells und menschlicher Bearbeitungszeit wird mit einer logistischen Kurve modelliert
  • Dieser Ansatz wird als nützliche Kennzahl vorgestellt, um die tatsächliche praktische Einsetzbarkeit von KI zu bewerten
    • Er ergänzt die Schwächen bestehender Benchmarks, die stark auf die Fähigkeit zur Lösung einzelner Probleme fokussiert sind

Zentrale Ergebnisse

  • Aktuelle Leistungsgrenzen der Modelle
    • Aufgaben, die Menschen in weniger als 4 Minuten erledigen, werden fast zu 100 % erfolgreich gelöst
    • Bei Aufgaben mit mehr als 4 Stunden Dauer liegt die Erfolgsquote unter 10 %
    • Beispiel: Claude 3.7 Sonnet erreicht bei Aufgaben von etwa 1 Stunde Länge eine Erfolgsquote von 50 %
  • Trend der Leistungsverbesserung
    • In den vergangenen 6 Jahren hat sich die mit 50 % Verlässlichkeit bewältigbare Aufgabenlänge etwa alle 7 Monate verdoppelt
    • Die Analyse auf logarithmischer Skala bestätigt anhaltendes exponentielles Wachstum
    • Falls der Trend anhält, besteht die Möglichkeit, innerhalb von 2 bis 4 Jahren Aufgaben im Wochenmaßstab auszuführen

Methodik und Validierung

  • Validierung auf Basis von Datensätzen
    • Für verschiedene Aufgabengruppen (Software, Reasoning usw.) wurde die menschliche Bearbeitungszeit erfasst
    • Auch im Datensatz SWE-Bench Verified wurde ein ähnlicher exponentieller Anstieg bestätigt
    • In diesen Daten wurde eine Verdopplungsgeschwindigkeit von unter 3 Monaten beobachtet
  • Sensitivitätsanalyse
    • Die Robustheit gegenüber verschiedenen Faktoren wie Modell- und Aufgabenauswahl sowie Rauschen wurde geprüft
    • In Simulationen zur Vorhersage des Zeitpunkts, an dem 1-monatige Aufgaben bewältigt werden können, bleibt der Trend auch bei großen Messfehlern bestehen

Interpretation und Grenzen

  • Dies erklärt die Diskrepanz zwischen Benchmark-Ergebnissen von KI und ihrer tatsächlichen Nützlichkeit
    • In Prüfungsaufgaben usw. übertrifft KI den Menschen, bei realen langfristigen Projekten ist sie jedoch unzureichend
  • Die Unsicherheit bei der Extrapolation des Trends wird anerkannt
    • Werden nur Daten aus 2024 bis 2025 verwendet, verschiebt sich der Zeitpunkt für die Bewältigung von Aufgaben im Monatsmaßstab um etwa 2,5 Jahre nach vorn
    • Es wird erwähnt, dass jüngere Trends die künftige Leistung möglicherweise besser vorhersagen als ältere Daten

Fazit und Bedeutung

  • Der Ansatz, KI-Leistung über die „Aufgabenlänge“ zu messen,
    • ermöglicht die Quantifizierung von Leistungsverbesserungen über verschiedene Schwierigkeitsgrade und Domänen hinweg
    • erlaubt eine Interpretation absoluter Leistung, die direkt mit realen Auswirkungen verknüpft ist
  • Wenn das anhaltende exponentielle Wachstum weitergeht,
    • dürfte die autonome Durchführung von Projekten im Monatsmaßstab innerhalb von 10 Jahren möglich werden
    • dies geht zugleich mit enormem potenziellem Nutzen und Risiken einher
  • Die Forschungsdaten und der Analysecode sind auf GitHub veröffentlicht, um Folgeforschung und Replikationsstudien zu fördern

Noch keine Kommentare.

Noch keine Kommentare.