- Es wurde eine neue Kennzahl vorgeschlagen, die die Leistung anhand der „Länge“ von Aufgaben misst, die ein KI-Modell vollständig ausführen kann
- Analysen zeigen, dass sich die Länge von Aufgaben, die KI in den vergangenen 6 Jahren autonom abschließen kann, etwa alle 7 Monate verdoppelt hat
- Aufgaben, die menschliche Experten in weniger als 4 Minuten beenden, werden fast zu 100 % erfolgreich gelöst, aber bei Aufgaben mit mehr als 4 Stunden Dauer liegt die Erfolgsquote unter 10 %
- Sollte sich dieser Trend fortsetzen, wird prognostiziert, dass KI innerhalb weniger Jahre Projekte im Umfang von mehreren Wochen eigenständig ausführen kann
- Die Studie hat wichtige Implikationen für KI-Benchmarks, die Vorhersage künftiger Fähigkeiten und das Risikomanagement
Forschungsüberblick
- METR stellt eine neue Methode vor, um zu messen, wie lange Aufgaben sind, die KI abschließen kann
- Maßstab ist die Zeit, die menschliche Experten benötigen, um die jeweilige Aufgabe auszuführen
- Die Beziehung zwischen Erfolgswahrscheinlichkeit des Modells und menschlicher Bearbeitungszeit wird mit einer logistischen Kurve modelliert
- Dieser Ansatz wird als nützliche Kennzahl vorgestellt, um die tatsächliche praktische Einsetzbarkeit von KI zu bewerten
- Er ergänzt die Schwächen bestehender Benchmarks, die stark auf die Fähigkeit zur Lösung einzelner Probleme fokussiert sind
Zentrale Ergebnisse
- Aktuelle Leistungsgrenzen der Modelle
- Aufgaben, die Menschen in weniger als 4 Minuten erledigen, werden fast zu 100 % erfolgreich gelöst
- Bei Aufgaben mit mehr als 4 Stunden Dauer liegt die Erfolgsquote unter 10 %
- Beispiel: Claude 3.7 Sonnet erreicht bei Aufgaben von etwa 1 Stunde Länge eine Erfolgsquote von 50 %
- Trend der Leistungsverbesserung
- In den vergangenen 6 Jahren hat sich die mit 50 % Verlässlichkeit bewältigbare Aufgabenlänge etwa alle 7 Monate verdoppelt
- Die Analyse auf logarithmischer Skala bestätigt anhaltendes exponentielles Wachstum
- Falls der Trend anhält, besteht die Möglichkeit, innerhalb von 2 bis 4 Jahren Aufgaben im Wochenmaßstab auszuführen
Methodik und Validierung
- Validierung auf Basis von Datensätzen
- Für verschiedene Aufgabengruppen (Software, Reasoning usw.) wurde die menschliche Bearbeitungszeit erfasst
- Auch im Datensatz SWE-Bench Verified wurde ein ähnlicher exponentieller Anstieg bestätigt
- In diesen Daten wurde eine Verdopplungsgeschwindigkeit von unter 3 Monaten beobachtet
- Sensitivitätsanalyse
- Die Robustheit gegenüber verschiedenen Faktoren wie Modell- und Aufgabenauswahl sowie Rauschen wurde geprüft
- In Simulationen zur Vorhersage des Zeitpunkts, an dem 1-monatige Aufgaben bewältigt werden können, bleibt der Trend auch bei großen Messfehlern bestehen
Interpretation und Grenzen
- Dies erklärt die Diskrepanz zwischen Benchmark-Ergebnissen von KI und ihrer tatsächlichen Nützlichkeit
- In Prüfungsaufgaben usw. übertrifft KI den Menschen, bei realen langfristigen Projekten ist sie jedoch unzureichend
- Die Unsicherheit bei der Extrapolation des Trends wird anerkannt
- Werden nur Daten aus 2024 bis 2025 verwendet, verschiebt sich der Zeitpunkt für die Bewältigung von Aufgaben im Monatsmaßstab um etwa 2,5 Jahre nach vorn
- Es wird erwähnt, dass jüngere Trends die künftige Leistung möglicherweise besser vorhersagen als ältere Daten
Fazit und Bedeutung
- Der Ansatz, KI-Leistung über die „Aufgabenlänge“ zu messen,
- ermöglicht die Quantifizierung von Leistungsverbesserungen über verschiedene Schwierigkeitsgrade und Domänen hinweg
- erlaubt eine Interpretation absoluter Leistung, die direkt mit realen Auswirkungen verknüpft ist
- Wenn das anhaltende exponentielle Wachstum weitergeht,
- dürfte die autonome Durchführung von Projekten im Monatsmaßstab innerhalb von 10 Jahren möglich werden
- dies geht zugleich mit enormem potenziellem Nutzen und Risiken einher
- Die Forschungsdaten und der Analysecode sind auf GitHub veröffentlicht, um Folgeforschung und Replikationsstudien zu fördern
Noch keine Kommentare.