Opus 4.6 und was es bedeutet, ein Problem zu lösen, das für Menschen 14,5 Stunden dauert (METR Time Horizon)

(metr.org)

5 Punkte von princox 2026-02-21 | Noch keine Kommentare. | Auf WhatsApp teilen

In den USA gibt es eine gemeinnützige Forschungseinrichtung namens METR.
Sie ist eine gemeinnützige Forschungseinrichtung mit Sitz in Berkeley im US-Bundesstaat Kalifornien und bewertet die Fähigkeit von Frontier-AI-Modellen, langfristige und autonome Aufgaben auszuführen.

Einige Forschende warnen, dass solche Fähigkeiten ernste Risiken für die Gesellschaft verursachen könnten, und METR hat genau die Aufgabe, diese Risiken zu messen.

Die Forschung von METR besteht im Wesentlichen aus drei Schwerpunkten.

Erstens: umfassende Bewertungen autonomer Fähigkeiten, die messen, ob AI-Agenten verschiedenartige Aufgaben über mehrere Stunden hinweg selbstständig abschließen können.

Zweitens: die Bewertung der Fähigkeit von AI, AI-Forschung und -Entwicklung selbst zu beschleunigen.

Drittens: die Erforschung von AI-Verhalten, das die Integrität von Evaluierungen bedroht (z. B. Sandbagging, Reward Hacking), sowie entsprechender Gegenmaßnahmen.

Insbesondere die von METR veröffentlichte Studie zum Time Horizon hat gezeigt, dass sich die Länge der Aufgaben, die AI-Agenten abschließen können, in den vergangenen sechs Jahren etwa alle sieben Monate verdoppelt hat. Diese Studie wird als zentrale Grundlage genutzt, um vorherzusagen, wann AI transformative Auswirkungen haben könnte.

Unten steht die maschinell übersetzte Version der Seite, die unter der URL erscheint.

Überblick

Der task-completion time horizon bezeichnet die für AI-Agenten prognostizierte Aufgabendauer (gemessen an der Bearbeitungszeit menschlicher Expertinnen und Experten), die sie bei einem gegebenen Zuverlässigkeitsniveau erfolgreich bewältigen. Ein 50%-Time-Horizon ist zum Beispiel die Aufgabengröße, bei der für den Agenten eine Erfolgswahrscheinlichkeit von 50 % vorhergesagt wird. Die Grafik unten zeigt den 50%- und 80%-Time-Horizon von Frontier-AI-Agenten, berechnet auf Basis ihrer Leistung bei mehr als 100 unterschiedlichen Softwareaufgaben.

Wir aktualisieren die Messwerte des Time Horizon für veröffentlichte Frontier-AI-Modelle regelmäßig. Aufgrund begrenzter Kapazitäten werden manche Modelle erst einige Zeit nach ihrer Veröffentlichung gemessen, oder einzelne Releases werden ganz ausgelassen.

Für eine vollständige Diskussion von Methodik und Ergebnissen siehe das Paper und den Blogpost.

Methodische Details

Um den Time Horizon von Frontier-AI-Agenten zu schätzen, bestimmen wir zunächst, wie lange menschliche Expertinnen und Experten für die jeweilige Aufgabe benötigen. Für jeden Agenten wird dann eine logistische Kurve gefittet, um die Wahrscheinlichkeit eines Aufgabenerfolgs als Funktion der menschlichen Bearbeitungszeit vorherzusagen. Um den 50%-Time-Horizon (oder den 80%-Time-Horizon) zu erhalten, suchen wir die Aufgabendauer, an der die gefittete Kurve die Erfolgswahrscheinlichkeit von 50 % (bzw. 80 %) schneidet.

Aufgabenverteilung: Die Aufgaben stammen aus RE-Bench, HCAST und kurzen Softwareaufgaben. Sie bestehen hauptsächlich aus Software-Engineering-, Machine-Learning- und Cybersecurity-Aufgaben, sind unabhängig und klar definiert und haben eindeutige, automatisch auswertbare Erfolgskriterien.

Schätzung der menschlichen Bearbeitungszeit: Für die meisten Aufgaben beschäftigen wir Menschen, die die Aufgaben bearbeiten, und verwenden das geometrische Mittel der erfolgreichen Bearbeitungszeiten. Diese Personen erhalten dieselben Anweisungen und dieselbe Umgebung wie die AI-Agenten und werden gebeten, die Aufgabe so schnell wie möglich abzuschließen. Unsere Schätzungen der menschlichen Bearbeitungszeit liegen möglicherweise über den Werten echter Expertinnen und Experten, weil diese Personen (und die AI-Agenten) wesentlich weniger Kontext zur Aufgabe haben als Fachleute, die vergleichbare Aufgaben in ihrer täglichen Arbeit erledigen.

Häufig gestellte Fragen (FAQ)

F. Bedeutet „Time Horizon“, wie lange aktuelle AI-Agenten autonom handeln können?

Nein. Der 50%-Time-Horizon bezeichnet die Länge einer Aufgabe (nach menschlichem Expertenmaßstab), die ein AI-Agent mit 50 % Zuverlässigkeit abschließen kann. Er ist kein Maß für die tatsächliche Zeit, die AI zum Abschließen einer Aufgabe braucht, sondern ein Indikator für deren Schwierigkeit.

F. Wie lange braucht ein AI-Agent tatsächlich, um eine 2-Stunden-Aufgabe zu erledigen?

Das hängt vom Modell, der Aufgabe und der Agentenkonfiguration ab, aber AI-Agenten sind im Allgemeinen um ein Mehrfaches schneller als Menschen. AI-Agenten schreiben Code oft in einem Zug ohne iterative Wiederholung und müssen auch weniger recherchieren. Außerdem programmieren viele AI-Agenten deutlich schneller als menschliche Softwareentwicklerinnen und -entwickler.

F. Auf welche Menschen beziehen sich die Schätzungen der Bearbeitungszeit?

Auf qualifizierte Fachleute aus Software Engineering, Machine Learning und Cybersecurity, überwiegend Absolventinnen und Absolventen der weltweiten Top-100-Universitäten. Im Mittel verfügen sie über etwa fünf Jahre einschlägige Berufserfahrung. Unsere 2-Stunden-Aufgabe ist daher eher als etwas zu verstehen, das „eine neue Mitarbeiterin oder ein neuer Mitarbeiter bzw. eine freiberufliche Vertragskraft mit kaum Vorkenntnissen zum Kontext“ in zwei Stunden erledigen kann, und nicht als etwas für „eine erfahrene Fachkraft, die bereits mit dem Projekt vertraut ist“.

F. Bedeutet ein 2-Stunden-Time-Horizon, dass AI alle intellektuellen Aufgaben erledigen kann, die ein Mensch in zwei Stunden schaffen würde?

Nein. Unsere Aufgabenverteilung besteht hauptsächlich aus Software-Engineering-, Machine-Learning- und Cybersecurity-Aufgaben. In Folgestudien wurde untersucht, wie sich der Time Horizon von AI-Systemen über verschiedene Domänen hinweg unterscheidet. Dabei wurden auch in anderen Domänen ähnliche exponentielle Trends gefunden, auch wenn die absoluten Werte des Time Horizon unterschiedlich sind. Die Fähigkeiten von AI sind im Vergleich zum Menschen „jagged“, also ungleichmäßig verteilt, und es ist zu erwarten, dass sich die Time Horizons aller wirtschaftlich wertvollen Aufgaben über mehrere Größenordnungen erstrecken.

📊 Interpretation der Grafiken

Hauptgrafik (Bild 1, 6)

Betrachtet man die Entwicklung von GPT-2 (2019) bis Claude Opus 4.6 (Februar 2026), sieht man, dass der Time Horizon von AI explosionsartig von nahezu 0 Minuten auf etwa 14 Stunden 30 Minuten gewachsen ist. Besonders im Zeitraum 2024–2026 biegt die Kurve steil nach oben ab, sodass die Fähigkeitszuwächse der letzten ein bis zwei Jahre mehrere frühere Jahre deutlich übertreffen.

Multi-Domain-Grafik (Bild 5)

Sie zeigt, dass der Time Horizon bei verschiedenen Benchmarks wie METR-HRS (Software), MATH, GPQA, Mock AIME und SWE-bench überall exponentiell zunimmt. Die absoluten Werte unterscheiden sich je nach Domäne, aber der Aufwärtstrend selbst ist gemeinsam.

🔑 Interpretation von „14 Stunden 30 Minuten“ — die Kernfrage

> „Was bedeutet es, dass Claude Opus 4.6 bei ‚Fix complex bug in ML research codebase‘ 14,5 Stunden erreicht hat?“

Das ist der Punkt, an dem Missverständnisse am leichtesten entstehen. Präzise ausgedrückt bedeutet es:

Missverständnis	Korrekte Interpretation
„Claude Opus 4.6 hat 14,5 Stunden lang gearbeitet“	❌
„Claude Opus 4.6 bewältigt eine Aufgabe mit einer Schwierigkeit von 14,5 Stunden mit 50 % Erfolgswahrscheinlichkeit“	✅

Mit anderen Worten: 14 Stunden 30 Minuten sind nicht die von der AI benötigte Zeit, sondern die nach menschlichem Maßstab gemessene Schwierigkeit der Aufgabe.

Konkret lässt sich das so aufschlüsseln:

METR wählt die Aufgabe „Fix complex bug in ML research codebase“ aus.
Mehrere qualifizierte menschliche Fachleute bearbeiten diese Aufgabe, und im Durchschnitt benötigen sie etwa 14 Stunden 30 Minuten.
Claude Opus 4.6 führt dieselbe Aufgabe wiederholt aus und ist dabei mit einer Wahrscheinlichkeit von 50 % erfolgreich.
Daher gilt: 50%-Time-Horizon von Claude Opus 4.6 = 14 Stunden 30 Minuten.

Die tatsächliche Zeit, die Claude Opus 4.6 zur Bearbeitung dieser Aufgabe braucht, dürfte deutlich kürzer sein als die eines Menschen (laut FAQ ist AI normalerweise um ein Mehrfaches schneller als Menschen).

💡 Zusammenfassung der Implikationen

Die Time-Horizon-Daten von METR belegen objektiv, dass sich die Fähigkeit von AI-Agenten zur autonomen Aufgabenausführung mit exponentieller Geschwindigkeit ausweitet. Dass Claude Opus 4.6 komplexe Software-, ML- und Cybersecurity-Aufgaben, die für qualifizierte menschliche Expertinnen und Experten mehr als 14 Stunden beanspruchen, mit einer Erfolgswahrscheinlichkeit von 50 % bewältigen kann, deutet darauf hin, dass AI einen Schwellenwert erreicht hat, an dem sie über ein bloßes Hilfswerkzeug hinausgeht und einen erheblichen Teil spezialisierter Wissensarbeit real ersetzen oder automatisieren kann. Wenn sich dieser Trend fortsetzt, legt das mit Nachdruck nahe, dass eine grundlegende Neudefinition der Rolle und des Werts menschlicher Arbeit in hochqualifizierten Wissensindustrien wie Softwareentwicklung, Sicherheit und Forschung unvermeidlich wird.

Das im Februar 2026 aktualisierte Opus 4.6 soll also ein Problem, das für menschliche Expertinnen und Experten 14,5 Stunden dauert,
mit einer Wahrscheinlichkeit von 50 % erfolgreich lösen können.

Ich halte das für eine gewaltige Grafik und lade es hoch, weil ich denke, dass künftig nach und nach praktisch alle Arbeit AI-basiert automatisiert und abgewickelt werden wird.