- Ein Tracking-System, das die SWE-Aufgabenleistung von Claude Code Opus 4.5 täglich misst, um statistisch signifikante Leistungsabfälle zu erkennen
- Mithilfe einer ausgewählten Teilmenge von SWE-Bench-Pro werden täglich 50 Testinstanzen ausgewertet; die Ergebnisse spiegeln die tatsächliche Modellleistung bei direkter Ausführung in einer CLI-Umgebung wider
- In den letzten 30 Tagen wurde eine durchschnittliche Erfolgsquote von 54 % gemessen; gegenüber dem Referenzwert von 58 % wurde ein statistisch signifikanter Rückgang um 4,1 % festgestellt
- Tägliche und wöchentliche Ergebnisse werden anhand von 95-%-Konfidenzintervallen und Signifikanzschwellen (±14,0 %, ±5,6 %) analysiert, um kurzfristige Schwankungen von langfristigen Trends zu unterscheiden
- Betrieben von einer unabhängigen Drittorganisation; ein Werkzeug zur frühzeitigen Erkennung von Leistungsabfällen durch Änderungen am Modell oder an der Ausführungsumgebung
Überblick
- Ziel dieses Trackers ist es, statistisch signifikante Rückgänge in der SWE-Aufgabenleistung von Claude Code Opus 4.5 zu erkennen
- Die Auswertung erfolgt täglich mit einer kontaminationsresistenten Teilmenge von SWE-Bench-Pro
- Die Ausführung erfolgt direkt in der Claude Code CLI und bildet ohne separates Custom-Harness die reale Nutzerumgebung ab
- Unabhängige Drittorganisation, ohne Partnerschaft mit Frontier-Model-Anbietern
- Wird seit dem Postmortem von Anthropic zu Leistungsabfällen im September 2025 als Ressource betrieben, um ähnliche Fälle künftig frühzeitig zu erkennen
Leistungsübersicht
- Referenz-Erfolgsquote: 58 %
- Erfolgsquote der letzten 30 Tage: 54 % (auf Basis von 655 Auswertungen)
- Erfolgsquote der letzten 7 Tage: 53 % (auf Basis von 250 Auswertungen)
- Erfolgsquote des letzten Tages: 50 % (auf Basis von 50 Auswertungen)
- Der Leistungsabfall über 30 Tage ist bei p < 0.05 statistisch signifikant
- Veränderung über 30 Tage: -4,1 %
- Signifikanzschwelle: ±3,4 %
- Die Veränderungen über 1 Tag (-8,0 %) und 7 Tage (-4,8 %) sind nicht statistisch signifikant
Tägliche und wöchentliche Trends
- Täglicher Trend (Daily Trend)
- Visualisiert die tägliche Erfolgsquote der letzten 30 Tage
- Referenzwert 58 %, Signifikanzbereich ±14,0 %
- 95-%-Konfidenzintervalle können angezeigt werden; je kleiner die Stichprobe, desto breiter das Intervall
- Wöchentlicher Trend (Weekly Trend)
- Zeigt mit einem gleitenden 7-Tage-Durchschnitt einen geglätteten Trend zur Reduzierung täglicher Volatilität
- Referenzwert 58 %, Signifikanzbereich ±5,6 %
- Ebenfalls mit 95-%-Konfidenzintervallen darstellbar
Änderungsübersicht (Change Overview)
- 1-Tages-Veränderung (gegenüber gestern): -8,0 %, nicht statistisch signifikant
- Auf Basis von 50 Auswertungen, erforderlich ist eine Veränderung von ±14,0 % (p < 0.05)
- 7-Tage-Veränderung (gegenüber letzter Woche): -4,8 %, nicht statistisch signifikant
- Auf Basis von 250 Auswertungen, erforderlich ist eine Veränderung von ±5,6 % (p < 0.05)
- 30-Tage-Veränderung (gegenüber letztem Monat): -4,1 %, statistisch signifikant
- Auf Basis von 655 Auswertungen, erforderlich ist eine Veränderung von ±3,4 % (p < 0.05)
Methodik (Methodology)
- Jeder Test wird als Bernoulli-Zufallsvariable modelliert und es werden 95-%-Konfidenzintervalle berechnet
- Durch die Analyse statistischer Unterschiede bei täglichen, wöchentlichen und monatlichen Erfolgsquoten wird festgestellt, ob ein signifikanter Leistungsabfall vorliegt
- Die Auswertung erfolgt mit täglich 50 Testinstanzen, daher besteht kurzfristige Volatilität
- Wöchentliche und monatliche Aggregationen liefern stabilere Schätzwerte
- Leistungsabfälle sowohl durch Modelländerungen als auch durch Änderungen am Ausführungs-Harness können erkannt werden
Benachrichtigungsfunktion
- Bei statistisch erkanntem Leistungsabfall werden E-Mail-Benachrichtigungen versendet
- Nutzer können sich durch Hinterlegen einer E-Mail-Adresse anmelden
- Nach Bestätigung des Abonnements können Benachrichtigungen empfangen werden; bei Fehlern werden Hinweise zum erneuten Versuch gegeben
Noch keine Kommentare.