9 Punkte von GN⁺ 2026-01-30 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein Tracking-System, das die SWE-Aufgabenleistung von Claude Code Opus 4.5 täglich misst, um statistisch signifikante Leistungsabfälle zu erkennen
  • Mithilfe einer ausgewählten Teilmenge von SWE-Bench-Pro werden täglich 50 Testinstanzen ausgewertet; die Ergebnisse spiegeln die tatsächliche Modellleistung bei direkter Ausführung in einer CLI-Umgebung wider
  • In den letzten 30 Tagen wurde eine durchschnittliche Erfolgsquote von 54 % gemessen; gegenüber dem Referenzwert von 58 % wurde ein statistisch signifikanter Rückgang um 4,1 % festgestellt
  • Tägliche und wöchentliche Ergebnisse werden anhand von 95-%-Konfidenzintervallen und Signifikanzschwellen (±14,0 %, ±5,6 %) analysiert, um kurzfristige Schwankungen von langfristigen Trends zu unterscheiden
  • Betrieben von einer unabhängigen Drittorganisation; ein Werkzeug zur frühzeitigen Erkennung von Leistungsabfällen durch Änderungen am Modell oder an der Ausführungsumgebung

Überblick

  • Ziel dieses Trackers ist es, statistisch signifikante Rückgänge in der SWE-Aufgabenleistung von Claude Code Opus 4.5 zu erkennen
    • Die Auswertung erfolgt täglich mit einer kontaminationsresistenten Teilmenge von SWE-Bench-Pro
    • Die Ausführung erfolgt direkt in der Claude Code CLI und bildet ohne separates Custom-Harness die reale Nutzerumgebung ab
  • Unabhängige Drittorganisation, ohne Partnerschaft mit Frontier-Model-Anbietern
  • Wird seit dem Postmortem von Anthropic zu Leistungsabfällen im September 2025 als Ressource betrieben, um ähnliche Fälle künftig frühzeitig zu erkennen

Leistungsübersicht

  • Referenz-Erfolgsquote: 58 %
  • Erfolgsquote der letzten 30 Tage: 54 % (auf Basis von 655 Auswertungen)
  • Erfolgsquote der letzten 7 Tage: 53 % (auf Basis von 250 Auswertungen)
  • Erfolgsquote des letzten Tages: 50 % (auf Basis von 50 Auswertungen)
  • Der Leistungsabfall über 30 Tage ist bei p < 0.05 statistisch signifikant
    • Veränderung über 30 Tage: -4,1 %
    • Signifikanzschwelle: ±3,4 %
  • Die Veränderungen über 1 Tag (-8,0 %) und 7 Tage (-4,8 %) sind nicht statistisch signifikant

Tägliche und wöchentliche Trends

  • Täglicher Trend (Daily Trend)
    • Visualisiert die tägliche Erfolgsquote der letzten 30 Tage
    • Referenzwert 58 %, Signifikanzbereich ±14,0 %
    • 95-%-Konfidenzintervalle können angezeigt werden; je kleiner die Stichprobe, desto breiter das Intervall
  • Wöchentlicher Trend (Weekly Trend)
    • Zeigt mit einem gleitenden 7-Tage-Durchschnitt einen geglätteten Trend zur Reduzierung täglicher Volatilität
    • Referenzwert 58 %, Signifikanzbereich ±5,6 %
    • Ebenfalls mit 95-%-Konfidenzintervallen darstellbar

Änderungsübersicht (Change Overview)

  • 1-Tages-Veränderung (gegenüber gestern): -8,0 %, nicht statistisch signifikant
    • Auf Basis von 50 Auswertungen, erforderlich ist eine Veränderung von ±14,0 % (p < 0.05)
  • 7-Tage-Veränderung (gegenüber letzter Woche): -4,8 %, nicht statistisch signifikant
    • Auf Basis von 250 Auswertungen, erforderlich ist eine Veränderung von ±5,6 % (p < 0.05)
  • 30-Tage-Veränderung (gegenüber letztem Monat): -4,1 %, statistisch signifikant
    • Auf Basis von 655 Auswertungen, erforderlich ist eine Veränderung von ±3,4 % (p < 0.05)

Methodik (Methodology)

  • Jeder Test wird als Bernoulli-Zufallsvariable modelliert und es werden 95-%-Konfidenzintervalle berechnet
  • Durch die Analyse statistischer Unterschiede bei täglichen, wöchentlichen und monatlichen Erfolgsquoten wird festgestellt, ob ein signifikanter Leistungsabfall vorliegt
  • Die Auswertung erfolgt mit täglich 50 Testinstanzen, daher besteht kurzfristige Volatilität
  • Wöchentliche und monatliche Aggregationen liefern stabilere Schätzwerte
  • Leistungsabfälle sowohl durch Modelländerungen als auch durch Änderungen am Ausführungs-Harness können erkannt werden

Benachrichtigungsfunktion

  • Bei statistisch erkanntem Leistungsabfall werden E-Mail-Benachrichtigungen versendet
  • Nutzer können sich durch Hinterlegen einer E-Mail-Adresse anmelden
  • Nach Bestätigung des Abonnements können Benachrichtigungen empfangen werden; bei Fehlern werden Hinweise zum erneuten Versuch gegeben

Noch keine Kommentare.

Noch keine Kommentare.