- Ein Tracking-System, das die SWE-Aufgabenleistung von Claude Code Opus 4.5 täglich misst, um statistisch signifikante Leistungsabfälle zu erkennen
- Mithilfe einer ausgewählten Teilmenge von SWE-Bench-Pro werden täglich 50 Testinstanzen ausgewertet; die Ergebnisse spiegeln die tatsächliche Modellleistung bei direkter Ausführung in einer CLI-Umgebung wider
- In den letzten 30 Tagen wurde eine durchschnittliche Erfolgsquote von 54 % gemessen; gegenüber dem Referenzwert von 58 % wurde ein statistisch signifikanter Rückgang um 4,1 % festgestellt
- Tägliche und wöchentliche Ergebnisse werden anhand von 95-%-Konfidenzintervallen und Signifikanzschwellen (±14,0 %, ±5,6 %) analysiert, um kurzfristige Schwankungen von langfristigen Trends zu unterscheiden
- Betrieben von einer unabhängigen Drittorganisation; ein Werkzeug zur frühzeitigen Erkennung von Leistungsabfällen durch Änderungen am Modell oder an der Ausführungsumgebung
Überblick
- Ziel dieses Trackers ist es, statistisch signifikante Rückgänge in der SWE-Aufgabenleistung von Claude Code Opus 4.5 zu erkennen
- Die Auswertung erfolgt täglich mit einer kontaminationsresistenten Teilmenge von SWE-Bench-Pro
- Die Ausführung erfolgt direkt in der Claude Code CLI und bildet ohne separates Custom-Harness die reale Nutzerumgebung ab
- Unabhängige Drittorganisation, ohne Partnerschaft mit Frontier-Model-Anbietern
- Wird seit dem Postmortem von Anthropic zu Leistungsabfällen im September 2025 als Ressource betrieben, um ähnliche Fälle künftig frühzeitig zu erkennen
Leistungsübersicht
- Referenz-Erfolgsquote: 58 %
- Erfolgsquote der letzten 30 Tage: 54 % (auf Basis von 655 Auswertungen)
- Erfolgsquote der letzten 7 Tage: 53 % (auf Basis von 250 Auswertungen)
- Erfolgsquote des letzten Tages: 50 % (auf Basis von 50 Auswertungen)
- Der Leistungsabfall über 30 Tage ist bei p < 0.05 statistisch signifikant
- Veränderung über 30 Tage: -4,1 %
- Signifikanzschwelle: ±3,4 %
- Die Veränderungen über 1 Tag (-8,0 %) und 7 Tage (-4,8 %) sind nicht statistisch signifikant
Tägliche und wöchentliche Trends
- Täglicher Trend (Daily Trend)
- Visualisiert die tägliche Erfolgsquote der letzten 30 Tage
- Referenzwert 58 %, Signifikanzbereich ±14,0 %
- 95-%-Konfidenzintervalle können angezeigt werden; je kleiner die Stichprobe, desto breiter das Intervall
- Wöchentlicher Trend (Weekly Trend)
- Zeigt mit einem gleitenden 7-Tage-Durchschnitt einen geglätteten Trend zur Reduzierung täglicher Volatilität
- Referenzwert 58 %, Signifikanzbereich ±5,6 %
- Ebenfalls mit 95-%-Konfidenzintervallen darstellbar
Änderungsübersicht (Change Overview)
- 1-Tages-Veränderung (gegenüber gestern): -8,0 %, nicht statistisch signifikant
- Auf Basis von 50 Auswertungen, erforderlich ist eine Veränderung von ±14,0 % (p < 0.05)
- 7-Tage-Veränderung (gegenüber letzter Woche): -4,8 %, nicht statistisch signifikant
- Auf Basis von 250 Auswertungen, erforderlich ist eine Veränderung von ±5,6 % (p < 0.05)
- 30-Tage-Veränderung (gegenüber letztem Monat): -4,1 %, statistisch signifikant
- Auf Basis von 655 Auswertungen, erforderlich ist eine Veränderung von ±3,4 % (p < 0.05)
Methodik (Methodology)
- Jeder Test wird als Bernoulli-Zufallsvariable modelliert und es werden 95-%-Konfidenzintervalle berechnet
- Durch die Analyse statistischer Unterschiede bei täglichen, wöchentlichen und monatlichen Erfolgsquoten wird festgestellt, ob ein signifikanter Leistungsabfall vorliegt
- Die Auswertung erfolgt mit täglich 50 Testinstanzen, daher besteht kurzfristige Volatilität
- Wöchentliche und monatliche Aggregationen liefern stabilere Schätzwerte
- Leistungsabfälle sowohl durch Modelländerungen als auch durch Änderungen am Ausführungs-Harness können erkannt werden
Benachrichtigungsfunktion
- Bei statistisch erkanntem Leistungsabfall werden E-Mail-Benachrichtigungen versendet
- Nutzer können sich durch Hinterlegen einer E-Mail-Adresse anmelden
- Nach Bestätigung des Abonnements können Benachrichtigungen empfangen werden; bei Fehlern werden Hinweise zum erneuten Versuch gegeben
2 Kommentare
Nicht, dass Claude Code dümmer geworden ist … vielleicht ist es eher so, dass die Person, die es benutzt, gelernt hat, Claude besser zu nutzen …
Hacker-News-Kommentare
Ich bin Thariq aus dem Claude-Code-Team
Das Harness-Problem, das am 26. Januar auftrat, wurde behoben. Am 28. Januar wurde sofort ein Rollback durchgeführt, daher wird empfohlen, mit dem Befehl
claude updateauf die neueste Version zu aktualisierenIch bin Mitautor von SWE-bench
Aktuell scheinen die Tests nur einmal täglich und nur mit 50 Aufgaben zu laufen. Um die Genauigkeit zu erhöhen, sollte man 300 Aufgaben 5–10 Mal pro Tag testen und dann den Durchschnitt bilden. Zufallsfaktoren wie Serverlast können die Ergebnisse stark beeinflussen
Eine Zusammenfassung, warum ich nicht glaube, dass Anthropic den Nutzern absichtlich ein schlechteres Modell liefert
Die statistische Methodik ist seltsam
Sie betrachten offenbar nur das Konfidenzintervall früherer Werte und prüfen, ob der neue Wert außerhalb davon liegt, aber das ist keine korrekte Methode, um die statistische Signifikanz einer Differenz zu testen. Da beide Messungen Unsicherheit enthalten, muss man das Konfidenzintervall der Differenz selbst berechnen. Wenn man zudem monatliche Vergleiche anstellen will, sollte man Daten von vor 60–31 Tagen mit Daten von vor 30 Tagen bis gestern vergleichen, also müsste der Graph mindestens zwei Monate zeigen
Vor etwa einer Woche war Claude ungefähr eine Stunde lang down. Direkt nach der Wiederherstellung war es wohl wegen der geringeren Nutzerzahl mehr als dreimal so schnell. In dieser einen Stunde habe ich so viel geschafft wie sonst in einem halben Tag. Es fühlte sich an wie ein kurzer Blick in eine Zukunft ohne Ressourcenbeschränkungen
Wenn man in Nutzer-Prompts die Häufigkeit von Schimpfwörtern misst, könnte man bei sinkender Modellleistung einen Anstieg der Feindseligkeit der Nutzer erkennen
Es ist möglich, dass das Modell im Laufe der Zeit schrittweise quantisiert (quantization) wird. Das würde Skalierung und Kostensenkung erleichtern und zugleich den Effekt erzeugen, dass neue Versionen „besser aussehen“
Im API-Modus wird Claude ab einer bestimmten Token-Zahl plötzlich dümmer und verhält sich dann seltsam, etwa indem es behauptet, „in Zeile 23 ist ein Bug“, und anschließend die gesamte Funktion löscht. Es scheitert sogar an einfachen Änderungen, die selbst mit ChatGPT 3.5 möglich wären. Ich kann nicht verstehen, warum das passiert
In der letzten Woche hat sich die Code-Qualität von Claude spürbar verschlechtert. Zum Beispiel empfiehlt es, bei einem Enum
frozenzu verwenden, oder schlägt in einer Funktion, die bereitsurlparsenutzt, erneuturlparsevor. Früher machte es solche grundlegenden Fehler nichtEin großer Frustpunkt bei LLM-Anbietern ist die mangelnde Konsistenz der Inferenzfähigkeit. Auch bei ChatGPT sinkt die Intelligenz bei Eingaben über 45k Tokens abrupt oder Teile der Eingabe werden abgeschnitten. Eine „Ablehnung“-Meldung wäre besser, als heimlich herabgestuft zu werden, denn so geht Vertrauen verloren. Transparenz ist wirklich entscheidend