Postmortem zu drei aktuellen Qualitätsproblemen bei Claude

(anthropic.com)

1 Punkte von GN⁺ 2025-09-19 | Noch keine Kommentare. | Auf WhatsApp teilen

Von August bis Anfang September kam es aufgrund von drei Infrastruktur-Bugs zu einer Verschlechterung der Antwortqualität von Claude
Die Hauptursachen waren jeweils ein Routing-Fehler beim Kontextfenster, beschädigte Ausgaben und ein Fehler durch nicht kompilierte approximate top-k-Operationen in XLA:TPU
Die einzelnen Bugs überlappten sich über verschiedene Hardware- und Deployment-Pfade hinweg, was die Diagnose zusätzlich erschwerte
Zu den Gründen für die verzögerte Erkennung und Behebung zählten Lücken im Validierungsprozess und Zugriffsbeschränkungen aufgrund von Datenschutzrichtlinien
Anthropic arbeitet an der Vermeidung ähnlicher Vorfälle durch stärkere Evaluierung und Überwachung sowie die Entwicklung schnellerer Debugging-Tools

Überblick und Hintergrund

Von August bis Anfang September wurde über zeitweise Einbrüche bei der Antwortqualität von Claude berichtet
Zunächst wurde dies im Nutzerfeedback als normale Schwankung angesehen, doch mit den anhaltend zunehmenden Meldungen begann eine Untersuchung
Anthropic stellte klar, dass nicht Nachfrage oder Serverlast, sondern ausschließlich Infrastruktur-Bugs die Ursache waren
Claude wird für Millionen von Nutzern über mehrere Plattformen hinweg bereitgestellt (APIs, Amazon Bedrock, Google Vertex AI usw.) und unterliegt strengen Validierungsstandards, um auf verschiedener Hardware wie AWS Trainium, NVIDIA GPUs und Google TPUs gleichwertige Ergebnisse sicherzustellen
Dieses Postmortem erklärt die Ursachen der Bugs, die Gründe für die verzögerte Diagnose und Behebung sowie Maßnahmen zur Vermeidung ähnlicher Vorfälle in der Zukunft

Wie Claude im großen Maßstab bereitgestellt wird

Der Claude-Dienst wird über mehrere Hardware-Plattformen hinweg (Trainium, GPU, TPU) global ausgerollt
Für jede Plattform gelten strenge Maßstäbe zur Sicherstellung gleichbleibender Qualität
Bei Änderungen an der Infrastruktur ist über alle Plattformen und Konfigurationen hinweg ein präziser Validierungsprozess erforderlich

Zeitlicher Ablauf der wichtigsten Vorfälle

1. August: erster Bug, betraf etwa 0,8 % der Sonnet-4-Anfragen
1. und 26. August: zweiter und dritter Bug wurden jeweils ausgerollt
1. August: Durch eine Änderung beim Load Balancing nahm der problematische Traffic stark zu, sodass mehr Nutzer betroffen waren
Da sich die Symptome der einzelnen Bugs überlagerten, war die Diagnose sehr schwierig

Die drei sich überlappenden Bugs und ihre Behebung

1. Routing-Fehler beim Kontextfenster

Am 5. August wurden einige Sonnet-4-Anfragen fälschlich an Server für das 1M-Token-Kontextfenster geleitet
Nach Änderungen am Load Balancing waren zeitweise bis zu 16 % der Sonnet-4-Anfragen betroffen; auch Amazon Bedrock und Google Vertex AI waren in geringem Maß betroffen
Weil das Routing „sticky“ war, blieben Anfragen nach einer einmaligen Verbindung mit einem falschen Server weiterhin mit demselben Server verbunden
Behebung: Verbesserung der Routing-Logik, Patch am 4. September auf der eigenen Plattform eingespielt, Ausrollung auf Google Cloud bis zum 16. September, für Bedrock läuft die schrittweise Einführung noch

2. Beschädigte Ausgaben (Bug)

Am 25. August wurde auf den TPU-Servern der Claude API eine fehlerhafte Konfiguration ausgerollt, die bei der Token-Generierung Fehler verursachte
Dabei traten Phänomene auf wie das Einmischen fremder Schriftzeichen wie Thai oder Chinesisch in englische Fragen oder klar erkennbare Syntaxfehler im generierten Code
Betroffen waren nur Opus 4.1, Opus 4 und Sonnet 4; Drittanbieter-Plattformen waren nicht betroffen
Behebung: Rollback der Änderung am 2. September; zusätzlich wurden im Deployment-Prozess Tests zur Erkennung anomaler Zeichenausgaben ergänzt

3. Fehler durch nicht kompilierte approximate top-k-Operationen in XLA:TPU

Am 25. August wurde bei der Weiterentwicklung der Token-Auswahl ein latenter Bug im XLA:TPU-Compiler sichtbar
Betroffen waren Claude Haiku 3.5, einige Sonnet-4-Deployments und Opus 3
Drittanbieter-Plattformen waren nicht betroffen
Behebung: Rollback für Haiku 3.5 am 4. September und für Opus 3 am 12. September; Sonnet 4 war nicht direkt reproduzierbar betroffen, wurde aber vorsorglich ebenfalls zurückgesetzt
Parallel dazu arbeitet Anthropic mit dem XLA:TPU-Team an einer Behebung des Compiler-Bugs und stellt auf eine exakte top-k-Methode um

Detaillierte Analyse des XLA-Compiler-Bugs

Claude berechnet bei der Token-Generierung Wahrscheinlichkeiten für Kandidaten und führt daraus Sampling durch
TPUs arbeiten in einer verteilten Umgebung, wodurch die Synchronisation der Token-Wahrscheinlichkeiten komplex wird
Im Dezember 2024 wurde ein Problem entdeckt, bei dem durch gemischte bf16- und 32-Bit-Präzision Fehler entstanden und Token mit der höchsten Wahrscheinlichkeit ausgelassen wurden; dafür wurde eine temporäre Korrektur ausgerollt
Am 26. August wurde bei einer Überarbeitung des Sampling-Codes zur Behebung der Grundursache ein tieferliegender Bug sichtbar, bei dem approximate top-k in bestimmten Fällen vollständig falsche Ergebnisse ausgab
Der frühere temporäre Fix hatte diesen Fehler verdeckt
Außerdem zeigte der Bug in approximate top-k je nach Produktionsumgebung und Batch-Größe unregelmäßige Symptome
Statt approximate top-k wurde inzwischen auf exact top-k umgestellt, dessen Performance-Kosten zuletzt deutlich gesunken sind; außerdem wurden zentrale Operationen durch Standardisierung auf fp32 verbessert

Gründe für die verzögerte Erkennung

Es wurden regelmäßige automatisierte Evaluierungen und gestaffelte Vorab-Rollouts eingesetzt
Die Vorfälle legten jedoch Lücken im Evaluierungsprozess offen. So erkannten bestimmte Tests problematische Zustände nicht zuverlässig, und interne Datenschutzrichtlinien (Ingenieure können nicht auf konkrete Nutzeranfragen zugreifen) erschwerten eine schnelle Analyse
Da die Symptome je nach Plattform und Version unterschiedlich auftraten, war es schwer, eine einheitliche Ursache zu identifizieren
Selbst als Online-Meldungen stark zunahmen, wurde der Zusammenhang mit einer gewöhnlichen Änderung beim Load Balancing nicht sofort erkannt

Künftige Verbesserungen und Gegenmaßnahmen

Entwicklung sensiblerer Evaluierungsmetriken und Ausbau automatisierter Evaluierungen, die beschädigte Zustände klarer von korrekten Implementierungen unterscheiden können
Ausweitung von Evaluierungs- und Monitoring-Systemen auf die gesamte Produktionsumgebung, etwa durch produktionsnahe Tests für Fehler wie Routing-Probleme beim Kontextfenster
Aufbau schnellerer und präziserer Debugging-Tools sowie Infrastruktur und kundenspezifischer Werkzeuge, um Community-Feedback unter Wahrung des Datenschutzes zügig analysieren zu können
Zusätzlich zu internen Evaluierungen wird die kontinuierliche Erfassung von Nutzerfeedback betont: Schwer vorhersagbare Fehler und Bugs werden oft zuerst durch reale Nutzermeldungen sichtbar
Die Nutzung des Befehls "/bug" oder der Funktion „thumbs down“ sowie Hinweise per E-Mail zur Bewertung der Modellqualität werden ausdrücklich empfohlen

Zusätzliche Erläuterungen

XLA:TPU ist ein Compiler, der Code in der Hochsprachen-Optimierungssprache XLA in TPU-Befehle umwandelt
Aufgrund der großen Modellgröße werden Modelle nicht auf einem einzelnen Chip, sondern verteilt über mehrere Chips ausgeführt; Operationen wie Sorting müssen daher in vektorisierter Form implementiert werden
approximate top-k wird zur Leistungssteigerung eingesetzt, kann jedoch schwerwiegende Probleme verursachen, etwa wenn Token mit der höchsten Wahrscheinlichkeit ausgelassen werden
Inzwischen wurde auf exact top-k umgestellt; dabei kann es zu leichten Änderungen bei der Einbeziehung von Tokens nahe dem top-p-Schwellenwert kommen. In manchen Fällen müssen Nutzer ihren top-p-Wert eventuell anpassen

Postmortem zu drei aktuellen Qualitätsproblemen bei Claude

Überblick und Hintergrund

Wie Claude im großen Maßstab bereitgestellt wird

Zeitlicher Ablauf der wichtigsten Vorfälle

Die drei sich überlappenden Bugs und ihre Behebung

1. Routing-Fehler beim Kontextfenster

2. Beschädigte Ausgaben (Bug)

3. Fehler durch nicht kompilierte approximate top-k-Operationen in XLA:TPU

Detaillierte Analyse des XLA-Compiler-Bugs

Gründe für die verzögerte Erkennung

Künftige Verbesserungen und Gegenmaßnahmen

Zusätzliche Erläuterungen

Verwandte Beiträge

Noch keine Kommentare.