10 Punkte von princox 28 일 전 | 5 Kommentare | Auf WhatsApp teilen

Claude-Code-Ausfall, Boris Chernys Rückblick im Nachgang: „Nicht der Fehler einer einzelnen Person, sondern ein Prozessproblem“

Boris Cherny (@bcherny), der Schöpfer von Claude Code, hinterließ einen kurzen, aber eindrucksvollen Kommentar zum Ausfall des Claude-Dienstes vom 31. März.
„Fehler passieren. Wichtig ist als Team zu erkennen, dass so etwas nicht die Schuld einer bestimmten Person ist — es ist ein Problem des Prozesses, der Kultur oder der Infrastruktur. In diesem Fall gab es einen manuellen Deployment-Schritt, der hätte automatisiert sein sollen. Das Team hat einige Verbesserungen bei der Automatisierung umgesetzt, weitere sind in Arbeit.“

Was ist passiert?

Vom 31. März, 17:45 UTC, bis zum 1. April, 05:52 UTC, kam es bei Claude Opus 4.6 und Sonnet 4.6 zu einem Ausfall mit stark ansteigenden Timeouts. Laut Downdetector meldeten um 8:30 Uhr morgens (PT) mehr als 2.400 Nutzer Probleme, die meisten davon im Zusammenhang mit Claude Chat.
Die Ursache war laut Cherny selbst ein manueller Deployment-Schritt, bei dem die Deployment-Automatisierung unzureichend war.

Auffällig ist weniger der Ausfall selbst als die Art der Reaktion

Chernys Kommentar verkörpert direkt die in der Engineering-Kultur bekannte Philosophie des blameless postmortem. Er zeigt, dass das Claude-Code-Team das in SRE-Kulturen (Site Reliability Engineering) bei Google, Netflix und anderen seit Langem betonte Prinzip umsetzt — „Wenn man Einzelne bestraft, werden Probleme verborgen; man muss das System reparieren.“

Dass in einem schnell wachsenden AI-Service schon ein einziger manueller Deployment-Schritt zu einem großflächigen Ausfall führen kann, und dass dies öffentlich eingeräumt und mit Automatisierung beantwortet wird, ist ein Punkt, über den sowohl kleine Teams als auch große Dienste nachdenken sollten.
Referenz
∙ Laut der offiziellen Statusseite von Claude (status.claude.com) ist der Ausfall vollständig behoben.
∙ Original-Tweet: https://x.com/bcherny/status/2039210700657307889​​​​​​​​​​​​​​​​

5 Kommentare

 
snowhare 28 일 전

Die Hacker-News-Zusammenfassung ist mit Abstand die seltsamste. Nur der Titel stimmt, und der erste Inhalt passt zwar als Übersetzung, aber der Rest sind Inhalte, über die andere Leute auf X gesprochen haben, und auch die als Hintergrund erklärten Angaben sind etwas anderes. Da das Original ein kurzer Tweet ist, sieht es so aus, als hätte man Inhalte falsch dazukopiert.

 
runableapp 28 일 전

Liegt es daran, dass die Zusammenfassung bei GeekNews mit einem LLM erstellt wird?

Und auf x.com haben inzwischen offenbar die meisten Leute alle den blauen Haken. Soweit ich mich erinnere, war der früher eher so etwas wie ein Zeichen für „offiziell bestätigt“, aber anscheinend haben inzwischen alle das kostenpflichtige Abo akzeptiert.

 
click 27 일 전

Wenn man längere Texte schreiben will, muss man das Label anbringen, deshalb scheinen es alle für Blog-Zwecke oder für Ankündigungen zu verwenden.
Zu Twitter-Zeiten war es, soweit ich mich erinnere, ein kostenloses Verifizierungsabzeichen, das Twitter offiziellen Personen verliehen hat, und hatte keine besondere Funktion.

 
runableapp 27 일 전

Verstehe. Danke für die Antwort.

 
princox 28 일 전

Es wäre wohl passender, statt vom Leak-Pfad eher vom Hergang des Leaks zu sprechen ... aber ich kann den Beitrag leider nicht mehr bearbeiten.