1 Punkte von GN⁺ 2025-12-15 | 1 Kommentare | Auf WhatsApp teilen
  • Auf der Claude-Plattform wurde ein Anstieg der Fehlerrate bei mehreren Modellen gemeldet
  • Nutzer können Benachrichtigungen über Störungen und deren Behebung per E-Mail oder SMS abonnieren
  • SMS-Benachrichtigungen können über eine Liste internationaler Landesvorwahlen mit Nummern aus verschiedenen Ländern registriert werden
  • Abonnenten erhalten SMS-Updates nach einer OTP-Authentifizierung (Einmalpasswort)
  • Dies ist ein Beispiel für das Monitoring-System von Claude-Diensten bei Störungen, das von Anthropic betrieben wird

Bekanntmachung zur Claude-Dienststörung

  • Auf der Claude-Statusseite wurde ein erhöhtes Fehleraufkommen bei mehreren Modellen bekannt gegeben
    • Angezeigt mit der Formulierung „Elevated errors across many models“
    • Es gibt keine Erläuterung zur genauen Ursache oder zum Umfang der Auswirkungen

Art des Benachrichtigungsabonnements

  • Nutzer können Benachrichtigungen zu Störungs-Updates per E-Mail oder SMS erhalten
    • Per E-Mail erfolgt eine Benachrichtigung bei jeder Aktualisierung des Vorfalls
    • SMS werden versendet, wenn Claude einen Vorfall erstellt oder behebt
    Anzeige

Ablauf der SMS-Registrierung

  • Um SMS-Benachrichtigungen zu erhalten, ist der Ablauf Landesvorwahl wählen → Mobilnummer eingeben → OTP-Verifizierung erforderlich
    • Zur Verifizierung der Nummer muss ein OTP (Einmalpasswort) eingegeben werden
    • Nach der Verifizierung können SMS-Updates empfangen werden
Anzeige

Liste unterstützter Länder

  • Die Seite enthält eine Liste der Landesvorwahlen für die meisten Länder weltweit
    • Beispiele: USA (+1), Südkorea (+82), Japan (+81), Vereinigtes Königreich (+44), Deutschland (+49) usw.
    • Nutzer in verschiedenen Ländern können SMS-Benachrichtigungen über denselben Ablauf erhalten

Bedeutung des Status-Monitorings

  • Die Claude-Statusseite dient als öffentliche Anlaufstelle für den Echtzeit-Status von Störungen in den Anthropic-Diensten
    • Sie bietet Nutzern eine transparente Benachrichtigung über Störungen und Informationen zum Fortschritt der Wiederherstellung
    • Entwickler und Unternehmenskunden können so die Serviceverfügbarkeit unmittelbar erfassen

1 Kommentare

 
GN⁺ 2025-12-15
Hacker-News-Kommentare
  • Es war beeindruckend, dass die Statusseite sofort aktualisiert wurde
    Ich nutzte gerade Claude Code, bekam einen API-Fehler und sah auf der Statusseite nach — dort war der Ausfall tatsächlich bereits vermerkt
    Ich finde, so ein transparenter Umgang sollte für alle Services selbstverständlich sein

    • Die Gewohnheit, einen Vorfall offenzulegen, sobald die Auswirkungen auf Nutzer beginnen, ist ein Instinkt, den ich mir bei der Arbeit als SRE bei Google und Anthropic angeeignet habe
      Zufällig nutzte ich privat gerade Claude und konnte dadurch die Schwere des Ausfalls sofort einschätzen
    • Ich hatte ebenfalls Probleme und schaute zwei Minuten später auf die Statusseite — sie war bereits aktualisiert
    • Ich war gerade dabei, einen 529-Fehler zu debuggen, und dieser Ausfall hat mich eine Weile ziemlich verwirrt
    • Bei mir war es genauso, und nachdem ich die Statusseite gesehen hatte, klickte ich sofort auf Updates abonnieren
      Claude-Nutzer scheinen auch am Sonntagabend fleißig zu arbeiten
  • Ich bin einer der Incident-Response-Ingenieure bei diesem Vorfall
    Stand 14:43 PT / 22:43 UTC haben wir das Problem eingedämmt. Entschuldigung für die Unannehmlichkeiten

    • Ich bin ebenfalls Ingenieur im selben Team, und die Ursache war ein Fehler in der Netzwerk-Routing-Konfiguration
      Durch doppelte Routenankündigungen wurde ein Teil des Traffics zu einigen Inferenz-Backends in ein Blackhole geleitet
      Bis zur Erkennung dauerte es etwa 75 Minuten, und einige Maßnahmen zur Abschwächung funktionierten nicht wie erwartet
      Die fehlerhaften Routen wurden entfernt und der Service wurde wiederhergestellt
      Künftig wollen wir das schneller erkennen, indem wir synthetic monitoring und die Sichtbarkeit von Infrastrukturänderungen verbessern
    • Ich frage mich, ob geplant ist, wie bei Cloudflare einen Incident-Analysebericht zu veröffentlichen
      Wegen dieser Transparenz vertraue ich Cloudflare mehr
    • Es war unerquicklich, dass es genau dann nicht funktionierte, als ich unbedingt Claude fragen musste
    • Ich hoffe, ihr könnt das Wochenende noch gut zu Ende bringen
    • Aus Entwicklersicht bin ich einfach neugierig und würde gern mehr darüber erfahren, wie solche Probleme in groß angelegten Deployment-Umgebungen entstehen
  • Ich stelle mir in 50 Jahren eine Steampunk-Dystopie vor
    „Das LLM-Hosting ist ausgefallen, die weltweite Produktion steht still und die Märkte brechen zusammen. Sam, kannst du mich hören?“
    Allein der Gedanke daran ist schon lustig

    • Dass alle dieselben drei zentralisierten Inferenzanbieter nutzen, ist genauso unrealistisch wie die Vorstellung, dass heute alle hinter us-east-1 und Cloudflare hängen
    • Das wäre wohl kaum anders, als wenn das Internet oder Cloudflare ausfällt
    • Ich erinnere mich, dass Karpathy solche Ausfälle als „intelligence brownout“ bezeichnet hat
      Zugehöriges Video: YouTube Shorts
    • Mir kommt dabei ein Satz in den Sinn wie: „Nur noch einsame Coder, die Symbolmanipulation beherrschen, stehen zwischen der Menschheit und der Dunkelheit“
    • Man kann sich gut den Witz vorstellen: „Wir haben das Problem per vibe coding erzeugt, und jetzt ist das LLM down, also können wir es nicht mehr per vibe beheben“
  • Ich bekam in einem Claude.ai-Chat diese Meldung

    "You have reached the messages quota for your account. It will reset in 2 hours, or you can upgrade now"
    

    Entweder war das Timing perfekt, oder die Monetarisierungsverantwortlichen sollten einen Bonus bekommen

    • Vermutlich ist das Error-Handling nicht sauber implementiert
      Entweder wirft das Backend keinen 429/402-Fehler, oder das Gateway verarbeitet ihn falsch und gibt dadurch die falsche Meldung zurück
    • Ich habe dieselbe Meldung gesehen und dachte einfach, es sei nur ein Timing-Problem
  • Wenn sie Opus 4.5 einstellen, werde ich wohl weinen

    • Die Leute, die schon nach mehr API-Credits fragten, wirkten bereits wie Süchtige
    • Alle scheinen mit dem Preis ziemlich zufrieden zu sein
  • Kurz vor dem Ausfall begann Opus, seltsam lange Antworten auszugeben
    Selbst auf einfache Fragen antwortete es, als würde es die gesamte Codebasis ausspucken, und bei einer einfachen Frage zum Datenbankschema kam es sogar zweimal zu einer Komprimierung

  • canivibe.ai — je nachdem, welchen Service man nutzt, lässt sich der Vibe vielleicht anpassen

    • Die Seite ist cool, aber in Chat-Apps wie Discord funktionieren die Embeds nicht besonders gut
    • Eine Verfügbarkeit von 89 % ist schon ein ziemlich witziger Wert
    • Der Name „Vibedetector“ passt perfekt
  • Ich frage mich, ob das diesmal vielleicht ein AWS-Ausfall war

  • Laut Statusseite scheint jetzt wieder alles hergestellt zu sein
    Ich habe gesehen, wie ein Agent in derselben Fehlerschleife festhing und diesmal dann doch korrekt ein Ergebnis lieferte
    Vielleicht wurde eine Regel hinzugefügt, um solche Ausfälle automatisch zu erkennen, und das war eine ziemlich inspirierende Reaktion