1 Punkte von GN⁺ 2023-07-28 | 1 Kommentare | Auf WhatsApp teilen
  • Aufgrund einer Störung bei Tarsnap war der Dienst offline.
  • Die Störung wurde durch einen fehlgeschlagenen Systemstatus-Check des zentralen Tarsnap-Servers verursacht, der in Amazons EC2-Region us-east-1 gehostet wurde.
  • Die genaue Ursache des Ausfalls ist nicht bekannt, es wird jedoch von einem isolierten Hardwarefehler ausgegangen.
  • Das Monitoring-System von Tarsnap erkannte den Ausfall und benachrichtigte den Betreiber.
  • Eine Ersatz-EC2-Instanz wurde erstellt, aber um Datenverlust zu vermeiden, wurde der Tarsnap-Servercode nicht automatisch neu gestartet.
  • Nach dem Neustart des Servers zeigten die Logs eine Beschädigung des Dateisystems, weshalb entschieden wurde, statt der Wiederherstellung des vorherigen Servers einen neuen Server einzurichten.
  • Der Wiederherstellungsprozess umfasste das Lesen von Metadaten-Headern aus Amazon S3 und das erneute lokale Ausführen der Verarbeitung.
  • Während des Wiederherstellungsprozesses traten Fehler im Zusammenhang mit Log-Einträgen zur Maschinenregistrierung sowie mit der Reihenfolge nicht initialisierter Log-Einträge auf.
  • Der Wiederherstellungsprozess verlief langsamer als erwartet und hätte für eine schnellere Performance optimiert werden können.
  • Die Wiederherstellung des Zustands wurde am 3. Juli abgeschlossen, und der Server war wieder online.
  • Der Traffic wurde nach der Störung etwa 26 Stunden und 16 Minuten nach Beginn des Ausfalls wieder aufgenommen.
  • Als Entschädigung für die Störung gewährte Tarsnap den Nutzerkonten 50 % der monatlichen Speicherkosten.
  • Nutzer werden gebeten, Fragen oder Bedenken an Colin Percival, den Gründer von Tarsnap, zu richten.

1 Kommentare

 
GN⁺ 2023-07-28
Hacker-News-Kommentare
  • Der Autor dieses Artikels hat nach dem Ausfall allen Tarsnap-Konten 50 % der Speicherkosten eines Monats gutgeschrieben.
  • Der Autor wird für seinen großzügigen und kundenorientierten Umgang mit der Situation gelobt.
  • Der Autor äußert Überraschung über die Popularität des Artikels und erwähnt, dass er aus persönlichen Gründen nur eingeschränkt Fragen beantworten kann.
  • Ein Kommentator schlägt vor, zusätzliche Ausfallzeit gegen Erholung einzutauschen, was bei der Problemlösung helfen könnte.
  • Regelmäßige Tests des Wiederherstellungsprozesses helfen dabei, Bugs oder Probleme zu identifizieren und zu beheben.
  • Dieser Postmortem-Bericht wird für Professionalität, Höflichkeit und Ehrlichkeit geschätzt.
  • Kommentatoren empfehlen, Schritte zur Störungsbehebung festzulegen und zu testen, um künftige Ausfallzeiten zu minimieren.
  • Bei ähnlichen Vorfällen wird vorgeschlagen, Teilzeitkräfte einzustellen, um die Resilienz des Geschäfts zu verbessern.
  • Für potenzielle Nutzer wird auf das Risiko hingewiesen, von einer einzelnen Person abhängig zu sein, in diesem Fall Colin Percival.
  • Ein Codefehler aus dem Jahr 2014 wurde als Ursache des Ausfalls identifiziert; empfohlen wird der Einsatz von TLA+-Modellierung, um solche Probleme zu erkennen.
  • Die Infrastruktur-Seite der Tarsnap-Website sollte aktualisiert werden, um den Ausfall widerzuspiegeln.
  • Es wird die Frage aufgeworfen, ob sich die Verschlüsselungssoftware von Tarsnap mit Dropbox für eine sichere Datenspeicherung integrieren lässt.