- Aufgrund einer Störung bei Tarsnap war der Dienst offline.
- Die Störung wurde durch einen fehlgeschlagenen Systemstatus-Check des zentralen Tarsnap-Servers verursacht, der in Amazons EC2-Region us-east-1 gehostet wurde.
- Die genaue Ursache des Ausfalls ist nicht bekannt, es wird jedoch von einem isolierten Hardwarefehler ausgegangen.
- Das Monitoring-System von Tarsnap erkannte den Ausfall und benachrichtigte den Betreiber.
- Eine Ersatz-EC2-Instanz wurde erstellt, aber um Datenverlust zu vermeiden, wurde der Tarsnap-Servercode nicht automatisch neu gestartet.
- Nach dem Neustart des Servers zeigten die Logs eine Beschädigung des Dateisystems, weshalb entschieden wurde, statt der Wiederherstellung des vorherigen Servers einen neuen Server einzurichten.
- Der Wiederherstellungsprozess umfasste das Lesen von Metadaten-Headern aus Amazon S3 und das erneute lokale Ausführen der Verarbeitung.
- Während des Wiederherstellungsprozesses traten Fehler im Zusammenhang mit Log-Einträgen zur Maschinenregistrierung sowie mit der Reihenfolge nicht initialisierter Log-Einträge auf.
- Der Wiederherstellungsprozess verlief langsamer als erwartet und hätte für eine schnellere Performance optimiert werden können.
- Die Wiederherstellung des Zustands wurde am 3. Juli abgeschlossen, und der Server war wieder online.
- Der Traffic wurde nach der Störung etwa 26 Stunden und 16 Minuten nach Beginn des Ausfalls wieder aufgenommen.
- Als Entschädigung für die Störung gewährte Tarsnap den Nutzerkonten 50 % der monatlichen Speicherkosten.
- Nutzer werden gebeten, Fragen oder Bedenken an Colin Percival, den Gründer von Tarsnap, zu richten.
1 Kommentare
Hacker-News-Kommentare