6 Punkte von GN⁺ 2025-03-18 | 1 Kommentare | Auf WhatsApp teilen
  • Zusammenfassung eines Vortrags von David Rosenthal, einem Experten für digitale Langzeitarchivierung (Digital Preservation)

Der Unterschied zwischen Backup und Archivierung

  • Backups werden benötigt, um nach einem Desaster den jüngsten Zustand wiederherzustellen
    • Die gültige Lebensdauer von Backup-Daten wird durch die Zeit zwischen dem letzten Backup und der Wiederherstellung bestimmt
    • Die Lebensdauer des Speichermediums für Backup-Daten ist nicht wichtig
  • Nach fast 20 Jahren Arbeit im Bereich der digitalen Langzeitarchivierung sind dies meine vier wichtigen Backup-Methoden für Systeme
    • Mail- und Webserver: Wöchentliche Voll-Backups und tägliche inkrementelle Backups auf einem Raspberry Pi → das wöchentliche Backup wird auf DVD-R gespeichert
    • Desktop-PC: Nächtliche Voll-Backups auf eine externe Festplatte → rotierende Speicherung auf drei Festplatten in regelmäßigen Abständen
    • iPhone: Tägliches Backup auf ein Mac Air → regelmäßiges Backup auf SSD per Time Machine
    • Offsite-Aufbewahrung: Jede Woche werden DVD-R, SSD und Festplatten an einem externen Ort gelagert
  • Was sind Archivdaten?
    • Mit der Zeit wandern Daten in der Speicherhierarchie nach unten
    • Archivdaten = Daten, deren Vorhaltung im operativen Speicher kostenseitig nicht tragbar ist
    • Das Hauptziel eines Archivspeichersystems ist Kostensenkung, wobei langsamere Zugriffszeiten in Kauf genommen werden

Die Realität von Archivspeichermedien

  • In den Medien gibt es viel Übertreibung über „Speicher, der für immer hält“
  • Dass neue Speichertechnologien aus der Forschung im Markt in großem Maßstab eingesetzt werden, ist eher unwahrscheinlich
  • Spezielle Medien nur für Archivzwecke haben eine geringe Marktnachfrage und können kommerziell nur schwer erfolgreich sein
    • Beispiel: LTO-Tape macht weniger als 1 % des gesamten Speichermedienmarkts aus
    • 2023 wurde OD-3 (1TB optical disk) wegen Marktknappheit gestrichen

Das Problem des Einführungszeitpunkts von Speichermedien

  • Es dauert lange, bis neue Speichertechnologien auf den Markt kommen
  • HAMR-Festplatten: Einführung erst 26 Jahre nach Beginn der Forschung
  • Silica- und DNA-Speicher: Seit Jahrzehnten in Forschung, aber bis zur Kommerzialisierung sind noch mindestens 5 Jahre nötig

Das Problem der Wirtschaftlichkeit von Speichermedien

  • Viel wichtiger als das Speichermedium selbst sind die Infrastrukturkosten des Speichersystems
    • Die Kosten für Speichermedien wie Tape oder Disk machen nur einen kleinen Teil der Gesamtkosten aus
    • Kostenvorteile entstehen erst beim Betrieb im Rechenzentrumsmaßstab
    • Archivspeicherung ist im kleinen Maßstab wirtschaftlich unattraktiv

Cloud-Speicher und das Problem des Lock-in

  • Die Kosten für Archivspeicher in Cloud-Diensten sind auf lange Sicht sehr hoch
  • Amazon Glacier: Kann die Kosten für Langzeitaufbewahrung senken, aber die Kosten für die Datenwiederherstellung sind hoch
    • Speicherkosten: $10,900/Jahr
    • Wiederherstellungskosten: $49,550 (bei 1PB)
    • Gesamtkosten: $60,950
    • Lock-in-Dauer: 50.0 Monate
  • Google Archive: Hohe Speicher- und Wiederherstellungskosten → für Langzeitaufbewahrung ineffizient
    • Speicherkosten: $13,200/Jahr
    • Wiederherstellungskosten: $210,810 (bei 1PB)
    • Gesamtkosten: $224,510
    • Lock-in-Dauer: 175.6 Monate
  • Microsoft Archive: Niedrige Aufbewahrungskosten, aber hohe Kosten für die Datenwiederherstellung
    • Speicherkosten: $22,000/Jahr
    • Wiederherstellungskosten: $40,100 (bei 1PB)
    • Gesamtkosten: $62,200
    • Lock-in-Dauer: 20.0 Monate
  • Lock-in-Problem: Hohe Wiederherstellungskosten erschweren die Datenmigration
  • Amazon Glacier hat die niedrigsten Speicherkosten und auch relativ niedrige Wiederherstellungskosten

Project Silica (Microsofts Silica-Projekt)

  • Silica: Speichermedium mit ultrahoher Datendichte
    • Speicherung von Daten auf einer Silica-Platte mit Femtosekundenlaser
    • Hohe Speicherdichte und ausgezeichnete physische Stabilität
  • Kostenproblem: Femtosekundenlaser sind teuer → durch Massenproduktion wird mit sinkenden Preisen gerechnet
  • Trennung von Lesen und Schreiben → höhere Sicherheit und Gewährleistung der Datenintegrität
  • Problem der Lesegeschwindigkeit: Erwartete Antwortzeit von 15 Stunden → nur in großen Systemen effizient

Das Problem der Datenwiederherstellung

  • Bei der Archivierung ist die Möglichkeit der Datenwiederherstellung entscheidend
  • Microsoft speichert Open-Source-Code auf Filmbasis auf der Insel Svalbard
    • Die Wahrscheinlichkeit einer Wiederherstellung nach einer Katastrophe ist gering
    • Zugang ist wegen großer Entfernung und schlechtem Wetter schwierig

Das LOCKSS-System (Lots Of Copies Keep Stuff Safe)

  • Viele Kopien auf kostengünstigen Speichermedien erhöhen die Datensicherheit
  • Backup und Wiederherstellung werden eher durch viele Replikate als durch teure Systeme abgesichert
  • Kosteneffizienz ist entscheidend → günstige Speichersysteme werden teuren Speichermedien vorgezogen

Fazit

  • Der Kern der Archivspeicherung ist nicht Technik, sondern Wirtschaftlichkeit
    • Spezielle Archivmedien sind wirtschaftlich ineffizient
    • Cloud-Dienste verursachen hohe Wiederherstellungskosten → Lock-in-Problem
  • Nur beim Betrieb in großen Rechenzentren lassen sich die Kosten für Langzeitspeicherung senken
  • Project Silica gilt als die vielversprechendste Technologie für Archivspeicherung, braucht bis zur Kommerzialisierung jedoch noch Zeit

1 Kommentare

 
GN⁺ 2025-03-18
Hacker-News-Kommentar
  • Es gibt zwar AI, Quantencomputing, 6K-Bildschirme, M2 NVME und Milliarden von Netzwerkgeräten, aber normale Daten halten wegen Festplattenausfällen, der Instabilität von SSDs, Bitrot usw. möglicherweise nur etwa 5 Jahre
    • Um das zu überwinden, muss man JBOD, RAID und NAS dauerhaft pflegen oder auf M-Disc-Blu-ray brennen, es der Cloud überlassen oder beides tun
    • Eine einfache 3-2-1-Backup-Strategie kann mit etwas Glück funktionieren, aber groß angelegte Datenarchive bleiben weiterhin schwierig
  • Ich habe über das „mehrere-Hundert-Jahre“-Problem nachgedacht, und die Methoden, bei denen ich erwarte, dass sie zuverlässig funktionieren, sind folgende
    • In Materialien eingravieren oder prägen (Steintafeln, Edison-Zylinder, Schellack-78er, Vinyl, Voyager Golden Record usw.)
    • Mit Tinte auf Papier drucken oder lochen (Bücher, Karten, Bänder)
    • Fotografie; Mikrofiche/Mikrofilm (GitHub Arctic Code Vault), Lithografie
  • Ich habe mich kürzlich damit beschäftigt, wie man archivfähigen Mikrofilm „druckt“; es gibt einige Optionen, aber die meisten scannen Mikrofilm ein und erstellen digitale Kopien
    • Meiner persönlichen Erfahrung nach hat eine Bleistiftzeichnung aus der 8. Klasse eine höhere Wahrscheinlichkeit, ein paar hundert Jahre länger zu überdauern als digitale Materialien
  • Auf Unternehmensebene kann die Kostenrechnung anders ausfallen als im privaten Umfeld
    • Linear Tape-Open ist ein günstiges Speichermedium, wenn man Petabytes speichern muss
    • Für den Preis eines Laufwerks kann man 400 TB an Festplatten kaufen
    • Ich denke, massenproduzierte Festplatten sind zuverlässiger als LTO-Bänder
    • Persönlich habe ich mit Bändern keine guten Erfahrungen gemacht
  • Die Notiz „Ich habe im Sommer 1969 geologische Untersuchungen auf dem Svalbard-Archipel durchgeführt“ machte mich neugierig, mehr über den Autor zu erfahren, und seine Laufbahn ist wirklich interessant
  • Wenn man Cloud-Speicher für Backups nutzt, sollte man nicht vergessen, Object Lock zu aktivieren
    • Nicht so gut wie Offline-Speicherung, aber deutlich besser als R/W-Medien
    • In der Firma verwenden wir restic für Backups nach B2 und führen jedes Mal deduplizierte Backups durch
  • Ich nutze die 3-2-1-Backup-Strategie
    • Drei Kopien der Daten auf zwei verschiedenen Medientypen speichern und eine Kopie extern aufbewahren
    • Wichtige Daten werden auf SSDs gespiegelt, und ich bewahre mehrere Blu-ray-Kopien auf
    • Ich verwende Blu-ray, um mich vor geomagnetischen Stürmen wie dem Carrington Event von 1859 zu schützen
  • Ich wünschte, Bandarchive wären leichter zugänglich
    • Es ist ein Nischenmarkt und hauptsächlich für Unternehmen gedacht, daher beginnen die Laufwerke bei mehreren tausend Dollar, und bei geringerer Kapazität liegen sie unter modernen SSDs
  • Der Artikel behandelt viele verschiedene Themen, daher ist es schwer, zu einem einzigen Fazit zu kommen
    • Er endet mit einem Zitat des Backblaze-CTO: „Plane für Ausfälle und kaufe die billigsten Teile“
    • Für große Unternehmen mag das passen, für Privatpersonen oder kleine Firmen aber nicht
    • Ich persönlich sichere auf günstige externe Festplatten und archiviere auf M-DISC-Blu-ray
  • Ich bewahre seit 1991 Dateien auf und habe sie durch verschiedene Formate migriert
    • Ich nutze die 3-2-1-Backup-Strategie und verifiziere alle Dateien zweimal im Jahr per Checksumme
    • Mit Skripten lässt sich das mit ein paar wöchentlichen Befehlen einfach erledigen
  • Was haltet ihr von LOCKSS?
    • LOCKSS scheint die Idee ernst zu nehmen, dass Daten, die nicht kürzlich geprüft wurden, in Wirklichkeit nicht existieren