- Zusammenfassung eines Vortrags von David Rosenthal, einem Experten für digitale Langzeitarchivierung (Digital Preservation)
Der Unterschied zwischen Backup und Archivierung
- Backups werden benötigt, um nach einem Desaster den jüngsten Zustand wiederherzustellen
- Die gültige Lebensdauer von Backup-Daten wird durch die Zeit zwischen dem letzten Backup und der Wiederherstellung bestimmt
- Die Lebensdauer des Speichermediums für Backup-Daten ist nicht wichtig
- Nach fast 20 Jahren Arbeit im Bereich der digitalen Langzeitarchivierung sind dies meine vier wichtigen Backup-Methoden für Systeme
- Mail- und Webserver: Wöchentliche Voll-Backups und tägliche inkrementelle Backups auf einem Raspberry Pi → das wöchentliche Backup wird auf DVD-R gespeichert
- Desktop-PC: Nächtliche Voll-Backups auf eine externe Festplatte → rotierende Speicherung auf drei Festplatten in regelmäßigen Abständen
- iPhone: Tägliches Backup auf ein Mac Air → regelmäßiges Backup auf SSD per Time Machine
- Offsite-Aufbewahrung: Jede Woche werden DVD-R, SSD und Festplatten an einem externen Ort gelagert
- Was sind Archivdaten?
- Mit der Zeit wandern Daten in der Speicherhierarchie nach unten
- Archivdaten = Daten, deren Vorhaltung im operativen Speicher kostenseitig nicht tragbar ist
- Das Hauptziel eines Archivspeichersystems ist Kostensenkung, wobei langsamere Zugriffszeiten in Kauf genommen werden
Die Realität von Archivspeichermedien
- In den Medien gibt es viel Übertreibung über „Speicher, der für immer hält“
- Dass neue Speichertechnologien aus der Forschung im Markt in großem Maßstab eingesetzt werden, ist eher unwahrscheinlich
- Spezielle Medien nur für Archivzwecke haben eine geringe Marktnachfrage und können kommerziell nur schwer erfolgreich sein
- Beispiel: LTO-Tape macht weniger als 1 % des gesamten Speichermedienmarkts aus
- 2023 wurde OD-3 (1TB optical disk) wegen Marktknappheit gestrichen
Das Problem des Einführungszeitpunkts von Speichermedien
- Es dauert lange, bis neue Speichertechnologien auf den Markt kommen
- HAMR-Festplatten: Einführung erst 26 Jahre nach Beginn der Forschung
- Silica- und DNA-Speicher: Seit Jahrzehnten in Forschung, aber bis zur Kommerzialisierung sind noch mindestens 5 Jahre nötig
Das Problem der Wirtschaftlichkeit von Speichermedien
- Viel wichtiger als das Speichermedium selbst sind die Infrastrukturkosten des Speichersystems
- Die Kosten für Speichermedien wie Tape oder Disk machen nur einen kleinen Teil der Gesamtkosten aus
- Kostenvorteile entstehen erst beim Betrieb im Rechenzentrumsmaßstab
- Archivspeicherung ist im kleinen Maßstab wirtschaftlich unattraktiv
Cloud-Speicher und das Problem des Lock-in
- Die Kosten für Archivspeicher in Cloud-Diensten sind auf lange Sicht sehr hoch
- Amazon Glacier: Kann die Kosten für Langzeitaufbewahrung senken, aber die Kosten für die Datenwiederherstellung sind hoch
- Speicherkosten: $10,900/Jahr
- Wiederherstellungskosten: $49,550 (bei 1PB)
- Gesamtkosten: $60,950
- Lock-in-Dauer: 50.0 Monate
- Google Archive: Hohe Speicher- und Wiederherstellungskosten → für Langzeitaufbewahrung ineffizient
- Speicherkosten: $13,200/Jahr
- Wiederherstellungskosten: $210,810 (bei 1PB)
- Gesamtkosten: $224,510
- Lock-in-Dauer: 175.6 Monate
- Microsoft Archive: Niedrige Aufbewahrungskosten, aber hohe Kosten für die Datenwiederherstellung
- Speicherkosten: $22,000/Jahr
- Wiederherstellungskosten: $40,100 (bei 1PB)
- Gesamtkosten: $62,200
- Lock-in-Dauer: 20.0 Monate
- Lock-in-Problem: Hohe Wiederherstellungskosten erschweren die Datenmigration
- Amazon Glacier hat die niedrigsten Speicherkosten und auch relativ niedrige Wiederherstellungskosten
Project Silica (Microsofts Silica-Projekt)
- Silica: Speichermedium mit ultrahoher Datendichte
- Speicherung von Daten auf einer Silica-Platte mit Femtosekundenlaser
- Hohe Speicherdichte und ausgezeichnete physische Stabilität
- Kostenproblem: Femtosekundenlaser sind teuer → durch Massenproduktion wird mit sinkenden Preisen gerechnet
- Trennung von Lesen und Schreiben → höhere Sicherheit und Gewährleistung der Datenintegrität
- Problem der Lesegeschwindigkeit: Erwartete Antwortzeit von 15 Stunden → nur in großen Systemen effizient
Das Problem der Datenwiederherstellung
- Bei der Archivierung ist die Möglichkeit der Datenwiederherstellung entscheidend
- Microsoft speichert Open-Source-Code auf Filmbasis auf der Insel Svalbard
- Die Wahrscheinlichkeit einer Wiederherstellung nach einer Katastrophe ist gering
- Zugang ist wegen großer Entfernung und schlechtem Wetter schwierig
Das LOCKSS-System (Lots Of Copies Keep Stuff Safe)
- Viele Kopien auf kostengünstigen Speichermedien erhöhen die Datensicherheit
- Backup und Wiederherstellung werden eher durch viele Replikate als durch teure Systeme abgesichert
- Kosteneffizienz ist entscheidend → günstige Speichersysteme werden teuren Speichermedien vorgezogen
Fazit
- Der Kern der Archivspeicherung ist nicht Technik, sondern Wirtschaftlichkeit
- Spezielle Archivmedien sind wirtschaftlich ineffizient
- Cloud-Dienste verursachen hohe Wiederherstellungskosten → Lock-in-Problem
- Nur beim Betrieb in großen Rechenzentren lassen sich die Kosten für Langzeitspeicherung senken
- Project Silica gilt als die vielversprechendste Technologie für Archivspeicherung, braucht bis zur Kommerzialisierung jedoch noch Zeit
1 Kommentare
Hacker-News-Kommentar