1 Punkte von GN⁺ 2024-09-14 | 1 Kommentare | Auf WhatsApp teilen

71-TiB-ZFS-NAS ohne Laufwerksausfall seit 10 Jahren

  • Hardware

    • 71-TiB-ZFS-NAS mit 24 Laufwerken à 4 TB
    • In 10 Jahren kein einziger Laufwerksausfall
    • Inzwischen mit dem zweiten Mainboard und Netzteil im Einsatz
  • Laufwerksverwaltung

    • 4-TB-HGST-Laufwerke waren über 10 Jahre rund 6000 Stunden in Betrieb
    • Das Ausschalten des Servers, wenn er nicht genutzt wird, hilft, die Lebensdauer der Laufwerke zu verlängern
    • Verwendung von Skripten zum ferngesteuerten Ein- und Ausschalten des Servers
    • Standardmäßig bleibt der Server ausgeschaltet, um Energie zu sparen und die Lebensdauer der Laufwerke zu erhöhen
  • Austausch des Mainboards

    • Das Mainboard wurde vor einigen Jahren wegen eines Defekts ersetzt
    • Es traten Probleme wie der fehlgeschlagene BIOS-Zugang und Boot-Fehler auf
    • Das Problem wurde durch den Kauf desselben Mainboards auf Ebay gelöst
  • ZFS

    • ZFS läuft auf mehreren Betriebssystemen problemlos
    • zpool scrub wurde einige Male ausgeführt, ohne Checksum-Fehler
    • ZFS ist sehr effektiv beim Verhindern von Datenverlust
  • Geräuschmanagement

    • Die Standardlüfterdrehzahl war sehr hoch und verursachte starke Geräusche
    • Es wurde ein Skript geschrieben, das die Lüfterdrehzahl abhängig von der Temperatur regelt
    • Mit einem PID-Regler werden Lüfterdrehzahl und Geräuschpegel gesteuert
  • Netzwerk

    • Anfangs wurde ein Gigabit-Netzwerkcontroller verwendet
    • Nach dem Wechsel auf eine Infiniband-Karte wurden 700 MB/s Übertragungsrate erreicht
    • Derzeit wird eine 10-Gbit-Ethernet-Karte verwendet
  • Netzteil

    • Beim Booten laufen alle Laufwerke gleichzeitig an, wodurch 600 W Leistungsaufnahme entstehen
    • Das Netzteil kappt beim Booten gelegentlich die Stromversorgung
  • UPS nicht mehr im Einsatz

    • Die UPS verbrauchte zusätzliche Energie und wird daher nicht mehr verwendet
    • Das Risiko eines Systemverlusts durch Stromprobleme wird in Kauf genommen
  • Backups

    • Wichtige Daten werden dreifach gesichert
    • Unwichtige Daten werden nicht gesichert
    • Hardware-Austausch und ZFS helfen, Datenverlust zu vermeiden
  • Zukunftspläne

    • Derzeit sind keine zusätzlichen Speichererweiterungen geplant
    • Ein Ersatz-Mainboard, eine CPU, Speicher und HBA-Karten sind vorhanden
    • Durch größere Laufwerke könnte künftig ein Wechsel zu einem kleineren Formfaktor möglich sein
    • Falls das System ausfällt, könnte das Speicher-Hobby auch beendet werden

Zusammenfassung von GN⁺

  • Dieser Beitrag teilt Erfahrungen mit einem 71-TiB-ZFS-NAS, das 10 Jahre lang ohne Laufwerksausfall betrieben wurde
  • Das Ausschalten des Servers bei Nichtnutzung hilft deutlich, die Lebensdauer der Laufwerke zu verlängern
  • ZFS ist sehr effektiv beim Schutz vor Datenverlust, und die Lüftersteuerung kann den Geräuschpegel senken
  • Zur Erhöhung der Netzwerk-Übertragungsraten wurden verschiedene Netzwerkkarten eingesetzt
  • Außerdem werden Erfahrungen mit Backup-Strategien und dem Management des Netzteils geteilt

1 Kommentare

 
GN⁺ 2024-09-14
Hacker-News-Kommentare
  • Die Diskussion dreht sich meist um ZFS und BTRFS, aber es wird gefragt, ob jemand bcachefs ausprobiert hat

    • bcachefs ist im Linux-Kernel enthalten und verfügt über durchgängige Checksummen
    • Es gibt einen Autor, der die Verantwortung eines Dateisystems sehr ernst nimmt
  • Frage, ob es einen Rotationsplan für die Laufwerke gibt

    • Es werden 24 Laufwerke desselben Modells verwendet, offenbar aus derselben Charge
    • Wegen eines ähnlichen Verschleißzustands ist die Wahrscheinlichkeit höher, dass sie gleichzeitig ausfallen
    • Zuverlässiger Speicher ist knifflig
  • Es wurde die gegenteilige Meinung gehört, dass dauerhaft laufende Laufwerke weniger Verschleiß haben können als solche, die regelmäßig aus- und eingeschaltet werden

    • Bevorzugt wird, ein ZFS-NAS dauerhaft eingeschaltet zu lassen, damit Daten regelmäßig geprüft werden können
    • Beim Betrieb eines Systems mit 4 Laufwerken über 10 Jahre sind 2 Laufwerke ausgefallen, allerdings waren es keine Enterprise-Laufwerke (WD Green)
  • Große Lüfter können auch bei niedriger RPM viel Luft bewegen und sind energieeffizient

    • Oxide Computer betont, dass sie 80-mm-Lüfter verwenden, die leise sind und wenig Strom verbrauchen
    • Bei anderen Servern macht der Stromverbrauch der Lüfter bis zu 25 % des Gesamtverbrauchs aus, hier sind es nur etwa 1 %
  • Es besteht Interesse, mehr über die Filmsammlung zu hören

    • Interessant ist, wie die ersten Titel ausgewählt wurden und welche seit über 10 Jahren in der Sammlung geblieben sind
  • Es wird das Risiko in Kauf genommen, das System durch Stromprobleme zu verlieren

    • Eine UPS verhindert seltene Ausfälle durch Ungleichgewichte in der Stromversorgung
    • Durch Bauarbeiten oder Blitzeinschläge können Spannungsspitzen entstehen
    • Eine UPS schützt, indem sie selbst ausfällt, bevor der Server beschädigt wird
  • 24 Laufwerke können Leistungsvorteile bringen, aber ein NAS mit 6 Bays und 18-TB-Festplatten bietet viele Vorteile bei Stromverbrauch, Lärm, Platzbedarf, Kosten und Zuverlässigkeit

  • Die Umgebung, in der Laufwerke betrieben werden, hat großen Einfluss auf ihre Lebensdauer

    • Wohnumgebungen sind schwankungsanfälliger als Rechenzentren oder Büroräume
    • Temperatur- und Feuchtigkeitsschwankungen sowie Staub haben großen Einfluss
    • In einer sauberen und stabilen Umgebung treten deutlich weniger Laufwerksausfälle auf
  • Das Geheimnis war nicht das Ausschalten der Laufwerke, sondern einfach Glück

    • 4-TB-HGST-Laufwerke laufen seit über 10 Jahren rund um die Uhr ohne Ausfälle
    • Andere haben mit denselben Laufwerken mehrfach RMA-Fälle erlebt
  • Es gab Laufwerke, bei denen geänderte Power-Cycles riskant waren

    • Das ist nicht für alle immer gut
    • Manche SSDs brauchen periodisch Strom
    • Der Duty Cycle eines NAS erfüllt diese Anforderung wahrscheinlich
    • Die Stromkosten sind gesunken
    • Es wird gefragt, ob Backblaze Statistiken zur Lebensdauer von Laufwerken in Abhängigkeit von der Anzahl der Ein-/Ausschaltvorgänge modelliert