Hetzner-Debugging: Probleme mit powerstat, sensors und dmidecode beheben
-
Hintergrund
- Ubicloud führte die AX162-Server von Hetzner ein, hatte jedoch mit erheblichen Zuverlässigkeitsproblemen zu kämpfen.
- Die AX162-Server boten im Vergleich zum Vorgängermodell bessere Leistung und waren günstiger, stürzten jedoch 16-mal häufiger ab.
- Erst nach mehreren Hardware-Updates wurde das Problem gelöst.
-
Auftreten des Problems
- Drei Wochen nach dem Kauf des ersten AX162-Servers kam es zum ersten Serverabsturz.
- In den Systemlogs wurden NULL-Bytes gefunden, was auf einen plötzlichen Ausfall wie etwa einen Stromverlust hindeutet.
- Hetzner führte Hardwareprüfungen durch, fand jedoch keine Auffälligkeiten.
- Mit steigender Absturzhäufigkeit ersetzte Hetzner die Server jeweils dann, wenn ein Hardwaredefekt festgestellt wurde.
-
Erste Untersuchung
- Systemlast: Zunächst wurde vermutet, dass das Problem bei steigender Last wahrscheinlicher auftritt, jedoch kam es auch bei geringer oder gar keiner Last zu Abstürzen.
- Temperatur: Die Temperaturen wurden mit Sensoren gemessen, lagen zum Zeitpunkt der Abstürze jedoch nicht über dem Durchschnitt.
- Defekte Komponenten: Mit dem Befehl
dmidecodewurden Hardwareinformationen gesammelt, doch zwischen absturzbetroffenen und nicht betroffenen Servern gab es keine großen Unterschiede. - Stromverbrauch: Mit dem Tool
powerstatwurde der Stromverbrauch gemessen; dabei entstand der Verdacht, dass Hetzner den Stromverbrauch begrenzt haben könnte.
-
Erfassung und Vergleich von Absturzraten
- Die Hardwarezuverlässigkeit wurde anhand der jährlichen Ausfallrate (AFR) gemessen.
- AX162-Server fielen 16-mal häufiger aus als andere Modelle.
- Nach dem ersten Absturz erlebten 80 % der Server innerhalb von 24 Stunden einen zweiten Absturz.
-
Beobachtung der Stabilität mit neuer Hardware
- Hetzner bestätigte eine fehlerhafte Motherboard-Charge und empfahl einen Austausch.
- Auch nach dem Austausch auf neue Motherboards kam es weiterhin zu Abstürzen.
- Nach dem Wechsel auf die neuesten Motherboards und mehreren Monaten Monitoring war das Absturzproblem behoben.
-
Verbesserung des Prozesses
- Bei der Einführung neuer Servermodelle ist eine gründliche Prüfung erforderlich.
- Neue Hardware sollte schrittweise beginnen mit nicht kritischen Workloads eingeführt werden.
- Zur Risikostreuung sollen weitere Bare-Metal-Anbieter hinzukommen.
-
Fazit
- Die frühe Einführung der Hetzner-Server verursachte Probleme, diese konnten jedoch durch kontinuierliche Verbesserungen behoben werden.
- Ubicloud will weiterhin daran arbeiten, Cloud-Lösungen mit hoher Zuverlässigkeit und Anpassungsfähigkeit bereitzustellen.
1 Kommentare
Hacker-News-Kommentare