1 Punkte von GN⁺ 2025-02-21 | 1 Kommentare | Auf WhatsApp teilen

Hetzner-Debugging: Probleme mit powerstat, sensors und dmidecode beheben

  • Hintergrund

    • Ubicloud führte die AX162-Server von Hetzner ein, hatte jedoch mit erheblichen Zuverlässigkeitsproblemen zu kämpfen.
    • Die AX162-Server boten im Vergleich zum Vorgängermodell bessere Leistung und waren günstiger, stürzten jedoch 16-mal häufiger ab.
    • Erst nach mehreren Hardware-Updates wurde das Problem gelöst.
  • Auftreten des Problems

    • Drei Wochen nach dem Kauf des ersten AX162-Servers kam es zum ersten Serverabsturz.
    • In den Systemlogs wurden NULL-Bytes gefunden, was auf einen plötzlichen Ausfall wie etwa einen Stromverlust hindeutet.
    • Hetzner führte Hardwareprüfungen durch, fand jedoch keine Auffälligkeiten.
    • Mit steigender Absturzhäufigkeit ersetzte Hetzner die Server jeweils dann, wenn ein Hardwaredefekt festgestellt wurde.
  • Erste Untersuchung

    • Systemlast: Zunächst wurde vermutet, dass das Problem bei steigender Last wahrscheinlicher auftritt, jedoch kam es auch bei geringer oder gar keiner Last zu Abstürzen.
    • Temperatur: Die Temperaturen wurden mit Sensoren gemessen, lagen zum Zeitpunkt der Abstürze jedoch nicht über dem Durchschnitt.
    • Defekte Komponenten: Mit dem Befehl dmidecode wurden Hardwareinformationen gesammelt, doch zwischen absturzbetroffenen und nicht betroffenen Servern gab es keine großen Unterschiede.
    • Stromverbrauch: Mit dem Tool powerstat wurde der Stromverbrauch gemessen; dabei entstand der Verdacht, dass Hetzner den Stromverbrauch begrenzt haben könnte.
  • Erfassung und Vergleich von Absturzraten

    • Die Hardwarezuverlässigkeit wurde anhand der jährlichen Ausfallrate (AFR) gemessen.
    • AX162-Server fielen 16-mal häufiger aus als andere Modelle.
    • Nach dem ersten Absturz erlebten 80 % der Server innerhalb von 24 Stunden einen zweiten Absturz.
  • Beobachtung der Stabilität mit neuer Hardware

    • Hetzner bestätigte eine fehlerhafte Motherboard-Charge und empfahl einen Austausch.
    • Auch nach dem Austausch auf neue Motherboards kam es weiterhin zu Abstürzen.
    • Nach dem Wechsel auf die neuesten Motherboards und mehreren Monaten Monitoring war das Absturzproblem behoben.
  • Verbesserung des Prozesses

    • Bei der Einführung neuer Servermodelle ist eine gründliche Prüfung erforderlich.
    • Neue Hardware sollte schrittweise beginnen mit nicht kritischen Workloads eingeführt werden.
    • Zur Risikostreuung sollen weitere Bare-Metal-Anbieter hinzukommen.
  • Fazit

    • Die frühe Einführung der Hetzner-Server verursachte Probleme, diese konnten jedoch durch kontinuierliche Verbesserungen behoben werden.
    • Ubicloud will weiterhin daran arbeiten, Cloud-Lösungen mit hoher Zuverlässigkeit und Anpassungsfähigkeit bereitzustellen.

1 Kommentare

 
GN⁺ 2025-02-21
Hacker-News-Kommentare
  • Die meisten anderen AX-Modelle (AX42, AX52, AX102) haben ebenfalls schwerwiegende Zuverlässigkeitsprobleme und fallen nach einigen Monaten aus. Das liegt an fehlerhaften Mainboards. Hetzner muss bei den meisten Servern, die vor einem bestimmten Datum hergestellt wurden, die Mainboards austauschen
  • In einem früheren Unternehmen wurden bei Hetzner häufig Ausfälle der CPU-Lüfter festgestellt. Das geschah zusätzlich zu den üblichen HD-/SSD-Ausfällen. Eigenes Monitoring ist erforderlich, und das ist einer der Gründe, warum nicht verwaltete Server günstiger sind als Cloud-Instanzen
  • Rückblickend hätte man viele Probleme vermeiden können, wenn man sechs Monate gewartet hätte. Frühe Nutzer entdecken oft Probleme, die später behoben werden
    • Das ist ein sehr guter Rat, und ich befolge ihn bei allen Systemen, bei denen Stabilität nötig ist
    • Wenn es keine Sicherheitsprobleme gibt, warte ich ein paar Monate oder bleibe ein oder zwei Versionen zurück
  • Hetzner hat die Möglichkeit eines Power-Limits weder bestätigt noch dementiert
    • Was sind die Folgen eines Power-Limits? Laut Artikel könnte die Hardware dadurch schneller verschleißen
    • Hetzners ausbleibende Reaktion und die Messungen von UbiCloud scheinen darauf hinzudeuten, dass tatsächlich Leistung begrenzt wird. Andernfalls hätten sie das wohl gesagt
  • Auch Dell hat dieses Problem gelegentlich. Als wir die erste Charge ihrer älteren Server bekamen, mussten wir den I/O-Bereich (hinten) austauschen. Nachdem das behoben war, liefen sie fast 10 Jahre lang
    • Kürzlich haben wir diese Server ausgemustert. Vom RAID-Controller bis zum Spannungsregler war alles verschlissen
    • Es ist schockierend, einen perfekt funktionierenden Server wegen einer Konfigurationsänderung neu zu starten und den RAID-Controller für immer zu verlieren
  • Um unter Strombeschränkungen mehr Maschinen betreiben zu können, begrenzen Rechenzentrumsbetreiber normalerweise den Stromverbrauch pro Maschine. Das kann jedoch dazu führen, dass Mainboards schneller verschleißen
    • Kann das jemand erklären? Das wirkt kontraintuitiv
    • Laut Suchergebnissen können hohe Betriebstemperaturen beim Auftreten von Thermal Throttling Bauteile (z. B. Kondensatoren) schneller altern lassen. Der Artikel hat jedoch verschiedene Temperatursensoren untersucht, daher scheint das hier nicht der Fall zu sein
  • Ich frage mich, ob es ein Strom-/Signalproblem oder ein VRM-Problem sein könnte. Nur weil die CPU nicht heiß wird, heißt das nicht, dass andere Teile des Boards nicht außerhalb der Spezifikation laufen und einen katastrophalen Ausfall verursachen
    • Strom-/signalbezogene Mainboard-Probleme sind schwer zu diagnostizieren. Sie äußern sich als Probleme mit anderen Komponenten, und am Ende tauscht man alles aus, bevor man tatsächlich das Mainboard ersetzt
  • Bei einem aktuell genutzten AX102 ist etwas Ähnliches passiert. Es kam zu Abstürzen wegen eines Problems mit der Netzwerkkarte. Zum Glück hat der Hetzner-Support beim Hardwaretausch geholfen. Das hat viel Schmerz verursacht, war aber eine gute Lektion bei der Fehlersuche von Hardwareproblemen
  • Kann jemand mit Rechenzentrumserfahrung abschätzen, zu welcher kommerziellen Lösung Hetzner mit dem Mainboard-Lieferanten gekommen sein könnte? Kann man annehmen, dass alle Mainboards kostenlos ausgetauscht und Entschädigungen gezahlt wurden?
  • Bevor ich von einem Power-Limit ausgehe, würde ich gern sehen, welcher CPU-Governor auf dem System läuft. Viele Standard-Linux-Installationen verwenden einen Energiespar-Governor, der maximale Frequenz und maximale Leistung begrenzt