- Ein Bericht mit Antworten im Nachgang auf verschiedene Fragen aus der Community, nachdem vor zwei Jahren die Erfahrung geteilt wurde, durch die Migration von AWS auf Bare Metal jährlich 230.000 US-Dollar einzusparen Mit Veröffentlichung von Praxiskennzahlen aus zwei Jahren wurde erklärt, dass inzwischen mehr als 1,2 Mio. US-Dollar jährliche Einsparungen erzielt wurden
- Durch den produktiven Betrieb stiegen die Einsparungen auf über 1,2 Mio. US-Dollar pro Jahr. Dieses Geld wurde in Server für KI-gestützte Incident-Zusammenfassungen und automatische Code-Korrekturen reinvestiert, was die Servicequalität verbesserte
- Auf Basis des MicroK8s- + Ceph-Stacks wurden 99,993 % Verfügbarkeit gehalten und durch eine Architektur mit zwei Rechenzentren Single Points of Failure beseitigt
- Zentrale Themen wie tatsächliche Betriebskosten, Störungsbehebung, Hardware-Lebensdauer, Sicherheitszertifizierungen und Cloud-Alternativen werden mit konkreten Zahlen erläutert
- Das Ergebnis: Sowohl Stabilität als auch Kosteneffizienz wurden verbessert, und für Systeme mit dauerhafter Last ab einer gewissen Größenordnung sei Bare Metal die sinnvollere Wahl
Zusammenfassung der Betriebsergebnisse nach 2 Jahren
- Der MicroK8s- + Ceph-Stack lief 24 Monate in Produktion und erreichte 99,993 % Verfügbarkeit
- Um ein einzelnes Rack als Problemquelle zu vermeiden, wurde in Frankfurt ein zweites Rack ergänzt und mit dem Hauptrack in Paris per redundanter DWDM-Anbindung verbunden
- Durch lokales NVMe und die Beseitigung von Noise-Interference sank die Latenz für Kunden um 19 %
- Die eingesparten Kosten wurden in Bare-Metal-KI-Server reinvestiert, um OneUptimes LLM-basierte Alert-Zusammenfassungen und automatische Code-Korrekturfunktionen auszubauen
Einsparungen und Kostenvergleich
- Die anfänglich erwartete Einsparung lag bei 230.000 US-Dollar pro Jahr, inzwischen sind es mehr als 1,2 Mio. US-Dollar
- Das entspricht gegenüber AWS einer Ersparnis von etwa 76 %
- Bezogen auf globale Gehaltsniveaus entspricht das den Jahresgehältern von 2 bis 5 Engineers
- Selbst mit Savings Plans / Reserved Instances bleibt Bare Metal im Vorteil
- Savings Plans gelten nicht für Kosten von S3, Egress oder Direct Connect
- Auch Kosten wie 1.260 US-Dollar/Monat für die EKS Control Plane oder 600 US-Dollar/Monat für NAT Gateways lassen sich dadurch nicht senken
- Bei 24/7-Dauerlast-Workloads (steady) war der Nutzen von Reserved Instances begrenzt
Migration und Betriebskosten
- Die anfängliche Migration war mit etwa einer Woche Engineering-Aufwand abgeschlossen
- Ein Großteil davon waren ohnehin nötige Arbeiten wie die Bereinigung von IaC und die Stärkung der Backup-Richtlinien
- Die aktuellen Betriebskosten sehen wie folgt aus:
- Direkte Verwaltung: etwa 24 Stunden pro Quartal (inklusive Patches und Firmware-Updates)
- Remote Hands: In 24 Monaten waren nur 2 Eingriffe nötig (vor allem wegen Festplattenproblemen), mit einer durchschnittlichen Reaktionszeit von 27 Minuten
- Automatisierung: PXE-Boot (Tinkerbell), Talos-Image-Management, automatisierte Konfiguration mit Flux/Terraform
- Das Betriebsteam konnte im Vergleich zur AWS-Zeit sogar die Release-Geschwindigkeit steigern; zudem entfiel die Last ständiger „Kostenoptimierungs-Meetings“
Ausfallschutz und Verfügbarkeit
- Durch ein zweites Rack in Frankfurt und redundante DWDM-Pfade wurden Single Points of Failure eliminiert
- Dazu kommen Ceph-Mirroring auf Basis asynchroner Replikation und eine doppelte Control Plane
- Ein zusätzlicher 4G-/satellitengestützter Managementpfad ermöglicht Remote-Zugriff bei Netzwerkausfällen
- Der Wechsel von MicroK8s zu Talos ist im Gange
- Ein AWS-Failover-Backup-Cluster wird weiterhin vorgehalten; außerdem gibt es vierteljährliche Disaster-Recovery-Proben
- Mit Anycast- + BGP-basiertem Ingress wurde auch die Verzögerung bei DNS-Umschaltungen auf unter 1 Minute reduziert
- Über zwei Jahre hinweg wurde eine Verfügbarkeit von 99,993 % gehalten, ohne von jüngsten AWS-Region-Ausfällen betroffen zu sein
Hardware und CapEx-Management
- Die Server werden auf Basis von 5 Jahren Abschreibung betrieben (2×EPYC 9654, 1 TB RAM, NVMe-Konfiguration)
- Bei Leistungssättigung werden sie in einen Analyse-Cluster verschoben und durch neue Server ersetzt
- Dank der Einsparungen ist nun alle 2 Jahre ein 40-%-Refresh möglich, bei weiterhin geringeren Jahreskosten als bei AWS
- Es gibt eine verlängerte Supermicro-Garantie sowie 3 Reserve-Server
- Die reale Lebensdauer liegt bei 7 bis 8 Jahren, konservativ wird aber mit 5 Jahren gerechnet
Logik hinter dem Ersatz gemanagter Services
- Die Produktphilosophie von OneUptime setzt auf Self-Hosting-Fähigkeit, weshalb derselbe Stack beibehalten werden muss
- Konsistenz eines offenen Stacks mit Kubernetes, Postgres, Redis, ClickHouse usw. bleibt erhalten
- Die Architektur entwickelte sich von Terraform + EKS + RDS zu MicroK8s + Argo Rollouts + Ceph
- Genutzt wird reines Open Source ohne eigene Forks
- Cloud wird weiterhin parallel genutzt: AWS Glacier (Backups), CloudFront (Edge-Caching), temporäre Instanzen für Lasttests
- Die Cloud eignet sich eher für Elastizität, Bare Metal eher für Grundlast
Netzwerk und Sicherheit
- Zwei Leitungen mit 5 Gbit/s (95th percentile) stehen zur Verfügung und sind beim AWS-Egress 8-mal günstiger
- Der DDoS-Schutz wird durch eine vollständige Vorschaltung von Cloudflare umgesetzt
- Ein separates 4G-/satellitengestütztes Managementnetz ermöglicht Remote-Zugriff im Störfall
Compliance und Audit-Fähigkeit
- Die Zertifizierungen SOC 2 Type II und ISO 27001 werden aufrechterhalten
- Dabei werden Unterlagen des Colocation-Rechenzentrums zu Tier-III-Zertifizierung, Zutrittslogs und CCTV genutzt
- Terraform-/Talos-Konfigurationslogs dienen als Nachweis für Änderungshistorien
- Auditoren hätten dies als vertrauenswürdiger bewertet als Screenshots aus der AWS-Konsole
Vergleich mit Cloud-Alternativen
- Verglichen wurden Hetzner, OVH, Leaseweb, Equinix Metal und AWS Outposts
- Bei Hyperscalern sind die Egress-Kosten weiterhin hoch
- Europäische Hoster erfüllen die Anforderungen an große Ceph-Cluster und SLA-Vorgaben nur schwer
- Bei Equinix Metal besteht ein Premium von 25–30 % gegenüber CapEx
- Der Betrieb eigener Hardware ist bei Leistungsdichte und Upgrade-Freiheit im Vorteil
- Insgesamt war Colocation dank 15-kW-Rack-Konfiguration und Wiederverwendung von Komponenten sowohl bei Kosten als auch Performance überlegen
Messung des operativen Mehraufwands (TOIL)
- Wöchentlich: Kernel-/Firmware-Patches und Ceph-Prüfungen (1 Stunde)
- Monatlich: Canary-Upgrades der Kubernetes Control Plane (2 Stunden)
- Vierteljährlich: DR-Übungen, Kapazitätsplanung, Prüfung von Carrier-Verträgen (12 Stunden)
- Insgesamt rund 14 Stunden pro Monat — ähnlich wie zu AWS-Zeiten, aber mit einem Fokuswechsel von „Kostentracking“ zu „Betriebsautomatisierung“
Wann Cloud weiterhin sinnvoll ist
- Wenn Workloads spitzenlastig sind oder saisonalen Mustern folgen
- Wenn die Abhängigkeit von gemanagten Services wie Aurora Serverless, Kinesis oder Step Functions hoch ist
- Wenn die Kapazität fehlt, Kubernetes, Ceph, Monitoring und Incident Response selbst zu betreiben
- Das heißt: Für frühe Phasen oder Geschäftsmodelle mit stark variabler Last hat die Cloud weiterhin Vorteile
Ausblick
- Geplant ist die Veröffentlichung eines Terraform-Moduls und eines Runbooks für die Budgetprognose von Colocation
- Außerdem ist ein technischer Deep-Dive zum Betrieb auf Talos in Vorbereitung
- Man will weiterhin auf Feedback aus HN und Reddit reagieren und praxisnahe Beispiele mit realen Zahlen teilen
3 Kommentare
Zwei Jahre nach der Migration von AWS auf Bare Metal: Antworten auf Fragen zum AWS-Ausstieg
Ich arbeite bei einem Unternehmen, das AWS mit großer Begeisterung nutzt, obwohl wir keinerlei Services verwenden, die nur bei AWS verfügbar sind.
Eine zugleich bittere und absurde Geschichte darüber, wie ich miterlebt habe, dass auf diese Entscheidung stark ein äußerst persönliches Motiv einiger Führungskräfte einwirkte: ihre eigene Karriereentwicklung.
Hacker-News-Kommentare
AWS ist zu teuer. Es gibt seltener als gedacht einen guten Grund, ein komplettes System vollständig auf AWS aufzubauen. Früher konnte praktisch jedes Team Bare-Metal-Server selbst betreiben, heute scheint das fast vergessen. Unser Team hat über 730 Tage hinweg 99,993 % Verfügbarkeit gehalten und ist auch den jüngsten AWS-Region-Ausfällen entgangen. Wir nutzen zwar Cloudflare zur DDoS-Abwehr, und ich verstehe, dass DNS oder Ingress-Management zu einem Fulltime-Job werden kann. Aber ein paar Microservices und eine DB kann man durchaus selbst betreiben. Für die meisten Unternehmen ist AWS schlicht überteuert
Die frühe Cloud begann als einfacher und kosteneffizienter Service, heute ist sie ein Geflecht aus mehr als 200 komplexen Diensten. Wenn man es nicht aktiv steuert, explodieren die Kosten
Die eigentliche Funktion von AWS ist: (1) Es ermöglicht organisatorische Skalierung und Machtstrukturen, (2) es erlaubt, statt als CapEx als OpEx zu bilanzieren, und (3) es kaschiert inkompetente Personalstrukturen. Früher konnte man ein Rechenzentrum mit 5 bis 10 Leuten betreiben, heute entstehen DevOps-Organisationen mit 3000 Mitarbeitern
Der Schlüssel zu diesem Erfolg ist eine konstante 24/7-Grundlast. Die meisten Unternehmen haben in der Praxis ein sehr ähnliches Muster
Elastizität vs. Grundlast ist der Kernpunkt. Nur wenn es wie bei der Datenerfassung zu explosionsartigen Traffic-Spitzen kommt, spielt die Cloud ihre Vorteile aus. In den meisten Fällen ist Bare Metal besser
In den 2010ern waren Hardware und Netzwerk langsam, heute haben sich CPU-Leistung und Effizienz um Hunderte Male verbessert. Wofür früher 64 Server nötig waren, reicht heute einer. Künftig könnte das Verhältnis sogar 100:1 erreichen. Unter solchen Bedingungen schwinden die Vorteile der Cloud immer mehr
Aus Sicht eines Amazon-Mitarbeiters ist selbstverwaltetes Kubernetes viel zu riskant. Komponenten wie
etcdsind instabil, und wir mussten sogar selbst patchen. Das im Artikel beschriebene Self-Hosting unterschätzt die RisikenViele Startups hätten bei den AWS-Preisen vermutlich gar nicht erst existieren können. Etwas wie kostenlose GeoIP-Downloads (Link) wäre zum Beispiel unmöglich gewesen. Die Cloud ist langsam, und Disk-Latenz sowie CPU-Überbelegung sind gravierend. Unter 10.000 Dollar im Monat ist das noch okay, darüber ist Bare Metal viel effizienter
Auch das Unternehmen, in dem ich gearbeitet habe, hatte wenig Traffic und wollte trotzdem zu AWS migrieren. Der Grund war simpel: Man wollte AWS im Lebenslauf stehen haben. Das galt nicht nur für Entwickler, sondern auch für das Management. „Leitung einer AWS-Migration“ sah eben gut im CV aus. Am Ende wurde das Unternehmen verkauft und das Büro stand leer. Vielleicht wird „AWS hinter sich gelassen“ jetzt der nächste Karrierepunkt
Am Ende zählt vor allem, was man eigentlich erreichen will