6 Punkte von GN⁺ 2024-02-21 | 1 Kommentare | Auf WhatsApp teilen
  • In den letzten Jahren haben flashbasierte SSDs in den meisten Speicheranwendungsfällen Festplatten ersetzt
  • SSDs bestehen aus mehreren unabhängigen Flash-Chips, die parallel zugänglich sind
  • Die Leistung von SSDs hängt vor allem von der Interface-Geschwindigkeit zum Host ab
  • In den letzten sechs Jahren ist die Anbindung schnell von SATA auf PCIe 3.0, PCIe 4.0 und PCIe 5.0 gewechselt, wodurch die SSD-Durchsatzraten explosionsartig gestiegen sind
  • Neben der Leistungssteigerung ist auch die Kapazität pro Dollar gestiegen
  • Diese Entwicklung ist auf offene Standards wie NVMe und PCIe, die enorme Nachfrage und den Wettbewerb zwischen Anbietern zurückzuführen
  • Aktuelle PCIe-5.0-Datacenter-SSDs erreichen bis zu 13 GB/s Lese-Durchsatz und über 2,7 Millionen zufällige Lese-IOPS
  • Moderne Server verfügen über etwa 100 PCIe-Lanes, sodass pro Server mehrere SSDs mit voller Bandbreite betrieben werden können

Stagnation der SSD-Performance in der Cloud

  • AWS EC2 brachte Anfang 2017 die i3-Instanz mit den ersten NVMe-SSDs auf den Markt
  • Damals waren NVMe-SSDs teuer, und es war bemerkenswert, dass ein Server mit 8 dieser Laufwerke ausgestattet wurde
  • Sieben Jahre später verharrt die Leistung jedoch bei rund 2 GB/s pro SSD
  • Die i3- und i3en-Instanzen sind nach wie vor die besten Optionen bei IO/$ und SSD-Kapazität/$, die EC2 anbietet
  • Der Leistungsabstand zwischen den von Cloud-Anbietern bereitgestellten SSDs und modernen SSDs nähert sich bei Leserate, Schreibrate und IOPS fast dem Faktor 10
  • Diese Stagnation in der Cloud steht im Gegensatz zu großen Fortschritten in anderen Bereichen
  • So stieg die EC2-Netzwerkbandbreite von 2017 bis 2023 explosionsartig von 10 Gbit/s auf 200 Gbit/s
  • Es gibt verschiedene Spekulationen darüber, warum Cloud-Anbieter im Bereich Storage nicht vorankommen
    • Eine Theorie ist, dass EC2 absichtlich die Schreibgeschwindigkeit auf 1 GB/s begrenzt, um Gerätenausfälle zu vermeiden
    • Die Möglichkeit, dass es nicht genug Nachfrage nach schnellem Storage gibt, um Optimierungsanreize im System zu schaffen, ist ebenfalls denkbar
    • Eine weitere Theorie lautet, dass schnelle und günstige NVMe-Instanzspeicher das Kostenmodell anderer Speicherangebote wie EBS stören könnten
  • Der Autor hofft, bald eine Cloud-Instanz mit 10-GB/s-SSDs zu sehen

GN⁺-Meinung

  • Trotz des rasanten Fortschritts bei SSDs zeigt die Unfähigkeit von Cloud-Anbietern, mit diesem Tempo mitzuhalten, verschiedene Marktanforderungen und technische Grenzen wider
  • Die Stagnation bei Cloud-Speicherleistung kann mit den Nutzererwartungen an Kosteneffizienz und Servicequalität kollidieren und die Wettbewerbsfähigkeit in der Cloud-Branche beeinflussen
  • Der Artikel liefert für Nutzer und Anbieter von Cloud Computing wichtige Einblicke und unterstreicht die Notwendigkeit schnellerer Speichersysteme und technischer Fortschritte

1 Kommentare

 
GN⁺ 2024-02-21
Hacker News-Kommentare
  • Diskussion über technische Probleme in der Cloud

    • Ich habe bei Google an einem grundlegenden Problem der Cloud gearbeitet. Dieses Problem ist ein wichtiger Faktor, der die Richtung der Technologie mitbestimmt.
    • Die SSDs in der Cloud sind über das Netzwerk angebunden, was unerlässlich ist. Das Netzwerk ist jedoch zu groß und zu langsam, um die Leistung lokaler SSDs zu liefern.
    • Bei Festplatten war das kein Problem, bei SSDs jedoch schon, da sie im Vergleich zum Netzwerk deutlich schneller sind.
  • Erklärung der AWS-Nitro-SSD-Architektur

    • AWS-Dokumentation und -Blog erklären die Nitro-SSD-Architektur. Die SSD ist physisch über PCIe mit dem System-Mainboard verbunden, aber logisch vom Mainboard isoliert, auf dem die Workloads der Kunden ausgeführt werden.
    • Um die Lebensdauer eines SSD-Laufwerks maximal auszunutzen, übernimmt die Firmware ein sogenanntes "Wear Leveling". Dieser Prozess umfasst eine Art Garbage Collection, wodurch eine normale SSD bei vielen Schreibvorgängen zu unvorhersehbaren Zeiten langsamer werden kann. AWS hat jedoch sein Datenbank-Know-how genutzt und in die SSD-Firmware eine äußerst ausgefeilte, stromausfallsichere, journalbasierte Datenbank integriert.
  • Erfahrungen mit den IOPS von Cloud-Instanzen

    • Die Werte der 'provisioned IOPS' von Cloud-Instanzen sind so niedrig, dass ich überrascht war. Das bedeutet, dass viele Menschen, vor allem die jüngere Generation, die nur Cloud-Instanzen erlebt haben, nicht wirklich wissen, wie viel Leistung in ein oder zwei RUs passt.
    • Die hohe Geschwindigkeit von NVMe-Speicher ist Teil der beeindruckenden Technologie unserer Zeit.
  • Meinung eines Mitarbeiters bei OCI

    • OCI bietet in Instanzen schnellere NVMe-Drives. Das E4 Dense-Modell nutzt die Samsung MZWLJ7T6HALA-00AU3 und unterstützt 7000 MB/s sequentielles Lesen und 3800 MB/s sequentielles Schreiben.
    • Der wahrscheinlichste Grund, warum AWS derzeit keine noch schnelleren NVMe-Laufwerke bereitstellt, ist, dass der konkrete Bedarf dafür nicht groß genug ist. Das ist zwar Spekulation, aber typischerweise wird ein Upgrade deutlich verschoben, wenn die Nachfrage dafür nicht ausreichend ist.
  • Argumente für den Ausstieg aus der Cloud

    • Moderne NVMe- und Core-Zahlen liefern starke Gründe, die Cloud zu verlassen. Diese Geschwindigkeiten sind dem RAM so nahe, dass klar ist, dass Daten sicher auf der Platte untergebracht werden können, was die Komplexität reduziert.
    • Mit nur einem starken Server kann man selbst für Caching, Berechnung und Serving zuständig sein, was viele Workloads vereinfacht.
  • Kritik an der Cloud-Optimierung

    • Das Problem ist nicht die Bandbreite, sondern die IOPS. Bei einem Benchmark mit zufälligen I/O zeigt sich bei der Cloud ein Random-IOPS-Verhalten, das eher dem einer großen spinning RAID-Anordnung ähnelt als dem einer SSD.
    • Ein Grund dafür, dass sich Cloud-Optimierung schwer ernsthaft umsetzen lässt, ist, dass Datenbank- und andere Workloads oft nicht optimal ausgelegt sind und dadurch sehr teuer werden können.
  • Diskussion zu AWS NVMe-Instanztypen

    • Mehrere NVMe-Instanztypen wie i4i und im4gn wurden eingeführt, aber die Leistung ist nicht gestiegen. Sieben Jahre nach dem Start von i3 liegt sie noch bei 2 GB/s pro SSD.
    • AWS Marketing behauptet:
      • Bis zu 800.000 zufällige Schreib-IOPS
      • Bis zu 1.000.000 zufällige Lese-IOPS
      • Bis zu 5600 MB/s sequentielles Schreiben
      • Bis zu 8000 MB/s sequentielles Lesen
  • Persönliche Wahl einer Hybrid-SSD-Konfiguration

    • Durch die Kombination von X-25E 64GB aus 2011 und PM897 3.7TB aus 2021 lässt sich die robusteste Lösung und die größte Datenbank mit dem geringsten Stromverbrauch erreichen.
  • Vermutung über Leistungsbegrenzungen bei Cloud-Services

    • Möglicherweise halten Cloud-Services die Performance niedrig, weil die Nachfrage nicht hoch ist, was "Tricks" in der Virtualisierungsschicht ermöglicht.
  • Überlegungen zu SSD-Kosten

    • Die schnellsten SSDs neigen dazu, MLC-Technologie einzusetzen, die im Vergleich zu anderen Technologien eine deutlich geringere Schreiblebensdauer aufweist.
    • Eine höhere Datendichte erleichtert zwar die Leistungssteigerung, aber da Schreiben auf Block-/Zell-Ebene stattfindet, kann ein einzelnes schlechtes Zellverhalten dazu führen, dass alle Zellen ausfallen.
    • Die Einführung neuer Technologien in den Stack und das kostengünstige Upgrade der Fleet kann problematisch sein.