- Fire-Flyer File System (3FS) ist ein hochperformantes verteiltes Dateisystem, das für AI-Trainings- und Inferenz-Workloads entwickelt wurde
- Es nutzt moderne SSDs und RDMA-Netzwerke, um eine gemeinsam genutzte Storage-Schicht bereitzustellen und die Entwicklung verteilter Anwendungen zu vereinfachen
Hauptmerkmale und Vorteile
- Leistung und Benutzerfreundlichkeit
- Entkoppelte Architektur: Kombiniert die Netzwerkbandbreite von Tausenden SSDs und Hunderten Storage-Knoten, sodass unabhängig von der Datenlokalität auf Storage-Ressourcen zugegriffen werden kann
- Starke Konsistenzgarantien: Nutzt Chain Replication with Apportioned Queries (CRAQ), um Konsistenz sicherzustellen und den Anwendungscode zu vereinfachen
- Unterstützung von Dateischnittstellen: Bietet einen zustandslosen Metadatenservice auf Basis eines transaktionalen Key-Value-Stores mit FoundationDB. Da bestehende Dateischnittstellen verwendet werden, muss keine neue Storage-API erlernt werden
- Unterstützung für verschiedene Workloads
- Datenvorbereitung: Organisiert die Ausgaben von Datenanalyse-Pipelines in einer hierarchischen Verzeichnisstruktur und verwaltet große Mengen an Zwischenergebnissen effizient
- Optimierung des Data Loaders: Ermöglicht Random Access auf Trainings-Samples von mehreren Compute-Knoten aus, ohne Datensätze vorab laden oder mischen zu müssen
- Speicherung von Checkpoints: Unterstützt schnelles paralleles Speichern von Checkpoints für großskaliges Training
- Optimierung der Inferenz auf Basis von KVCache: Kosteneffizienter als DRAM-basiertes Caching und ermöglicht hohen Durchsatz sowie große Speicherkapazität
Performanztests
- Test des maximalen Durchsatzes
- 180 Storage-Knoten (jeweils mit 2×200Gbps-InfiniBand-NICs und 16 14TiB NVMe-SSDs)
- Mehr als 500 Client-Knoten (jeweils mit 1×200Gbps-InfiniBand-NIC)
- In einem parallel zu AI-Trainingsjobs ausgeführten Lese-Lasttest wurde ein Gesamtdurchsatz von 6.6TiB/s erreicht
- GraySort-Benchmark-Test
- 25 Storage-Knoten (pro Knoten 2 NUMA-Domänen, 2×400Gbps NIC)
- 50 Compute-Knoten (192 physische Kerne, 2.2TiB RAM, 1×200Gbps NIC)
- 110.5TiB Daten (8.192 Partitionen) wurden in 30 Minuten 14 Sekunden sortiert, bei einem durchschnittlichen Durchsatz von 3.66TiB/min
- KVCache-Leistungstest
- Minimierung unnötiger Berechnungen durch Caching von Key-Value-Vektoren im Inferenzprozess großer Sprachmodelle (LLMs)
- Spitzen-Lesedurchsatz von 40GiB/s
- Einschließlich Analyse der Lösch-Performance (IOPS) während der Ausführung der Garbage Collection (GC)
- Kennzeichen sind hochperformante Datenverarbeitung, große Skalierbarkeit und einfacher Betrieb
- Hochperformante Datenverarbeitung: Schnelle Datenverarbeitung mit DuckDB
- Unterstützung großer Datensätze: Verarbeitung von Daten im Petabyte-(PB)-Maßstab möglich
- Einfacher Betrieb: Leicht nutzbar, ohne langlaufende Services
Noch keine Kommentare.