DeepSeek Open Infra: 5 KI-Repositories in 5 Tagen als Open Source veröffentlicht

(github.com/deepseek-ai)

9 Punkte von GN⁺ 2025-02-22 | 2 Kommentare | Auf WhatsApp teilen

Das DeepSeek-AI-Team arbeitet daran, bei der Erforschung von AGI Grenzen zu überschreiten
Ab nächster Woche sollen 5 Repositories als Open Source veröffentlicht werden, um kleine Fortschritte als Entwickler transparent zu teilen
Dabei handelt es sich um Grundbausteine von Online-Diensten: dokumentierter und bereitgestellter Code, der in realen Umgebungen getestet wurde
Jeden Tag soll neuer Code veröffentlicht werden, um gemeinschaftsgetriebene Innovation zu fördern

Day 1: FlashMLA

Effizienter MLA-Decoding-Kernel für Hopper-GPUs
Optimiert für das Serving von Sequenzen variabler Länge
Derzeit veröffentlicht
- BF16
- Paged kvcache mit 64 Blockgröße
Benchmark: Mit CUDA 12.6 wurden auf H800 SXM5 in speichergebundenen Konfigurationen bis zu 3000GB/s und in rechengebundenen Konfigurationen 580 TFLOPS erreicht

Day 2: DeepEP

Hochleistungs-Kommunikationsbibliothek für Mixture-of-Experts(MoE) und Expert Parallelism(EP)
Bietet GPU-basierte All-to-All-Kernel, um MoE-Dispatch- und Kombinationsoperationen mit hoher Geschwindigkeit zu verarbeiten
Unterstützung für Low-Precision-Berechnungen wie FP8
Verwendet den im DeepSeek-V3-Paper vorgeschlagenen group-limited gating-Algorithmus, um asymmetrisches Domain-Bandwidth-Forwarding zu optimieren
- Beispiel: Optimierung der Datenübertragung NVLink → RDMA
- Bietet hohen Durchsatz für Training und Inference Prefilling
Enthält RDMA-spezifische Low-Latency-Kernel für latenzsensitive Inference-Decoding-Aufgaben
Bietet Kommunikations-Rechen-Overlap-Techniken (belegen keine SM-Ressourcen)

Day 3: DeepGEMM

Bibliothek zur effizienten Ausführung von FP8-Matrixmultiplikation (GEMM) und unterstützt das in DeepSeek-V3 vorgeschlagene Verfahren des fine-grained scaling
Unterstützt sowohl allgemeines GEMM als auch Mix-of-Experts(MoE) grouped GEMM
CUDA-basiert implementiert; beim Installieren ist keine separate Kompilierung nötig, da ein leichtgewichtiges Just-In-Time(JIT)-Modul Kernel zur Laufzeit kompiliert
Derzeit nur für NVIDIA Hopper Tensor Cores verfügbar
Verwendet CUDA-Core-basiertes dual accumulation (promotion), um ungenaue Akkumulationsoperationen der FP8 Tensor Cores auszugleichen
Nutzt einige Konzepte aus CUTLASS und CuTe, reduziert jedoch komplexe Template-Abhängigkeiten und hat dadurch ein einfaches Design mit nur etwa 300 Zeilen Kernel-Code
Gut geeignet, um Hopper-FP8-Matrixoperationen und Optimierungstechniken zu lernen
Zeigt trotz leichtgewichtigem Design bei verschiedenen Matrixgrößen eine ähnliche oder bessere Leistung als auf Expertenniveau getunte Bibliotheken

Day 4: Optimierte Parallelisierungsstrategien: DualPipe, EPLB, Profile-Data

Strategien und Code, die in DeepSeek V3/R1 verwendet wurden
- DualPipe: bidirektionaler Pipeline-Parallelisierungsalgorithmus für Rechen-Kommunikations-Overlap
- EPLB: Expert-Parallel-Load-Balancer
- Profile-Data: Datenprofiling der DeepSeek-Infrastruktur zur Analyse von Rechen-Kommunikations-Overlap

Day 5: 3FS-Dateisystem und Smallpond-Datenverarbeitungs-Framework

Das Fire-Flyer File System(3FS) ist ein hochleistungsfähiges verteiltes Dateisystem, das für KI-Trainings- und Inference-Workloads entwickelt wurde
Es nutzt moderne SSDs und RDMA-Netzwerke, um eine gemeinsame Storage-Schicht bereitzustellen und die Entwicklung verteilter Anwendungen zu vereinfachen
Wichtige Merkmale und Vorteile
- Leistung und Bedienbarkeit
  - Entkoppelte Architektur: Zugriff auf Storage-Ressourcen unabhängig von Lokalität durch Bündelung der Netzwerkbandbreite von Tausenden SSDs und Hunderten Storage-Knoten
  - Starke Konsistenzgarantie: Verwendet Chain Replication with Apportioned Queries(CRAQ), um Konsistenz zu wahren und Anwendungscode zu vereinfachen
  - Unterstützung für Dateischnittstellen: Bietet einen zustandslosen Metadaten-Service auf Basis eines transaktionalen Key-Value-Stores mit FoundationDB. Da bestehende Dateischnittstellen verwendet werden, ist keine neue Storage-API zu erlernen
- Unterstützung für verschiedene Workloads
  - Datenvorbereitung: Organisiert die Ausgaben von Datenanalyse-Pipelines in einer hierarchischen Verzeichnisstruktur und verwaltet große Mengen an Zwischenausgaben effizient
  - Optimierung des Data Loaders: Ermöglicht zufälligen Zugriff auf Trainingssamples von mehreren Compute-Knoten aus, ohne Datensätze vorab laden oder mischen zu müssen
  - Checkpoint-Speicherung: Unterstützt schnelles paralleles Speichern von Checkpoints für großskaliges Training
  - Optimierung von KVCache-basierter Inference: Kosteneffizienter als DRAM-basiertes Caching und ermöglicht hohen Durchsatz sowie große Speicherkapazität
SmallPond - Leichtgewichtiges Datenverarbeitungs-Framework, aufgebaut auf DuckDB und 3FS
- Kennzeichen sind hochleistungsfähige Datenverarbeitung, Skalierbarkeit im großen Maßstab und einfacher Betrieb
  - Hochleistungsfähige Datenverarbeitung: Schnelle Datenverarbeitung mit DuckDB
  - Unterstützung großer Datensätze: Verarbeitung von Daten im Petabyte(PB)-Maßstab möglich
  - Einfacher Betrieb: Leicht nutzbar ohne dauerhaft laufende Dienste

Day 6: Offenlegung von Aufbau des Inference-Systems von V3/R1 sowie Betriebs- und Erlöskosten

Prinzipien des Systemdesigns: Das Optimierungsziel des DeepSeek-V3/R1-Inference-Systems sind höherer Durchsatz und geringere Latenz
- Dafür wird Cross-Node Expert Parallelism(EP) zur Optimierung eingesetzt
DeepSeek-Betriebskosten
- Im Durchschnitt 226 GPU-Knoten (8 H800-GPUs pro Knoten)
- Tägliche Betriebskosten: $87,072 (127 Mio. KRW) - $2/Stunde pro H800
- Theoretischer Tagesumsatz (basierend auf R1): $562027 (820 Mio. KRW) → Marge 545%
- Der tatsächliche Umsatz liegt jedoch niedriger (da V3 günstiger als R1 ist und nur ein Teil des Dienstes monetarisiert wurde)

KI-Infrastruktur-Paper 2024 (SC24)

Fire-Flyer AI-HPC: Kosteneffizientes Software-Hardware-Codesign für Deep Learning

Durch die rasante Entwicklung von Deep Learning(DL) und Large Language Models(LLM) steigen die Anforderungen an Rechenleistung und Bandbreite exponentiell
Die Kosten für den Aufbau von High Performance Computing(HPC) steigen stark wegen der hohen Preise schneller Compute-Chips und Hochgeschwindigkeits-Interconnects
Um dies zu lösen, wurde die Fire-Flyer AI-HPC-Architektur eingeführt, die auf kooperativem Hardware-Software-Design basiert und Kosten- sowie Leistungsoptimierung erreicht
- Aufbau des Fire-Flyer-2-Systems mit 10.000 PCIe-A100-GPUs für DL-Training
- Liefert ähnliche Leistung wie DGX-A100, halbiert dabei die Kosten und senkt den Energieverbrauch um 40%
Elemente der Leistungsoptimierung
- HFReduce: Beschleunigt Allreduce-Kommunikation und verbessert die Geschwindigkeit der Datensynchronisierung zwischen GPUs
- Computation-Storage Integrated Network: Setzt verschiedene Verfahren zum Congestion Management ein, um Netzwerkengpässe zu vermeiden
- Software-Stack: HaiScale, 3FS, HAI-Platform maximieren die Skalierbarkeit, indem Berechnung und Kommunikation überlappend ausgeführt werden

2 Kommentare

xguru 2025-02-23

DeepSeek sorgt wirklich weiter für spannende Entwicklungen. Ich bin gespannt, was alles veröffentlicht wird.

GN⁺ 2025-02-22

Hacker-News-Kommentare

Ich frage mich, ob ich der Einzige bin, der sich zwar auf die Veröffentlichung von DeepSeek freut, sie aber nicht überanalysiert. Dieser Thread wirkt voller persönlicher Deutungen
- DeepSeek ist immer noch ein Unternehmen. Ein großartiger Release, aber die Erwartungen und Motive scheinen überhöht zu sein
- Die Formulierung „pure garage energy“ gefällt mir
- Am meisten freue ich mich auf ihren Inferenz-Stack. Die meisten Leute führen R1 auf einem einzelnen H200-Knoten aus, aber DeepSeek kam für Inferenz mit deutlich weniger RAM pro GPU aus und setzte auf clusterbasierte MoE-Bereitstellung
- Interessanter als OpenAIs 12 Tage Weihnachten
Ab nächster Woche wollen sie fünf Repos als Open Source veröffentlichen. Eines pro Tag
- Man kann das als Ankündigung einer Ankündigung sehen. Wahrscheinlich sollte man erst diskutieren, wenn die eigentlichen Repos veröffentlicht sind, weil es keine Details dazu gibt, was Open Source werden soll
- Das sind bescheidene Bausteine eines Online-Service. Sie sind dokumentiert, ausgerollt und in realen Umgebungen getestet
Tiefer Respekt für DeepSeeks Innovation und Forschung. Für alles, was sie veröffentlicht haben
- Die Formulierung „Jede geteilte Zeile wird zu kollektivem Momentum, das die Reise beschleunigt. Die täglichen Freischaltungen beginnen bald. Keine Elfenbeinturm-Mentalität, sondern pure garage energy und community-getriebene Innovation“ gefällt mir
Tatsächlich zerlegen sie OpenAI gerade komplett. Wahrscheinlich unabhängig von ihrer Absicht
- LLMs waren ein legitimeres „Blockchain“ als die meisten CIO-Magazine, als sie Essays mit dem Titel „Was ist Ihre Blockchain-Strategie?“ brachten
- Die AI-Blase wird platzen, und zwar spätestens bis Ende 2026
Es ist interessant zu sehen, wo im AI-Bereich der Burggraben liegt. Gute Basismodelle lassen sich immer destillieren, wenn man Zugriff auf die API hat. System Prompts können geleakt werden, UI-Tricks lassen sich kopieren. Am Ende könnte der Burggraben in Hardware und vertikaler Integration liegen
Können DeepSeek und OpenAI vielleicht die Namen tauschen?
Infrastruktur-Tools als Open Source zu veröffentlichen, könnte Innovation im AI-Bereich wirklich beschleunigen. Zugang zu gut dokumentierten Repos macht es viel einfacher, mit bestehender Arbeit zu experimentieren und darauf aufzubauen
- Ich frage mich, ob diese Repos auf bestimmte Bereiche wie verteiltes Training oder Model Serving fokussiert sind
Ich frage mich, wie die Bewertungen von Foundation-Model-Unternehmen konkurrieren können, wenn Facebook und DeepSeek Open Source so konsequent vorantreiben. Es scheint nicht so, als würde der Aufbau dieser Modelle Hunderte Milliarden Dollar an Wert schaffen, wenn China und Facebook den Großteil davon im Wesentlichen kostenlos bereitstellen