9 Punkte von GN⁺ 2025-02-22 | 2 Kommentare | Auf WhatsApp teilen
  • Das DeepSeek-AI-Team arbeitet daran, bei der Erforschung von AGI Grenzen zu überschreiten
  • Ab nächster Woche sollen 5 Repositories als Open Source veröffentlicht werden, um kleine Fortschritte als Entwickler transparent zu teilen
  • Dabei handelt es sich um Grundbausteine von Online-Diensten: dokumentierter und bereitgestellter Code, der in realen Umgebungen getestet wurde
  • Jeden Tag soll neuer Code veröffentlicht werden, um gemeinschaftsgetriebene Innovation zu fördern

Day 1: FlashMLA

  • Effizienter MLA-Decoding-Kernel für Hopper-GPUs
  • Optimiert für das Serving von Sequenzen variabler Länge
  • Derzeit veröffentlicht
    • BF16
    • Paged kvcache mit 64 Blockgröße
  • Benchmark: Mit CUDA 12.6 wurden auf H800 SXM5 in speichergebundenen Konfigurationen bis zu 3000GB/s und in rechengebundenen Konfigurationen 580 TFLOPS erreicht

Day 2: DeepEP

  • Hochleistungs-Kommunikationsbibliothek für Mixture-of-Experts(MoE) und Expert Parallelism(EP)
  • Bietet GPU-basierte All-to-All-Kernel, um MoE-Dispatch- und Kombinationsoperationen mit hoher Geschwindigkeit zu verarbeiten
  • Unterstützung für Low-Precision-Berechnungen wie FP8
  • Verwendet den im DeepSeek-V3-Paper vorgeschlagenen group-limited gating-Algorithmus, um asymmetrisches Domain-Bandwidth-Forwarding zu optimieren
    • Beispiel: Optimierung der Datenübertragung NVLink → RDMA
    • Bietet hohen Durchsatz für Training und Inference Prefilling
  • Enthält RDMA-spezifische Low-Latency-Kernel für latenzsensitive Inference-Decoding-Aufgaben
  • Bietet Kommunikations-Rechen-Overlap-Techniken (belegen keine SM-Ressourcen)

Day 3: DeepGEMM

  • Bibliothek zur effizienten Ausführung von FP8-Matrixmultiplikation (GEMM) und unterstützt das in DeepSeek-V3 vorgeschlagene Verfahren des fine-grained scaling
  • Unterstützt sowohl allgemeines GEMM als auch Mix-of-Experts(MoE) grouped GEMM
  • CUDA-basiert implementiert; beim Installieren ist keine separate Kompilierung nötig, da ein leichtgewichtiges Just-In-Time(JIT)-Modul Kernel zur Laufzeit kompiliert
  • Derzeit nur für NVIDIA Hopper Tensor Cores verfügbar
  • Verwendet CUDA-Core-basiertes dual accumulation (promotion), um ungenaue Akkumulationsoperationen der FP8 Tensor Cores auszugleichen
  • Nutzt einige Konzepte aus CUTLASS und CuTe, reduziert jedoch komplexe Template-Abhängigkeiten und hat dadurch ein einfaches Design mit nur etwa 300 Zeilen Kernel-Code
  • Gut geeignet, um Hopper-FP8-Matrixoperationen und Optimierungstechniken zu lernen
  • Zeigt trotz leichtgewichtigem Design bei verschiedenen Matrixgrößen eine ähnliche oder bessere Leistung als auf Expertenniveau getunte Bibliotheken

Day 4: Optimierte Parallelisierungsstrategien: DualPipe, EPLB, Profile-Data

  • Strategien und Code, die in DeepSeek V3/R1 verwendet wurden
    • DualPipe: bidirektionaler Pipeline-Parallelisierungsalgorithmus für Rechen-Kommunikations-Overlap
    • EPLB: Expert-Parallel-Load-Balancer
    • Profile-Data: Datenprofiling der DeepSeek-Infrastruktur zur Analyse von Rechen-Kommunikations-Overlap

Day 5: 3FS-Dateisystem und Smallpond-Datenverarbeitungs-Framework

  • Das Fire-Flyer File System(3FS) ist ein hochleistungsfähiges verteiltes Dateisystem, das für KI-Trainings- und Inference-Workloads entwickelt wurde
  • Es nutzt moderne SSDs und RDMA-Netzwerke, um eine gemeinsame Storage-Schicht bereitzustellen und die Entwicklung verteilter Anwendungen zu vereinfachen
  • Wichtige Merkmale und Vorteile
    • Leistung und Bedienbarkeit
      • Entkoppelte Architektur: Zugriff auf Storage-Ressourcen unabhängig von Lokalität durch Bündelung der Netzwerkbandbreite von Tausenden SSDs und Hunderten Storage-Knoten
      • Starke Konsistenzgarantie: Verwendet Chain Replication with Apportioned Queries(CRAQ), um Konsistenz zu wahren und Anwendungscode zu vereinfachen
      • Unterstützung für Dateischnittstellen: Bietet einen zustandslosen Metadaten-Service auf Basis eines transaktionalen Key-Value-Stores mit FoundationDB. Da bestehende Dateischnittstellen verwendet werden, ist keine neue Storage-API zu erlernen
    • Unterstützung für verschiedene Workloads
      • Datenvorbereitung: Organisiert die Ausgaben von Datenanalyse-Pipelines in einer hierarchischen Verzeichnisstruktur und verwaltet große Mengen an Zwischenausgaben effizient
      • Optimierung des Data Loaders: Ermöglicht zufälligen Zugriff auf Trainingssamples von mehreren Compute-Knoten aus, ohne Datensätze vorab laden oder mischen zu müssen
      • Checkpoint-Speicherung: Unterstützt schnelles paralleles Speichern von Checkpoints für großskaliges Training
      • Optimierung von KVCache-basierter Inference: Kosteneffizienter als DRAM-basiertes Caching und ermöglicht hohen Durchsatz sowie große Speicherkapazität
  • SmallPond - Leichtgewichtiges Datenverarbeitungs-Framework, aufgebaut auf DuckDB und 3FS
    • Kennzeichen sind hochleistungsfähige Datenverarbeitung, Skalierbarkeit im großen Maßstab und einfacher Betrieb
      • Hochleistungsfähige Datenverarbeitung: Schnelle Datenverarbeitung mit DuckDB
      • Unterstützung großer Datensätze: Verarbeitung von Daten im Petabyte(PB)-Maßstab möglich
      • Einfacher Betrieb: Leicht nutzbar ohne dauerhaft laufende Dienste

Day 6: Offenlegung von Aufbau des Inference-Systems von V3/R1 sowie Betriebs- und Erlöskosten

  • Prinzipien des Systemdesigns: Das Optimierungsziel des DeepSeek-V3/R1-Inference-Systems sind höherer Durchsatz und geringere Latenz
    • Dafür wird Cross-Node Expert Parallelism(EP) zur Optimierung eingesetzt
  • DeepSeek-Betriebskosten
    • Im Durchschnitt 226 GPU-Knoten (8 H800-GPUs pro Knoten)
    • Tägliche Betriebskosten: $87,072 (127 Mio. KRW) - $2/Stunde pro H800
    • Theoretischer Tagesumsatz (basierend auf R1): $562027 (820 Mio. KRW) → Marge 545%
    • Der tatsächliche Umsatz liegt jedoch niedriger (da V3 günstiger als R1 ist und nur ein Teil des Dienstes monetarisiert wurde)

KI-Infrastruktur-Paper 2024 (SC24)

Fire-Flyer AI-HPC: Kosteneffizientes Software-Hardware-Codesign für Deep Learning

  • Durch die rasante Entwicklung von Deep Learning(DL) und Large Language Models(LLM) steigen die Anforderungen an Rechenleistung und Bandbreite exponentiell
  • Die Kosten für den Aufbau von High Performance Computing(HPC) steigen stark wegen der hohen Preise schneller Compute-Chips und Hochgeschwindigkeits-Interconnects
  • Um dies zu lösen, wurde die Fire-Flyer AI-HPC-Architektur eingeführt, die auf kooperativem Hardware-Software-Design basiert und Kosten- sowie Leistungsoptimierung erreicht
    • Aufbau des Fire-Flyer-2-Systems mit 10.000 PCIe-A100-GPUs für DL-Training
    • Liefert ähnliche Leistung wie DGX-A100, halbiert dabei die Kosten und senkt den Energieverbrauch um 40%
  • Elemente der Leistungsoptimierung
    • HFReduce: Beschleunigt Allreduce-Kommunikation und verbessert die Geschwindigkeit der Datensynchronisierung zwischen GPUs
    • Computation-Storage Integrated Network: Setzt verschiedene Verfahren zum Congestion Management ein, um Netzwerkengpässe zu vermeiden
    • Software-Stack: HaiScale, 3FS, HAI-Platform maximieren die Skalierbarkeit, indem Berechnung und Kommunikation überlappend ausgeführt werden

2 Kommentare

 
xguru 2025-02-23

DeepSeek sorgt wirklich weiter für spannende Entwicklungen. Ich bin gespannt, was alles veröffentlicht wird.

 
GN⁺ 2025-02-22
Hacker-News-Kommentare
  • Ich frage mich, ob ich der Einzige bin, der sich zwar auf die Veröffentlichung von DeepSeek freut, sie aber nicht überanalysiert. Dieser Thread wirkt voller persönlicher Deutungen

    • DeepSeek ist immer noch ein Unternehmen. Ein großartiger Release, aber die Erwartungen und Motive scheinen überhöht zu sein
    • Die Formulierung „pure garage energy“ gefällt mir
    • Am meisten freue ich mich auf ihren Inferenz-Stack. Die meisten Leute führen R1 auf einem einzelnen H200-Knoten aus, aber DeepSeek kam für Inferenz mit deutlich weniger RAM pro GPU aus und setzte auf clusterbasierte MoE-Bereitstellung
    • Interessanter als OpenAIs 12 Tage Weihnachten
  • Ab nächster Woche wollen sie fünf Repos als Open Source veröffentlichen. Eines pro Tag

    • Man kann das als Ankündigung einer Ankündigung sehen. Wahrscheinlich sollte man erst diskutieren, wenn die eigentlichen Repos veröffentlicht sind, weil es keine Details dazu gibt, was Open Source werden soll
    • Das sind bescheidene Bausteine eines Online-Service. Sie sind dokumentiert, ausgerollt und in realen Umgebungen getestet
  • Tiefer Respekt für DeepSeeks Innovation und Forschung. Für alles, was sie veröffentlicht haben

    • Die Formulierung „Jede geteilte Zeile wird zu kollektivem Momentum, das die Reise beschleunigt. Die täglichen Freischaltungen beginnen bald. Keine Elfenbeinturm-Mentalität, sondern pure garage energy und community-getriebene Innovation“ gefällt mir
  • Tatsächlich zerlegen sie OpenAI gerade komplett. Wahrscheinlich unabhängig von ihrer Absicht

    • LLMs waren ein legitimeres „Blockchain“ als die meisten CIO-Magazine, als sie Essays mit dem Titel „Was ist Ihre Blockchain-Strategie?“ brachten
    • Die AI-Blase wird platzen, und zwar spätestens bis Ende 2026
  • Es ist interessant zu sehen, wo im AI-Bereich der Burggraben liegt. Gute Basismodelle lassen sich immer destillieren, wenn man Zugriff auf die API hat. System Prompts können geleakt werden, UI-Tricks lassen sich kopieren. Am Ende könnte der Burggraben in Hardware und vertikaler Integration liegen

  • Können DeepSeek und OpenAI vielleicht die Namen tauschen?

  • Infrastruktur-Tools als Open Source zu veröffentlichen, könnte Innovation im AI-Bereich wirklich beschleunigen. Zugang zu gut dokumentierten Repos macht es viel einfacher, mit bestehender Arbeit zu experimentieren und darauf aufzubauen

    • Ich frage mich, ob diese Repos auf bestimmte Bereiche wie verteiltes Training oder Model Serving fokussiert sind
  • Ich frage mich, wie die Bewertungen von Foundation-Model-Unternehmen konkurrieren können, wenn Facebook und DeepSeek Open Source so konsequent vorantreiben. Es scheint nicht so, als würde der Aufbau dieser Modelle Hunderte Milliarden Dollar an Wert schaffen, wenn China und Facebook den Großteil davon im Wesentlichen kostenlos bereitstellen