DeepSeek veröffentlicht FlashMLA als Open Source (1 von 5)

xguru · 2025-02-24T15:14:21+09:00

Effizienter MLA-Decoding-Kernel für Hopper-GPUs Optimiert für das Serving von Sequenzen mit variabler Länge Derzeit veröffentlicht: BF16 Paged KV-Cache mit 64er-Blockgröße Benchmark: Mit CUDA 12.6 wurden auf H800 SXM5 in einer speichergebundenen Konfiguration bis zu 3000 GB/s und in einer rechengebundenen Konfiguration 580 TFLOPS erreicht Inspiriert von FlashAttention 2&3 und cutlass Der erste von fünf Open-Source-Projekten, die als DeepSeek Open Infra veröffentlicht werden

(github.com/deepseek-ai)

5 Punkte von xguru 2025-02-24 | 2 Kommentare | Auf WhatsApp teilen

Effizienter MLA-Decoding-Kernel für Hopper-GPUs
Optimiert für das Serving von Sequenzen mit variabler Länge
Derzeit veröffentlicht:
- BF16
- Paged KV-Cache mit 64er-Blockgröße
Benchmark: Mit CUDA 12.6 wurden auf H800 SXM5 in einer speichergebundenen Konfiguration bis zu 3000 GB/s und in einer rechengebundenen Konfiguration 580 TFLOPS erreicht
Inspiriert von FlashAttention 2&3 und cutlass
Der erste von fünf Open-Source-Projekten, die als DeepSeek Open Infra veröffentlicht werden

2 Kommentare

GN⁺ 2025-02-25

Hacker-News-Kommentare

vLLM unterstützt seit drei Wochen MLA für DeepSeek-Modelle. Das liefert eine 3-fach höhere Generierungs-Throughput und die 10-fache Token-Speicherkapazität
- MHA ist in Umgebungen mit niedriger QPS weiterhin schneller
- Laut theoretischer Evidenz bietet MLA bei gleichem KV-Cache-Overhead durchgängig eine höhere Ausdrucksstärke als GQA
- Weit verbreitete GQA-basierte vortrainierte Modelle (LLaMA, Qwen, Mixtral usw.) lassen sich in MLA-basierte Modelle umwandeln
- Es ist gut möglich, dass MLA zum Standard wird
Hätte DeepSeek R1 standardmäßiges MHA verwendet, wären für die KV-Cache-Speicherung 1749 KB pro Token nötig gewesen
- Sobald eine Unterhaltung etwa 46.000 Token erreicht, überschreitet der KV-Cache die gesamte Speicherkapazität einer einzelnen H100
- Mit MLA verbraucht jedes Token 125 KB. Das bleibt möglich, bis mehr als etwa 640.000 Token erreicht werden (2x Ulysses)
BF16-Unterstützung, paged KV-Cache (Blockgröße 64), auf H800 3000 GB/s memory-bound und 580 TFLOPS compute-bound
- Viele Entwickler bei FANG hätten dadurch wahrscheinlich viel Zeit gespart
- Schade ist, dass nur der Forward-Pass unterstützt wird. Das eigentliche Geheimnis lag im Backward-Pass
- Ich habe mich gefragt, wie sie den DualPipe-Scheduler implementiert haben
MLA steht vermutlich für Multi-head latent attention
Ich bin verwirrt, ob es nicht Beschränkungen für Hopper-GPUs für chinesische Unternehmen gab. Geben sie zu, dass sie trotz der US-Sanktionen Zugang zu H100 hatten?
Ich hatte wirklich gehofft, dass wir mit AI Flash-Spiele zurückbringen können
Was kann man damit machen?
OpenAI ist zurück

xguru 2025-02-24

FlashAttention-2: Schnellere Attention durch bessere Parallelisierung und Aufgabenaufteilung
FlashAttention-3: Schnelle und präzise Attention durch Asynchronität und niedrige Präzision

DeepSeek veröffentlicht FlashMLA als Open Source (1 von 5)

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare