DeepSeek veröffentlicht FlashMLA als Open Source (1 von 5)
(github.com/deepseek-ai)- Effizienter MLA-Decoding-Kernel für Hopper-GPUs
- Optimiert für das Serving von Sequenzen mit variabler Länge
- Derzeit veröffentlicht:
- BF16
- Paged KV-Cache mit 64er-Blockgröße
- Benchmark: Mit CUDA 12.6 wurden auf H800 SXM5 in einer speichergebundenen Konfiguration bis zu 3000 GB/s und in einer rechengebundenen Konfiguration 580 TFLOPS erreicht
- Inspiriert von FlashAttention 2&3 und cutlass
- Der erste von fünf Open-Source-Projekten, die als DeepSeek Open Infra veröffentlicht werden
2 Kommentare
Hacker-News-Kommentare
FlashAttention-2: Schnellere Attention durch bessere Parallelisierung und Aufgabenaufteilung
FlashAttention-3: Schnelle und präzise Attention durch Asynchronität und niedrige Präzision