5 Punkte von xguru 2025-02-24 | 2 Kommentare | Auf WhatsApp teilen

2 Kommentare

 
GN⁺ 2025-02-25

Hacker-News-Kommentare

  • vLLM unterstützt seit drei Wochen MLA für DeepSeek-Modelle. Das liefert eine 3-fach höhere Generierungs-Throughput und die 10-fache Token-Speicherkapazität
    • MHA ist in Umgebungen mit niedriger QPS weiterhin schneller
    • Laut theoretischer Evidenz bietet MLA bei gleichem KV-Cache-Overhead durchgängig eine höhere Ausdrucksstärke als GQA
    • Weit verbreitete GQA-basierte vortrainierte Modelle (LLaMA, Qwen, Mixtral usw.) lassen sich in MLA-basierte Modelle umwandeln
    • Es ist gut möglich, dass MLA zum Standard wird
  • Hätte DeepSeek R1 standardmäßiges MHA verwendet, wären für die KV-Cache-Speicherung 1749 KB pro Token nötig gewesen
    • Sobald eine Unterhaltung etwa 46.000 Token erreicht, überschreitet der KV-Cache die gesamte Speicherkapazität einer einzelnen H100
    • Mit MLA verbraucht jedes Token 125 KB. Das bleibt möglich, bis mehr als etwa 640.000 Token erreicht werden (2x Ulysses)
  • BF16-Unterstützung, paged KV-Cache (Blockgröße 64), auf H800 3000 GB/s memory-bound und 580 TFLOPS compute-bound
    • Viele Entwickler bei FANG hätten dadurch wahrscheinlich viel Zeit gespart
    • Schade ist, dass nur der Forward-Pass unterstützt wird. Das eigentliche Geheimnis lag im Backward-Pass
    • Ich habe mich gefragt, wie sie den DualPipe-Scheduler implementiert haben
  • MLA steht vermutlich für Multi-head latent attention
  • Ich bin verwirrt, ob es nicht Beschränkungen für Hopper-GPUs für chinesische Unternehmen gab. Geben sie zu, dass sie trotz der US-Sanktionen Zugang zu H100 hatten?
  • Ich hatte wirklich gehofft, dass wir mit AI Flash-Spiele zurückbringen können
  • Was kann man damit machen?
  • OpenAI ist zurück