- DFloat11 ist ein verlustfreies Komprimierungs-Framework, das die Größe großer Sprachmodelle (LLMs) um 30 % reduziert und dabei eine bitgenau identische Ausgabe zum Originalmodell beibehält
- Es verbessert die Ineffizienz bestehender Speicherformate, indem es die niedrige Entropie der BFloat16-Gewichtsdarstellung nutzt
- Für effiziente Inferenz auf GPUs wurden maßgeschneiderte GPU-Kernel entwickelt, die eine schnelle Online-Dekomprimierung unterstützen
- Experimente mit aktuellen Modellen wie Llama-3.1, Qwen-2.5, Gemma-3 bestätigen eine Reduktion der Modellgröße um 30 % bei exakter Beibehaltung der Ausgabe
- Bei festem GPU-Speicherbudget sind im Vergleich zu unkomprimierten Modellen 5,3- bis 13,17-mal längere Kontextlängen möglich
70 % Größe, 100 % Genauigkeit: Verlustfreie LLM-Komprimierung für effiziente GPU-Inferenz
- Die Größe großer Sprachmodelle (LLMs) ist rasant gewachsen und stellt eine große Herausforderung für eine effiziente Bereitstellung auf Hardware mit begrenzten Ressourcen dar
- Dynamic-Length Float (DFloat11) ist ein verlustfreies Komprimierungs-Framework, das die Größe von LLMs um 30 % reduziert und dabei eine bitgenau identische Ausgabe beibehält
- Es verbessert die Ineffizienz bestehender Speicherformate, indem es die niedrige Entropie der BFloat16-Gewichtsdarstellung nutzt
- Durch Anwendung von Entropiecodierung wird Gewichten abhängig von ihrer Häufigkeit eine Kodierung variabler Länge zugewiesen, um eine informationsoptimalen Komprimierung zu erreichen
- Für effiziente Inferenz wurden maßgeschneiderte GPU-Kernel entwickelt, die eine schnelle Online-Dekomprimierung unterstützen
Design von DFloat11
- Speicherintensive Lookup-Tabellen (LUTs) werden in komprimierte LUTs zerlegt, die in den GPU-SRAM passen
- Es wurde ein zweistufiger Kernel entwickelt, der mit leichtgewichtigen Hilfsvariablen die Lese-/Schreibpositionen von Threads anpasst
- Durch Dekomprimierung auf Transformer-Block-Ebene wird die Latenz minimiert
Experimentelle Ergebnisse
- Tests mit aktuellen Modellen wie Llama-3.1, Qwen-2.5 und Gemma-3 bestätigen für DFloat11 eine Reduktion der Modellgröße um 30 % bei exakter Beibehaltung der Ausgabe
- Im Vergleich zu Alternativen, die Teile unkomprimierter Modelle auf die CPU auslagern, wird ein 1,9- bis 38,8-fach höherer Durchsatz erreicht
- Bei festem GPU-Speicherbudget sind im Vergleich zu unkomprimierten Modellen 5,3- bis 13,17-mal längere Kontextlängen möglich
Vorteile von DFloat11
- Ermöglicht verlustfreie Inferenz für das 810-GB-Modell Llama-3.1-405B auf einem einzelnen Node mit 8x80-GB-GPUs
- Code und Modell werden über eine öffentliche URL bereitgestellt
1 Kommentare
Hacker-News-Kommentare
Der hohe dynamische Bereich von bfloat16 wird größtenteils nicht genutzt
Die Möglichkeit, ein Modell mit 405B Parametern auf einem einzelnen Node auszuführen
Dankbarkeit für die schnelle Entwicklung von ML-/Transformer-Modellen
Sobald der Krieg um Gewichtsformate vorbei ist, könnte die Hardware dies unterstützen
In realen Agenten-Anwendungsfällen ist es schwierig, Qualität, Kosten und Leistung auszubalancieren
Arbeite bei xmad.ai
Das Tempo des technischen Fortschritts ist hoch
DFloat11 bietet 1,9- bis 38,8-mal höheren Durchsatz, als unkomprimierte Modelle auf die CPU auszulagern
Ich frage mich, ob LLMs durch die Speicherbandbreite begrenzt sind
Ich habe entdeckt, wie man Bilder mit LLMs stärker komprimieren kann
Ich frage mich, ob es sich von ZipNN unterscheidet
Ich denke, dass sich mit ternär statt binär eine höhere Kompressionsrate erzielen lässt