2 Punkte von GN⁺ 2025-04-26 | 1 Kommentare | Auf WhatsApp teilen
  • DFloat11 ist ein verlustfreies Komprimierungs-Framework, das die Größe großer Sprachmodelle (LLMs) um 30 % reduziert und dabei eine bitgenau identische Ausgabe zum Originalmodell beibehält
  • Es verbessert die Ineffizienz bestehender Speicherformate, indem es die niedrige Entropie der BFloat16-Gewichtsdarstellung nutzt
  • Für effiziente Inferenz auf GPUs wurden maßgeschneiderte GPU-Kernel entwickelt, die eine schnelle Online-Dekomprimierung unterstützen
  • Experimente mit aktuellen Modellen wie Llama-3.1, Qwen-2.5, Gemma-3 bestätigen eine Reduktion der Modellgröße um 30 % bei exakter Beibehaltung der Ausgabe
  • Bei festem GPU-Speicherbudget sind im Vergleich zu unkomprimierten Modellen 5,3- bis 13,17-mal längere Kontextlängen möglich

70 % Größe, 100 % Genauigkeit: Verlustfreie LLM-Komprimierung für effiziente GPU-Inferenz

  • Die Größe großer Sprachmodelle (LLMs) ist rasant gewachsen und stellt eine große Herausforderung für eine effiziente Bereitstellung auf Hardware mit begrenzten Ressourcen dar
  • Dynamic-Length Float (DFloat11) ist ein verlustfreies Komprimierungs-Framework, das die Größe von LLMs um 30 % reduziert und dabei eine bitgenau identische Ausgabe beibehält
  • Es verbessert die Ineffizienz bestehender Speicherformate, indem es die niedrige Entropie der BFloat16-Gewichtsdarstellung nutzt
  • Durch Anwendung von Entropiecodierung wird Gewichten abhängig von ihrer Häufigkeit eine Kodierung variabler Länge zugewiesen, um eine informationsoptimalen Komprimierung zu erreichen
  • Für effiziente Inferenz wurden maßgeschneiderte GPU-Kernel entwickelt, die eine schnelle Online-Dekomprimierung unterstützen

Design von DFloat11

  • Speicherintensive Lookup-Tabellen (LUTs) werden in komprimierte LUTs zerlegt, die in den GPU-SRAM passen
  • Es wurde ein zweistufiger Kernel entwickelt, der mit leichtgewichtigen Hilfsvariablen die Lese-/Schreibpositionen von Threads anpasst
  • Durch Dekomprimierung auf Transformer-Block-Ebene wird die Latenz minimiert

Experimentelle Ergebnisse

  • Tests mit aktuellen Modellen wie Llama-3.1, Qwen-2.5 und Gemma-3 bestätigen für DFloat11 eine Reduktion der Modellgröße um 30 % bei exakter Beibehaltung der Ausgabe
  • Im Vergleich zu Alternativen, die Teile unkomprimierter Modelle auf die CPU auslagern, wird ein 1,9- bis 38,8-fach höherer Durchsatz erreicht
  • Bei festem GPU-Speicherbudget sind im Vergleich zu unkomprimierten Modellen 5,3- bis 13,17-mal längere Kontextlängen möglich

Vorteile von DFloat11

  • Ermöglicht verlustfreie Inferenz für das 810-GB-Modell Llama-3.1-405B auf einem einzelnen Node mit 8x80-GB-GPUs
  • Code und Modell werden über eine öffentliche URL bereitgestellt

1 Kommentare

 
GN⁺ 2025-04-26
Hacker-News-Kommentare
  • Der hohe dynamische Bereich von bfloat16 wird größtenteils nicht genutzt

    • Menschen bevorzugen Hyperparameter wie 0,01
    • Es macht kaum einen Unterschied, selbst wenn man alle Elemente des Netzwerks mit 10^6 multipliziert
    • Die typische Entropie von bfloat16-Werten liegt bei 10–12 Bit
    • Vorzeichen- und Mantissenbits sind nicht komprimierbares Rauschen
    • Verlustfreie Kompressionstechniken werden in Martin Burtschers Labor, bei fpzip von LLNL und bei dietgpu von Facebook eingesetzt
    • rANS ist auf SIMD-Befehlssätzen effizienter als Huffman-Codierung
  • Die Möglichkeit, ein Modell mit 405B Parametern auf einem einzelnen Node auszuführen

    • Bietet große Chancen für Forschungslabore und Startups
  • Dankbarkeit für die schnelle Entwicklung von ML-/Transformer-Modellen

    • Ich frage mich, ob llama.cpp cuBLAS gut nutzt
  • Sobald der Krieg um Gewichtsformate vorbei ist, könnte die Hardware dies unterstützen

    • Es wird Hardware für Matrixmultiplikation benötigt, die auf das optimale Gewichtsformat zugeschnitten ist
  • In realen Agenten-Anwendungsfällen ist es schwierig, Qualität, Kosten und Leistung auszubalancieren

    • dfloat11 könnte helfen, die Kosten zu senken
  • Arbeite bei xmad.ai

  • Das Tempo des technischen Fortschritts ist hoch

    • Ich finde Effizienzverbesserungen interessant
  • DFloat11 bietet 1,9- bis 38,8-mal höheren Durchsatz, als unkomprimierte Modelle auf die CPU auszulagern

    • Bietet bei festem GPU-Speicherbudget längere Kontextlängen
  • Ich frage mich, ob LLMs durch die Speicherbandbreite begrenzt sind

  • Ich habe entdeckt, wie man Bilder mit LLMs stärker komprimieren kann

    • Ein entsprechendes Whitepaper soll veröffentlicht werden
  • Ich frage mich, ob es sich von ZipNN unterscheidet

    • Es ist schwer zu verstehen, ob es darauf basiert, anders ist oder besser ist
  • Ich denke, dass sich mit ternär statt binär eine höhere Kompressionsrate erzielen lässt