17 Punkte von GN⁺ 2024-02-29 | 2 Kommentare | Auf WhatsApp teilen

Das Zeitalter der 1-Bit Large Language Models: Alle Large Language Models liegen bei 1,58 Bit

  • Die aktuelle Forschung zu BitNet eröffnet ein neues Zeitalter der 1-Bit Large Language Models (LLMs).
  • In dieser Arbeit wird BitNet b1.58 vorgestellt, eine 1-Bit-LLM-Variante, bei der jeder einzelne Parameter (oder jedes Gewicht) ternär als {-1, 0, 1} dargestellt wird.
  • BitNet b1.58 erreicht im Vergleich zu Transformer-LLMs in voller Präzision (z. B. FP16 oder BF16) mit derselben Modellgröße und derselben Anzahl an Trainingstokens eine vergleichbare Komplexität und Endaufgaben-Performance, ist aber hinsichtlich Latenz, Speicherbedarf, Durchsatz und Energieverbrauch deutlich kosteneffizienter.
  • Darüber hinaus definiert das 1,58-Bit-LLM neue Skalierungsgesetze und Rezepte für das Training einer neuen Generation leistungsfähiger und kosteneffizienter LLMs.
  • Zudem öffnet es die Tür für ein neues Rechenparadigma und für das Design spezieller Hardware, die für 1-Bit-LLMs optimiert ist.

Meinung von GN⁺

  • 1-Bit-LLMs ermöglichen deutlich effizientere Berechnungen als bestehende Large Language Models und haben das Potenzial, Energieverbrauch und Kosten in KI-Forschung und -Anwendungen erheblich zu senken.
  • Damit diese Technologie in der Praxis breit eingesetzt werden kann, werden Fragen der Kompatibilität und Integration mit bestehender Hardware- und Software-Infrastruktur ein wichtiger Faktor sein.
  • Die Vorteile von 1-Bit-LLMs werden mit zunehmender Modellgröße und -komplexität noch wichtiger, was sie besonders für Entwickler attraktiv macht, die KI-Technologien in ressourcenbeschränkten Umgebungen einsetzen wollen.
  • In diesem Bereich gibt es mit KI-spezialisierter Hardware wie Googles TPU bereits bestehende Lösungen, doch spezialisierte Hardware für 1-Bit-LLMs könnte neue Marktchancen schaffen.
  • Der praktische Nutzen dieser Technologie liegt darin, Stromverbrauch und Kosten zu senken und dabei Genauigkeit und Reaktionsgeschwindigkeit der Modelle zu erhalten; bei der tatsächlichen Einführung müssen jedoch Leistungsunterschiede zu bestehenden Modellen, Kompatibilitätsfragen und neue Hardware-Anforderungen berücksichtigt werden.

2 Kommentare

 
kuroneko 2024-02-29

Das ist wirklich faszinierend. Dass es nicht mit Gleitkommazahlen, sondern nur mit {-1, 0, 1} möglich war ...
Ich bin gespannt, wie sich das weiterentwickeln wird.

 
xguru 2024-02-29

Hacker-News-Kommentare

  • Zwei verblüffende Erkenntnisse aus der Forschung:

    • Die Parameterwerte bestehender Large Language Models (LLMs) können statt durch reelle Zahlen durch ternäre Werte (-1, 0, 1) ersetzt werden.
    • Bei Matrixmultiplikationen können die elementweisen Multiplikationen in jedem Skalarprodukt durch elementweise Additionen ersetzt werden, wobei das Vorzeichen vom Wert abhängt.
    • Auf heutiger Hardware verbessert dieser Ansatz Rechen- und Speichereffizienz erheblich, ohne Leistungsverlust.
    • Wenn die Methode direkt in Hardware umgesetzt wird, sind noch größere Effizienzgewinne möglich.
  • Leistung und Effizienz von BitNet b1.58:

    • BitNet b1.58 erreicht ab einer Größe von 3B eine Leistung auf dem Niveau von Basismodellen mit voller Präzision.
    • Es ermöglicht neue Skalierungsgesetze für Modellleistung und Inferenzkosten.
    • Ein 13B BitNet b1.58 ist bei Latenz, Speicherverbrauch und Energieverbrauch effizienter als ein 3B FP16 LLM.
    • Ein 30B BitNet b1.58 ist effizienter als ein 7B FP16 LLM, und ein 70B BitNet b1.58 effizienter als ein 13B FP16 LLM.
    • Die Arbeit stellt einen bedeutenden Durchbruch bei der LLM-Effizienz dar, da die Effizienzsteigerung ohne Leistungseinbußen erreicht wird.
  • Fragen dazu, ob sich bestehende Modelle auf die neue Methode umstellen lassen, sowie Witze über den NVIDIA-Aktienkurs.

  • Überlegungen zur Notwendigkeit, die Rolle von Transistoren in AI-Anwendungen neu zu denken:

    • Bei AI ist die Reduktion von Entropie kein so großes Problem, daher sollte der verfügbare Spannungsbereich stärker genutzt werden.
    • Es wird vorgeschlagen, die Rolle des Transistors zu überdenken und dass NAND-Gatter womöglich nicht der grundlegende Baustein sein müssen.
  • Überlegungen zu neuen Darstellungsformen im Zusammenhang mit Blog-Inhalten über Fließkommadarstellung:

    • Es wird erklärt, warum die Unterscheidung zwischen +0.0 und -0.0 im Fließkomma-Standard nützlich ist.
    • Im Zusammenhang mit den im LLM-Paper verwendeten Werten {-1, 0, -1} wird gefragt, ob eine 2-Bit-Darstellung {-1, -0, 0, 1} zusätzliche Vorteile bringen könnte.
    • Es wird nach den in anderen LLM-Quantisierungspapern vorgeschlagenen 2-Bit-Quantisierungswerten gefragt.
  • Zweifel an der Praxistauglichkeit der Forschungsergebnisse und das Erkennen ihrer Bedeutung nach Prüfung der Autoren von Microsoft Research und UCAS:

    • Die Ergebnisse wirkten zu gut, um wahr zu sein, bis ein Blick auf die Autoren zeigte, dass sie echt sind.
    • Erwartet wird eine Kostensenkung nicht nur für Edge-Computing-Anwendungen, sondern auch für die Bereitstellung hochleistungsfähiger LLMs in der Cloud.
    • Es gibt Überlegungen zu den langfristigen wirtschaftlichen Auswirkungen und Spekulationen über das Auftauchen neuer Wettbewerber.
  • Erklärung zu „bit“ und „trit“ sowie Diskussion über die theoretischen Möglichkeiten ternären Rechnens:

    • Statt „bit“ wird der Begriff „trit“ verwendet, verbunden mit einer theoretischen Erklärung des Versprechens ternären Rechnens.
    • Erwähnt werden sowjetische Forschungen zum ternären Rechnen sowie die theoretisch ideale Basis e.
  • GigaMLs Pläne zum Training eines neuen Modells und ein Aufruf zur Zusammenarbeit:

    • GigaML kündigt an, ein neues mit llama.cpp kompatibles Modell zu trainieren.
    • Geplant ist das Training eines kleinen Modells (3–4B, 1-Bit, Open Source) auf dem aktuellen stack-v2-Datensatz, und es werden Mitwirkende gesucht.
  • Eine skeptische Sicht auf die Ergebnisse und die Betonung der Notwendigkeit von Reproduzierbarkeit:

    • Es wird eine kritische Perspektive auf diese Verbesserungen eingenommen und auf frühere Erfahrungen mit extremen Quantisierungsversuchen verwiesen.
  • Erstaunen über einen großen Durchbruch im LLM-Bereich und das Potenzial, ein 120B-Modell auf einer einzelnen Karte zu betreiben:

    • Bewundert wird das Potenzial, ein 120B-Modell auf einer einzelnen Karte mit 24 GB VRAM zu betreiben und dabei dieselbe Leistung und Komplexität wie bei FP16-Modellen zu erreichen.