13 Punkte von GN⁺ 2025-04-18 | 4 Kommentare | Auf WhatsApp teilen
  • Microsoft-Forschende haben mit BitNet b1.58 2B4T ein hocheffizientes KI-Modell entwickelt
  • Durch 1-Bit-Quantisierung erreicht es hohe Geschwindigkeit und geringen Speicherverbrauch, kann dadurch auch auf CPUs ausgeführt werden und wurde unter der MIT-Lizenz veröffentlicht
  • Es läuft auch auf CPUs wie dem Apple M2 und funktioniert ohne GPU
  • BitNet b1.58 2B4T mit 2 Milliarden Parametern übertrifft Modelle von Meta, Google und Alibaba bei der Leistung
  • Allerdings muss das Microsoft-Framework bitnet.cpp verwendet werden, und Kompatibilitätsprobleme mit GPUs bestehen weiterhin

Microsofts ultraleichtes 1-Bit-KI-Modell BitNet b1.58 2B4T

Das Konzept des ultraleichten Modells BitNet

  • BitNet ist ein KI-Modell mit 1-Bit-Quantisierung, das Parameter nur mit den drei Werten -1, 0, 1 darstellt
  • Herkömmliche quantisierte Modelle werden in der Regel mit 8 Bit oder 4 Bit dargestellt, BitNet verwendet jedoch nur 1 Bit und erreicht dadurch eine überragende Speichereffizienz
  • Dieser Ansatz bringt große Vorteile auf leistungsschwacher Hardware, insbesondere in CPU-Umgebungen ohne GPU

Merkmale von BitNet b1.58 2B4T

  • Anzahl der Parameter: 2 Milliarden
  • Trainingsdaten: 4 Billionen Token (entspricht etwa 33 Millionen Büchern)
  • Als Open Source unter der MIT-Lizenz veröffentlicht
  • Lauffähig auch auf allgemeinen CPUs wie dem Apple M2

Leistungsvergleich und Benchmark-Ergebnisse

  • BitNet b1.58 2B4T zeigt in einigen Benchmarks bessere Leistung als die folgenden Modelle:
    • Meta Llama 3.2 1B
    • Google Gemma 3 1B
    • Alibaba Qwen 2.5 1.5B
  • Wichtige verwendete Benchmarks:
    • GSM8K: Bewertung von Mathematikaufgaben auf Grundschulniveau
    • PIQA: Bewertung der Fähigkeit zu physikalischem Alltagsverständnis
  • In einigen Tests bis zu doppelt so schnell, bei deutlich geringerem Speicherverbrauch

Einschränkungen und Kompatibilitätsprobleme

  • Die Leistung von BitNet hängt vom proprietären Microsoft-Framework bitnet.cpp ab
  • bitnet.cpp unterstützt derzeit nur bestimmte CPUs, GPUs werden nicht unterstützt
  • Deshalb gilt die fehlende Kompatibilität mit GPU-Umgebungen, dem Standard der KI-Infrastruktur, als Nachteil

4 Kommentare

 
cartwheel8815 2025-04-21

> BitNet ist ein KI-Modell mit 1-Bit-Quantisierung und stellt Parameter nur mit den drei Werten -1, 0 und 1 dar

Drei Werte, aber 1 Bit? Das kam mir seltsam vor, also habe ich mir ein paar HN-Kommentare angesehen:

> https://compilade.net/blog/ternary-packing

Statt 8 Bit zu verwenden, die zwei Werte pro Byte darstellen, arbeitet man mit fünf ternären Ziffern, die drei Werte darstellen. Streng genommen ist es also kein 1-Bit-Modell, sondern ein Modell mit log(3) / log(2) = 1.5849... Bit. Wenn man sich anschaut, dass im Modellnamen b1.58 enthalten ist, scheint das zu stimmen.

 
cartwheel8815 2025-04-21

In der 4. Zeile muss 2억 개의 파라미터를 zu 20억 개의 파라미터를 korrigiert werden.

 
GN⁺ 2025-04-18
Hacker-News-Kommentare
  • Microsofts BitNet ist im Hinblick auf Latenz, Speicher, Durchsatz und Energieverbrauch kosteneffizienter, obwohl es dieselbe Modellgröße und dieselbe Anzahl an Trainings-Token wie Transformer-LLMs mit Präzisionen wie FP16 oder BF16 verwendet
    • Weitere Informationen gibt es über den GitHub-Link und das arXiv-Paper
  • Die „Anzahl der Parameter“ eines KI-Modells ist das „GHz“ eines KI-Modells
    • Alle verglichenen Modelle haben 1–2 Milliarden Parameter, aber die tatsächliche Größe kann sich um mehr als das Zehnfache unterscheiden
  • Die meisten kostenlosen LLMs können auf der CPU ausgeführt werden
    • Hier wird behauptet, dass dieses Modell auf der CPU mit nützlicher Geschwindigkeit läuft
    • Da die Ausführungsgeschwindigkeit auf der GPU nicht bekannt ist, lässt sich die Genauigkeit dieser Behauptung nicht sicher beurteilen
  • Das Modell BitNet b1.58 2B4T ist schneller als andere Modelle derselben Größe und benötigt weniger Speicher
    • Die Modellgröße liegt bei über 1 GB, und es gibt viele Modelle mit 1–2 GB, die auch auf modernen CPUs gut funktionieren
  • NVidia treibt mit CUDA eine Bindung auf Softwareebene voran
    • Andernfalls könnte die Aktie denselben Weg wie Zoom nehmen
  • Es wird „1-bit“ genannt, tatsächlich wird aber {-1, 0, 1} verwendet
    • Das kann an dieser Stelle verwirrend sein
  • Es wird gefragt, ob es eine Bibliothek gibt, mit der sich größere Modelle in BitNet destillieren lassen
  • Unter der MIT-Lizenz öffentlich verfügbar und auf CPUs einschließlich Apples M2 lauffähig
    • Der M2 führt bereits 7-GB- oder 13-GB-Modelle von LLama und Mistral problemlos aus
  • Durch die weite Verbreitung der M-Serie und des MacBook vergisst man leicht, wie schwach eine durchschnittliche CPU (i3 oder i5) sein kann
  • Der Preiskrieg wird den Markt weiterhin nach unten treiben
  • Es handelt sich um eine über ein Jahr alte Technik, und nicht alle sind darauf umgestiegen
    • Wenn man sich die Gründe ansieht, zeigt sich, dass diese Technik die Metriken tatsächlich beeinflusst, manche stärker als andere
    • Keine Universallösung
 
cartwheel8815 2025-04-21

In der 4. Zeile 비교된 모든 모델은 1-2억 개의 -> 비교된 모든 모델은 10-20억 개의
Die Übersetzung von billion ins Koreanische wirkt hier unpassend.