- Microsoft-Forschende haben mit BitNet b1.58 2B4T ein hocheffizientes KI-Modell entwickelt
- Durch 1-Bit-Quantisierung erreicht es hohe Geschwindigkeit und geringen Speicherverbrauch, kann dadurch auch auf CPUs ausgeführt werden und wurde unter der MIT-Lizenz veröffentlicht
- Es läuft auch auf CPUs wie dem Apple M2 und funktioniert ohne GPU
- BitNet b1.58 2B4T mit 2 Milliarden Parametern übertrifft Modelle von Meta, Google und Alibaba bei der Leistung
- Allerdings muss das Microsoft-Framework bitnet.cpp verwendet werden, und Kompatibilitätsprobleme mit GPUs bestehen weiterhin
Microsofts ultraleichtes 1-Bit-KI-Modell BitNet b1.58 2B4T
Das Konzept des ultraleichten Modells BitNet
- BitNet ist ein KI-Modell mit 1-Bit-Quantisierung, das Parameter nur mit den drei Werten -1, 0, 1 darstellt
- Herkömmliche quantisierte Modelle werden in der Regel mit 8 Bit oder 4 Bit dargestellt, BitNet verwendet jedoch nur 1 Bit und erreicht dadurch eine überragende Speichereffizienz
- Dieser Ansatz bringt große Vorteile auf leistungsschwacher Hardware, insbesondere in CPU-Umgebungen ohne GPU
Merkmale von BitNet b1.58 2B4T
- Anzahl der Parameter: 2 Milliarden
- Trainingsdaten: 4 Billionen Token (entspricht etwa 33 Millionen Büchern)
- Als Open Source unter der MIT-Lizenz veröffentlicht
- Lauffähig auch auf allgemeinen CPUs wie dem Apple M2
Leistungsvergleich und Benchmark-Ergebnisse
- BitNet b1.58 2B4T zeigt in einigen Benchmarks bessere Leistung als die folgenden Modelle:
- Meta Llama 3.2 1B
- Google Gemma 3 1B
- Alibaba Qwen 2.5 1.5B
- Wichtige verwendete Benchmarks:
- GSM8K: Bewertung von Mathematikaufgaben auf Grundschulniveau
- PIQA: Bewertung der Fähigkeit zu physikalischem Alltagsverständnis
- In einigen Tests bis zu doppelt so schnell, bei deutlich geringerem Speicherverbrauch
Einschränkungen und Kompatibilitätsprobleme
- Die Leistung von BitNet hängt vom proprietären Microsoft-Framework
bitnet.cpp ab
bitnet.cpp unterstützt derzeit nur bestimmte CPUs, GPUs werden nicht unterstützt
- Deshalb gilt die fehlende Kompatibilität mit GPU-Umgebungen, dem Standard der KI-Infrastruktur, als Nachteil
4 Kommentare
> BitNet ist ein KI-Modell mit 1-Bit-Quantisierung und stellt Parameter nur mit den drei Werten -1, 0 und 1 dar
Drei Werte, aber 1 Bit? Das kam mir seltsam vor, also habe ich mir ein paar HN-Kommentare angesehen:
> https://compilade.net/blog/ternary-packing
Statt 8 Bit zu verwenden, die zwei Werte pro Byte darstellen, arbeitet man mit fünf ternären Ziffern, die drei Werte darstellen. Streng genommen ist es also kein 1-Bit-Modell, sondern ein Modell mit log(3) / log(2) = 1.5849... Bit. Wenn man sich anschaut, dass im Modellnamen b1.58 enthalten ist, scheint das zu stimmen.
In der 4. Zeile muss
2억 개의 파라미터를zu20억 개의 파라미터를korrigiert werden.Hacker-News-Kommentare
In der 4. Zeile
비교된 모든 모델은 1-2억 개의->비교된 모든 모델은 10-20억 개의Die Übersetzung von billion ins Koreanische wirkt hier unpassend.