1-bit Bonsai – das erste kommerziell praktikable 1-Bit-LLM

(prismml.com)

14 Punkte von GN⁺ 28 일 전 | 2 Kommentare | Auf WhatsApp teilen

Das aus der Caltech-Forschung hervorgegangene AI-Startup PrismML hat das Modell 1-bit Bonsai 8B vorgestellt und ermöglicht damit praktische AI-Inferenz auf Smartphones und Edge-Geräten bei einer Größe von nur 1,15 GB – rund 14-mal kleiner als vergleichbare bestehende 16-Bit-Modelle
Mit einem echten End-to-End-1-Bit-Design, bei dem das gesamte Netzwerk (Embeddings, Attention, MLP und LM-Head) ausnahmslos in 1 Bit aufgebaut ist, überwindet es die Qualitätsverluste bei Befehlsausführung, mehrstufigem Reasoning und Tool-Nutzung, unter denen bisherige Low-Bit-Modelle litten
Gemessen an der Kennzahl Intelligence Density erreicht es 1,06/GB und liegt damit in derselben Parameterklasse etwa 10,6-mal vor dem nächstliegenden Konkurrenzmodell (Qwen3 8B mit 0,10/GB)
Es läuft mit 131 tok/s auf einem M4 Pro Mac, 368 tok/s auf einer RTX 4090 und etwa 44 tok/s auf einem iPhone 17 Pro Max; die Energieeffizienz ist dabei etwa 4- bis 5-mal besser als bei 16-Bit-Modellen
Falls spezialisierte 1-Bit-Hardware entwickelt wird, eröffnet das zusätzlich das Potenzial für Leistungs- und Effizienzsteigerungen im einstelligen Vielfachen und erweitert neue Deployment-Kategorien wie On-Device-AI, Robotik und Security-Enterprise-Lösungen

Hintergrund zu PrismML und 1-bit Bonsai

In den vergangenen zehn Jahren verlief die AI-Entwicklung in Richtung immer größerer Modelle – mehr Parameter, mehr GPUs, mehr Strom, mehr Speicher und höhere Kosten
Dadurch entstand die strukturelle Einschränkung, dass die leistungsfähigste Intelligenz in großen Clustern und spezialisierter Infrastruktur eingeschlossen bleibt
Tatsächlich beschränkt sich der Bedarf an AI nicht auf Rechenzentren, sondern reicht von Smartphones, Laptops, Fahrzeugen und Robotern bis hin zu Security-Enterprise-Umgebungen und Edge-Geräten
PrismML entstand aus einem Forschungsteam am Caltech und wurde mit Unterstützung von Khosla Ventures, Cerberus und Google gegründet
Als zentrale Optimierungskennzahl wurde Intelligence Density festgelegt – also die Menge an Intelligenz, die ein Modell pro GB Modellgröße liefern kann

Echtes 1-Bit-Modell-Design

1-bit Bonsai 8B setzt Embeddings, Attention-Layer, MLP-Layer und den LM-Head vollständig in 1 Bit um und hält damit eine vollständige 1-Bit-Architektur über alle 8,2 Milliarden Parameter hinweg aufrecht – ohne High-Precision-Escape-Hatch
Bisherige Low-Bit-Modelle erlitten starke Leistungseinbußen bei Befehlsausführung, mehrstufigem Reasoning und der Zuverlässigkeit bei der Tool-Nutzung, was ihren Einsatz als Grundlage realer Produkte erschwerte
Bonsai zeigt, dass ein 1-Bit-Modell kein enger Kompromiss, sondern ein vollständiges System auf Produktionsniveau sein kann

Messung der Intelligence Density

Intelligence Density ist definiert als der negative Logarithmus der durchschnittlichen Fehlerrate über Benchmarks hinweg, geteilt durch die Modellgröße
Diese Kennzahl bildet realistischere Intelligenzniveaus ab als ein bloßer Benchmark-Durchschnitt, da zusätzliche Verbesserungen bei bereits hoher Genauigkeit stärker gewichtet werden
1-bit Bonsai 8B: 1,06/GB, Qwen3 8B: 0,10/GB – nicht nur ein Vorsprung, sondern ein Ergebnis in einer anderen Größenordnung
Auch beim Rohdurchschnitt über Benchmarks bleibt 1-bit Bonsai 8B gegenüber wichtigen Modellen der 8B-Klasse konkurrenzfähig, während der Memory Footprint bei 1,15 GB liegt und damit etwa 12- bis 14-mal kleiner ist als bei vergleichbaren Modellen

Größe und Geschwindigkeit

Mit einer Größe von 1,15 GB kann es auf dem iPhone 17 Pro laufen – bestehende 16-Bit-8B-Modelle passen auf kein iPhone
Inferenzgeschwindigkeit nach Gerät:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: etwa 44 tok/s
In einer Simulation von 50 Aufgaben zur Ticket-Zusammenfassung und -Zuweisung verarbeitete 1-bit Bonsai 8B alle 50, während ein 16-Bit-8B-Modell unter denselben Bedingungen nur 6 schaffte
Höherer Durchsatz und geringerer Speicherverbrauch bei langfristigen Agent-Workloads erweitern direkt die tatsächlich bearbeitbare Aufgabenmenge eines Agenten

Energieeffizienz

1-bit Bonsai 8B erreicht gegenüber 16-Bit-Full-Precision-Modellen eine etwa 4- bis 5-mal höhere Energieeffizienz
- M4 Pro: 0,074 mWh/tok
- iPhone 17 Pro Max: 0,068 mWh/tok
Damit AI zu grundlegender Infrastruktur werden kann, ist eine drastische Verbesserung der Energieeffizienz zwingend notwendig

Potenzial spezialisierter 1-Bit-Hardware

Die aktuellen Leistungsgewinne stammen vor allem vom verkleinerten Memory Footprint von 1-Bit-Modellen; die 1-Bit-Gewichtsstruktur wird bei der Inferenz noch nicht vollständig ausgenutzt
In linearen Layern wie MLPs ermöglichen 1-Bit-Gewichte, Multiplikationen durch Additionen zu ersetzen
Wenn spezialisierte Hardware für 1-Bit-Inferenz entwickelt wird, sind zusätzliche Leistungs- und Energieeffizienzgewinne im einstelligen Vielfachen möglich

Bonsai-Modelle mit 4B und 1.7B

Zusammen mit dem Hauptmodell wurden auch die kleineren Modelle 1-bit Bonsai 4B und 1-bit Bonsai 1.7B veröffentlicht
In einem Streudiagramm zu Intelligenz vs. Größe im Vergleich mit 20 wichtigen Instruct-Modellen (im Bereich von 1,2 GB bis 16,4 GB) verschiebt die gesamte Bonsai-Familie die bisherige Pareto-Front deutlich nach links
Die bisherige Pareto-Front bestand aus Qwen3 0.6B, 1.7B, 4B, 8B sowie Ministral3 3B, doch die Bonsai-Familie definiert nun eine neue Front

Was verdichtete Intelligenz ermöglicht

Wenn ein Modell klein, schnell und effizient genug ist, um On-Device zu laufen, verändert sich der Designraum für AI-Produkte sofort:
- Bessere Reaktionsfähigkeit: On-Device-Inferenz arbeitet ohne Netzwerklatenz
- Stärkerer Datenschutz: Sensible Daten verlassen das Gerät nicht
- Höhere Zuverlässigkeit: Geringere Abhängigkeit von permanenter Cloud-Anbindung
- Wirtschaftlichkeit: AI wird auch in Umgebungen nutzbar, in denen serverseitiges Deployment aus Kostengründen nicht möglich war
Neu entstehende Kategorien: dauerhafte On-Device-Agenten, Echtzeit-Robotik, Security-Enterprise-Copilots, Offline-Intelligenz und AI-native Produkte für Umgebungen mit Bandbreiten-, Energie- oder Regulierungsbeschränkungen

Plattformunterstützung und Veröffentlichungsform

1-bit Bonsai 8B unterstützt native Ausführung auf Apple-Geräten (Mac, iPhone, iPad) über MLX sowie auf NVIDIA-GPUs über llama.cpp CUDA
Die Modellgewichte werden derzeit unter der Apache-2.0-Lizenz veröffentlicht
Vollständige technische Details zu Training, Evaluation und Benchmarking sind im offiziellen Whitepaper verfügbar

2 Kommentare

runableapp 28 일 전

Das sind gute Informationen.

GN⁺ 28 일 전

Hacker-News-Kommentare

Es wird betont, dass die 1,125-Bit-Darstellung (1-Bit-Gewichte + ein gemeinsamer 16-Bit-Skalierungsfaktor pro 128er-Gruppe) eine technisch ehrliche Kennzahl ist
Man müsse unterscheiden, ob „kommerziell praktikabel“ anhand der Inferenzkosten gemeint ist oder ob es per Fine-Tuning möglich ist
Wenn es sich wie in Microsofts BitNet-Paper um ein Modell handelt, das von Anfang an auf 1 Bit hin trainiert wurde, dann ist es etwas völlig anderes als ein bloß quantisiertes Modell
Besonders die Inferenz-Effizienz auf allgemeiner Hardware wirkt deutlich attraktiver als INT4-Quantisierung
Allerdings werden die Benchmarks mit quantisierten großen Modellen verglichen, wodurch der eigentliche Kern der Behauptung etwas untergeht
Man würde gern sehen, ob die Leistung auch bei Aufgaben erhalten bleibt, die mehrstufiges Schlussfolgern erfordern
Es ist interessant, dass die Struktur aus 1 Bit + FP16-Skalierung (eine pro 128 Bit) so gut funktioniert
Über Cursor wurden Tests für Webseiten erzeugt, und die Fähigkeit zum Tool-Einsatz war ziemlich beeindruckend
Bei einer Monte-Carlo-Simulation für π war die Logik korrekt, aber die Erstellung der Oberfläche scheiterte, sodass einige manuelle Korrekturen nötig waren
Das Pelikan-Bildergebnis war sehr abstrakt
Da es keine offizielle Demo gibt, wurde eine lokale llama.cpp-Instanz offen zugänglich gemacht
- Dank des Links wurde es direkt getestet, und die Antwortgeschwindigkeit ist sehr hoch
  Es wurden verschiedene Anfragen wie R-Skripte und LaTeX-Formeln ausprobiert; insbesondere die Euler-Formel wurde perfekt erzeugt
  Trotz des kleinen 1-Bit-Modells ist die Wissensdichte hoch und die Reaktion schnell
- Als Kunsthistoriker wird die Idee eines „Pelikans auf einem Fahrrad“ voll unterstützt
- Der ngrok-Link wurde wegen Überlastung gesperrt, daher wurde eine Google-Colab-Version geteilt
- Es wird gefragt, ob der llama.cpp-Fork von Prism nötig ist
- Es fühlt sich wie frühes ChatGPT an: meistens richtig, aber gelegentlich kommt Unsinn heraus
  Mit einem „Denkschritt“ oder suchbasierter Verstärkung könnte es viel nützlicher werden
Es wurde ein selbst erstellter SQL-Debugging-Benchmark ausgeführt, und das Ergebnis war ziemlich beeindruckend
8 von 25 bestanden, 0 fehlgeschlagen, 17 Fehler — damit liegt es ungefähr zwischen Qwen3.5-4B und Nanbeige4.1-3B
Der gesamte Test war in nur 200 Sekunden abgeschlossen, und bei der Geschwindigkeit war es Granite 7B 4bit deutlich überlegen
Die Ergebnisse sind auf der SQL-Benchmark-Website einsehbar
- Auch hier wurde der Runpod von @freakynit verwendet
  Es wurde persönlich ein Test zum Erstellen einer Pomodoro-App gemacht; die Gesamtqualität war gering, aber in bestimmten Bereichen durchaus brauchbar
  Auch die Schreibfähigkeiten sind überraschend ordentlich, und interessant ist die seltene Verwendung von Gedankenstrichen
  Beim Schreiben von HTML ist es schwach, aber die Kombination eines 1-Bit-Modells mit Ngram-Embedding scheint viele neue Möglichkeiten zu eröffnen
  Auch ein selbst gebauter Prototyp-Code wurde geteilt
Mit der kürzlich aktualisierten Locally AI App läuft es auch auf dem iPhone
Für eine Größe von 1,2 GB zeigt es erstaunliche Leistung
Das Pelikan-SVG-Ergebnis hatte gute Kommentare, aber die Zeichnung war nicht besonders gut
- Es wurde festgestellt, dass kleine Modelle bei Zeitzonenumrechnungen sehr schwach sind
  Auf die Frage „Welche Uhrzeit ist 9:30am Taiwan Standard Time in US Pacific Time?“ konnte kein Modell korrekt antworten
- Es wird gefragt, ob ausdrücklich ein Fahrrad für den Pelikan angefordert wurde oder ob das Modell es kreativ hinzugefügt hat
Das 8GiB-Modell wurde auf einer RTX 3090 fünf Stunden lang öffentlich betrieben
Ein Server-Link und der Startbefehl wurden geteilt
5 parallele Anfragen, ein Limit von etwa 13K Tokens, 4GiB VRAM-Nutzung
Mit 190t/s bei der Ausgabe zeigte es eine sehr hohe Geschwindigkeit
- Es wird geraten, den KV-Cache ohne Präzisionsverlust beizubehalten
- Mit dem Modell zu sprechen mache wirklich Spaß
  Im Gesprächsbeispiel auf die Frage, ob man zur Autowaschanlage laufen oder fahren solle, gab es eine kreative Antwort
- Es wurde aktualisiert, dass der Server wegen der Beendigung einer Spot-Instanz abgeschaltet wurde
- Es wird die Geschwindigkeit bewundert
- Auch ein Pastebin-Ergebnis wurde geteilt, mit dem Hinweis, dass schwächere Modelle solche Resultate nicht liefern
Mangels GPU wurde es auf der CPU ausgeführt; selbst auf einem älteren Laptop verbesserte sich die Leistung von 0,6t/s nach Hinzufügen von AVX2 auf 12t/s
Das wirkt ziemlich ordentlich
- Es gab Feedback, dass es selbst mit AVX2-Build langsam sei oder nur bedeutungslose Ausgaben liefere
  Ursache war, dass der Schritt git checkout prism ausgelassen worden war; nach der Korrektur funktionierte es normal
- Es wird scherzhaft gesagt, „not shabby“ sei eine Untertreibung
Man glaubt, dass die Zukunft großer Modelle eher bitweise als float-basiert sein wird
Die meisten Float-Werte liegen in einem engen Bereich und sind daher ineffizient; letztlich wird ohnehin alles als Bit-Operationen umgesetzt
Das Problem ist allerdings, dass GPUs und die theoretische Grundlage auf Gleitkomma-Rechenoperationen ausgerichtet sind
- Inferenz mit niedriger Bitbreite ist einfach, aber das Training ist schwierig und instabil
  Dass Float-Formate bestehen bleiben, liegt schlicht daran, dass sie gut mit dem GPU-Stack kompatibel sind
- Dieses Paper führt sogar das Training binärbasiert durch
  Es führt das Konzept der „Boolean variation“ ein, definiert Ableitungen in binärer Form und führt Backpropagation direkt damit aus
Die Ähnlichkeit zu spikenden neuronalen Netzen ist interessant
Dabei wird mit 1-Bit-Kommunikation über das Vorhandensein eines Spikes gearbeitet, während analoge Membranpotenziale verwendet werden
Mit 5.000 Izhikevich-Neuronen wurde eine Vierbeinersteuerung umgesetzt, die effizienter als PPO war
1-Bit-Effizienz ist ein Konzept, das über LLMs hinausgeht
Es wird gefragt, ob ein Verhältnis von „-log error / model size“ von 1 bedeutet, dass die Fehlerrate bei etwa 40 % liegt
Ergänzend wird mathematisch notiert, dass error/model size = 1/e sei
Bonsai bietet ein 8B-Modell mit 1,15 GB an; es wird gefragt, wie groß dann 27B- oder 35B-Modelle wären
Wenn die Skalierung erhalten bleibt, könnten sogar 100B-Modelle in 64 GB RAM passen
- Allerdings sind die Trainingskosten das Problem
  Vermutlich sind sie ähnlich hoch wie bei einem Modell mit voller Präzision; andernfalls wäre das sicher bereits erwähnt worden

1-bit Bonsai – das erste kommerziell praktikable 1-Bit-LLM

Hintergrund zu PrismML und 1-bit Bonsai

Echtes 1-Bit-Modell-Design

Messung der Intelligence Density

Größe und Geschwindigkeit

Energieeffizienz

Potenzial spezialisierter 1-Bit-Hardware

Bonsai-Modelle mit 4B und 1.7B

Was verdichtete Intelligenz ermöglicht

Plattformunterstützung und Veröffentlichungsform

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare