- Das aus der Caltech-Forschung hervorgegangene AI-Startup PrismML hat das Modell 1-bit Bonsai 8B vorgestellt und ermöglicht damit praktische AI-Inferenz auf Smartphones und Edge-Geräten bei einer Größe von nur 1,15 GB – rund 14-mal kleiner als vergleichbare bestehende 16-Bit-Modelle
- Mit einem echten End-to-End-1-Bit-Design, bei dem das gesamte Netzwerk (Embeddings, Attention, MLP und LM-Head) ausnahmslos in 1 Bit aufgebaut ist, überwindet es die Qualitätsverluste bei Befehlsausführung, mehrstufigem Reasoning und Tool-Nutzung, unter denen bisherige Low-Bit-Modelle litten
- Gemessen an der Kennzahl Intelligence Density erreicht es 1,06/GB und liegt damit in derselben Parameterklasse etwa 10,6-mal vor dem nächstliegenden Konkurrenzmodell (Qwen3 8B mit 0,10/GB)
- Es läuft mit 131 tok/s auf einem M4 Pro Mac, 368 tok/s auf einer RTX 4090 und etwa 44 tok/s auf einem iPhone 17 Pro Max; die Energieeffizienz ist dabei etwa 4- bis 5-mal besser als bei 16-Bit-Modellen
- Falls spezialisierte 1-Bit-Hardware entwickelt wird, eröffnet das zusätzlich das Potenzial für Leistungs- und Effizienzsteigerungen im einstelligen Vielfachen und erweitert neue Deployment-Kategorien wie On-Device-AI, Robotik und Security-Enterprise-Lösungen
Hintergrund zu PrismML und 1-bit Bonsai
- In den vergangenen zehn Jahren verlief die AI-Entwicklung in Richtung immer größerer Modelle – mehr Parameter, mehr GPUs, mehr Strom, mehr Speicher und höhere Kosten
- Dadurch entstand die strukturelle Einschränkung, dass die leistungsfähigste Intelligenz in großen Clustern und spezialisierter Infrastruktur eingeschlossen bleibt
- Tatsächlich beschränkt sich der Bedarf an AI nicht auf Rechenzentren, sondern reicht von Smartphones, Laptops, Fahrzeugen und Robotern bis hin zu Security-Enterprise-Umgebungen und Edge-Geräten
- PrismML entstand aus einem Forschungsteam am Caltech und wurde mit Unterstützung von Khosla Ventures, Cerberus und Google gegründet
- Als zentrale Optimierungskennzahl wurde Intelligence Density festgelegt – also die Menge an Intelligenz, die ein Modell pro GB Modellgröße liefern kann
Echtes 1-Bit-Modell-Design
- 1-bit Bonsai 8B setzt Embeddings, Attention-Layer, MLP-Layer und den LM-Head vollständig in 1 Bit um und hält damit eine vollständige 1-Bit-Architektur über alle 8,2 Milliarden Parameter hinweg aufrecht – ohne High-Precision-Escape-Hatch
- Bisherige Low-Bit-Modelle erlitten starke Leistungseinbußen bei Befehlsausführung, mehrstufigem Reasoning und der Zuverlässigkeit bei der Tool-Nutzung, was ihren Einsatz als Grundlage realer Produkte erschwerte
- Bonsai zeigt, dass ein 1-Bit-Modell kein enger Kompromiss, sondern ein vollständiges System auf Produktionsniveau sein kann
Messung der Intelligence Density
- Intelligence Density ist definiert als der negative Logarithmus der durchschnittlichen Fehlerrate über Benchmarks hinweg, geteilt durch die Modellgröße
- Diese Kennzahl bildet realistischere Intelligenzniveaus ab als ein bloßer Benchmark-Durchschnitt, da zusätzliche Verbesserungen bei bereits hoher Genauigkeit stärker gewichtet werden
- 1-bit Bonsai 8B: 1,06/GB, Qwen3 8B: 0,10/GB – nicht nur ein Vorsprung, sondern ein Ergebnis in einer anderen Größenordnung
- Auch beim Rohdurchschnitt über Benchmarks bleibt 1-bit Bonsai 8B gegenüber wichtigen Modellen der 8B-Klasse konkurrenzfähig, während der Memory Footprint bei 1,15 GB liegt und damit etwa 12- bis 14-mal kleiner ist als bei vergleichbaren Modellen
Größe und Geschwindigkeit
- Mit einer Größe von 1,15 GB kann es auf dem iPhone 17 Pro laufen – bestehende 16-Bit-8B-Modelle passen auf kein iPhone
- Inferenzgeschwindigkeit nach Gerät:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: etwa 44 tok/s
- In einer Simulation von 50 Aufgaben zur Ticket-Zusammenfassung und -Zuweisung verarbeitete 1-bit Bonsai 8B alle 50, während ein 16-Bit-8B-Modell unter denselben Bedingungen nur 6 schaffte
- Höherer Durchsatz und geringerer Speicherverbrauch bei langfristigen Agent-Workloads erweitern direkt die tatsächlich bearbeitbare Aufgabenmenge eines Agenten
Energieeffizienz
- 1-bit Bonsai 8B erreicht gegenüber 16-Bit-Full-Precision-Modellen eine etwa 4- bis 5-mal höhere Energieeffizienz
- M4 Pro: 0,074 mWh/tok
- iPhone 17 Pro Max: 0,068 mWh/tok
- Damit AI zu grundlegender Infrastruktur werden kann, ist eine drastische Verbesserung der Energieeffizienz zwingend notwendig
Potenzial spezialisierter 1-Bit-Hardware
- Die aktuellen Leistungsgewinne stammen vor allem vom verkleinerten Memory Footprint von 1-Bit-Modellen; die 1-Bit-Gewichtsstruktur wird bei der Inferenz noch nicht vollständig ausgenutzt
- In linearen Layern wie MLPs ermöglichen 1-Bit-Gewichte, Multiplikationen durch Additionen zu ersetzen
- Wenn spezialisierte Hardware für 1-Bit-Inferenz entwickelt wird, sind zusätzliche Leistungs- und Energieeffizienzgewinne im einstelligen Vielfachen möglich
Bonsai-Modelle mit 4B und 1.7B
- Zusammen mit dem Hauptmodell wurden auch die kleineren Modelle 1-bit Bonsai 4B und 1-bit Bonsai 1.7B veröffentlicht
- In einem Streudiagramm zu Intelligenz vs. Größe im Vergleich mit 20 wichtigen Instruct-Modellen (im Bereich von 1,2 GB bis 16,4 GB) verschiebt die gesamte Bonsai-Familie die bisherige Pareto-Front deutlich nach links
- Die bisherige Pareto-Front bestand aus Qwen3 0.6B, 1.7B, 4B, 8B sowie Ministral3 3B, doch die Bonsai-Familie definiert nun eine neue Front
Was verdichtete Intelligenz ermöglicht
- Wenn ein Modell klein, schnell und effizient genug ist, um On-Device zu laufen, verändert sich der Designraum für AI-Produkte sofort:
- Bessere Reaktionsfähigkeit: On-Device-Inferenz arbeitet ohne Netzwerklatenz
- Stärkerer Datenschutz: Sensible Daten verlassen das Gerät nicht
- Höhere Zuverlässigkeit: Geringere Abhängigkeit von permanenter Cloud-Anbindung
- Wirtschaftlichkeit: AI wird auch in Umgebungen nutzbar, in denen serverseitiges Deployment aus Kostengründen nicht möglich war
- Neu entstehende Kategorien: dauerhafte On-Device-Agenten, Echtzeit-Robotik, Security-Enterprise-Copilots, Offline-Intelligenz und AI-native Produkte für Umgebungen mit Bandbreiten-, Energie- oder Regulierungsbeschränkungen
Plattformunterstützung und Veröffentlichungsform
- 1-bit Bonsai 8B unterstützt native Ausführung auf Apple-Geräten (Mac, iPhone, iPad) über MLX sowie auf NVIDIA-GPUs über llama.cpp CUDA
- Die Modellgewichte werden derzeit unter der Apache-2.0-Lizenz veröffentlicht
- Vollständige technische Details zu Training, Evaluation und Benchmarking sind im offiziellen Whitepaper verfügbar
2 Kommentare
Das sind gute Informationen.
Hacker-News-Kommentare
Es wird betont, dass die 1,125-Bit-Darstellung (1-Bit-Gewichte + ein gemeinsamer 16-Bit-Skalierungsfaktor pro 128er-Gruppe) eine technisch ehrliche Kennzahl ist
Man müsse unterscheiden, ob „kommerziell praktikabel“ anhand der Inferenzkosten gemeint ist oder ob es per Fine-Tuning möglich ist
Wenn es sich wie in Microsofts BitNet-Paper um ein Modell handelt, das von Anfang an auf 1 Bit hin trainiert wurde, dann ist es etwas völlig anderes als ein bloß quantisiertes Modell
Besonders die Inferenz-Effizienz auf allgemeiner Hardware wirkt deutlich attraktiver als INT4-Quantisierung
Allerdings werden die Benchmarks mit quantisierten großen Modellen verglichen, wodurch der eigentliche Kern der Behauptung etwas untergeht
Man würde gern sehen, ob die Leistung auch bei Aufgaben erhalten bleibt, die mehrstufiges Schlussfolgern erfordern
Es ist interessant, dass die Struktur aus 1 Bit + FP16-Skalierung (eine pro 128 Bit) so gut funktioniert
Über Cursor wurden Tests für Webseiten erzeugt, und die Fähigkeit zum Tool-Einsatz war ziemlich beeindruckend
Bei einer Monte-Carlo-Simulation für π war die Logik korrekt, aber die Erstellung der Oberfläche scheiterte, sodass einige manuelle Korrekturen nötig waren
Das Pelikan-Bildergebnis war sehr abstrakt
Da es keine offizielle Demo gibt, wurde eine lokale llama.cpp-Instanz offen zugänglich gemacht
Es wurden verschiedene Anfragen wie R-Skripte und LaTeX-Formeln ausprobiert; insbesondere die Euler-Formel wurde perfekt erzeugt
Trotz des kleinen 1-Bit-Modells ist die Wissensdichte hoch und die Reaktion schnell
Mit einem „Denkschritt“ oder suchbasierter Verstärkung könnte es viel nützlicher werden
Es wurde ein selbst erstellter SQL-Debugging-Benchmark ausgeführt, und das Ergebnis war ziemlich beeindruckend
8 von 25 bestanden, 0 fehlgeschlagen, 17 Fehler — damit liegt es ungefähr zwischen Qwen3.5-4B und Nanbeige4.1-3B
Der gesamte Test war in nur 200 Sekunden abgeschlossen, und bei der Geschwindigkeit war es Granite 7B 4bit deutlich überlegen
Die Ergebnisse sind auf der SQL-Benchmark-Website einsehbar
Es wurde persönlich ein Test zum Erstellen einer Pomodoro-App gemacht; die Gesamtqualität war gering, aber in bestimmten Bereichen durchaus brauchbar
Auch die Schreibfähigkeiten sind überraschend ordentlich, und interessant ist die seltene Verwendung von Gedankenstrichen
Beim Schreiben von HTML ist es schwach, aber die Kombination eines 1-Bit-Modells mit Ngram-Embedding scheint viele neue Möglichkeiten zu eröffnen
Auch ein selbst gebauter Prototyp-Code wurde geteilt
Mit der kürzlich aktualisierten Locally AI App läuft es auch auf dem iPhone
Für eine Größe von 1,2 GB zeigt es erstaunliche Leistung
Das Pelikan-SVG-Ergebnis hatte gute Kommentare, aber die Zeichnung war nicht besonders gut
Auf die Frage „Welche Uhrzeit ist 9:30am Taiwan Standard Time in US Pacific Time?“ konnte kein Modell korrekt antworten
Das 8GiB-Modell wurde auf einer RTX 3090 fünf Stunden lang öffentlich betrieben
Ein Server-Link und der Startbefehl wurden geteilt
5 parallele Anfragen, ein Limit von etwa 13K Tokens, 4GiB VRAM-Nutzung
Mit 190t/s bei der Ausgabe zeigte es eine sehr hohe Geschwindigkeit
Im Gesprächsbeispiel auf die Frage, ob man zur Autowaschanlage laufen oder fahren solle, gab es eine kreative Antwort
Mangels GPU wurde es auf der CPU ausgeführt; selbst auf einem älteren Laptop verbesserte sich die Leistung von 0,6t/s nach Hinzufügen von AVX2 auf 12t/s
Das wirkt ziemlich ordentlich
Ursache war, dass der Schritt
git checkout prismausgelassen worden war; nach der Korrektur funktionierte es normalMan glaubt, dass die Zukunft großer Modelle eher bitweise als float-basiert sein wird
Die meisten Float-Werte liegen in einem engen Bereich und sind daher ineffizient; letztlich wird ohnehin alles als Bit-Operationen umgesetzt
Das Problem ist allerdings, dass GPUs und die theoretische Grundlage auf Gleitkomma-Rechenoperationen ausgerichtet sind
Dass Float-Formate bestehen bleiben, liegt schlicht daran, dass sie gut mit dem GPU-Stack kompatibel sind
Es führt das Konzept der „Boolean variation“ ein, definiert Ableitungen in binärer Form und führt Backpropagation direkt damit aus
Die Ähnlichkeit zu spikenden neuronalen Netzen ist interessant
Dabei wird mit 1-Bit-Kommunikation über das Vorhandensein eines Spikes gearbeitet, während analoge Membranpotenziale verwendet werden
Mit 5.000 Izhikevich-Neuronen wurde eine Vierbeinersteuerung umgesetzt, die effizienter als PPO war
1-Bit-Effizienz ist ein Konzept, das über LLMs hinausgeht
Es wird gefragt, ob ein Verhältnis von „-log error / model size“ von 1 bedeutet, dass die Fehlerrate bei etwa 40 % liegt
Ergänzend wird mathematisch notiert, dass error/model size = 1/e sei
Bonsai bietet ein 8B-Modell mit 1,15 GB an; es wird gefragt, wie groß dann 27B- oder 35B-Modelle wären
Wenn die Skalierung erhalten bleibt, könnten sogar 100B-Modelle in 64 GB RAM passen
Vermutlich sind sie ähnlich hoch wie bei einem Modell mit voller Präzision; andernfalls wäre das sicher bereits erwähnt worden