14 Punkte von GN⁺ 28 일 전 | 2 Kommentare | Auf WhatsApp teilen
  • Das aus der Caltech-Forschung hervorgegangene AI-Startup PrismML hat das Modell 1-bit Bonsai 8B vorgestellt und ermöglicht damit praktische AI-Inferenz auf Smartphones und Edge-Geräten bei einer Größe von nur 1,15 GB – rund 14-mal kleiner als vergleichbare bestehende 16-Bit-Modelle
  • Mit einem echten End-to-End-1-Bit-Design, bei dem das gesamte Netzwerk (Embeddings, Attention, MLP und LM-Head) ausnahmslos in 1 Bit aufgebaut ist, überwindet es die Qualitätsverluste bei Befehlsausführung, mehrstufigem Reasoning und Tool-Nutzung, unter denen bisherige Low-Bit-Modelle litten
  • Gemessen an der Kennzahl Intelligence Density erreicht es 1,06/GB und liegt damit in derselben Parameterklasse etwa 10,6-mal vor dem nächstliegenden Konkurrenzmodell (Qwen3 8B mit 0,10/GB)
  • Es läuft mit 131 tok/s auf einem M4 Pro Mac, 368 tok/s auf einer RTX 4090 und etwa 44 tok/s auf einem iPhone 17 Pro Max; die Energieeffizienz ist dabei etwa 4- bis 5-mal besser als bei 16-Bit-Modellen
  • Falls spezialisierte 1-Bit-Hardware entwickelt wird, eröffnet das zusätzlich das Potenzial für Leistungs- und Effizienzsteigerungen im einstelligen Vielfachen und erweitert neue Deployment-Kategorien wie On-Device-AI, Robotik und Security-Enterprise-Lösungen

Hintergrund zu PrismML und 1-bit Bonsai

  • In den vergangenen zehn Jahren verlief die AI-Entwicklung in Richtung immer größerer Modelle – mehr Parameter, mehr GPUs, mehr Strom, mehr Speicher und höhere Kosten
  • Dadurch entstand die strukturelle Einschränkung, dass die leistungsfähigste Intelligenz in großen Clustern und spezialisierter Infrastruktur eingeschlossen bleibt
  • Tatsächlich beschränkt sich der Bedarf an AI nicht auf Rechenzentren, sondern reicht von Smartphones, Laptops, Fahrzeugen und Robotern bis hin zu Security-Enterprise-Umgebungen und Edge-Geräten
  • PrismML entstand aus einem Forschungsteam am Caltech und wurde mit Unterstützung von Khosla Ventures, Cerberus und Google gegründet
  • Als zentrale Optimierungskennzahl wurde Intelligence Density festgelegt – also die Menge an Intelligenz, die ein Modell pro GB Modellgröße liefern kann

Echtes 1-Bit-Modell-Design

  • 1-bit Bonsai 8B setzt Embeddings, Attention-Layer, MLP-Layer und den LM-Head vollständig in 1 Bit um und hält damit eine vollständige 1-Bit-Architektur über alle 8,2 Milliarden Parameter hinweg aufrecht – ohne High-Precision-Escape-Hatch
  • Bisherige Low-Bit-Modelle erlitten starke Leistungseinbußen bei Befehlsausführung, mehrstufigem Reasoning und der Zuverlässigkeit bei der Tool-Nutzung, was ihren Einsatz als Grundlage realer Produkte erschwerte
  • Bonsai zeigt, dass ein 1-Bit-Modell kein enger Kompromiss, sondern ein vollständiges System auf Produktionsniveau sein kann

Messung der Intelligence Density

  • Intelligence Density ist definiert als der negative Logarithmus der durchschnittlichen Fehlerrate über Benchmarks hinweg, geteilt durch die Modellgröße
  • Diese Kennzahl bildet realistischere Intelligenzniveaus ab als ein bloßer Benchmark-Durchschnitt, da zusätzliche Verbesserungen bei bereits hoher Genauigkeit stärker gewichtet werden
  • 1-bit Bonsai 8B: 1,06/GB, Qwen3 8B: 0,10/GB – nicht nur ein Vorsprung, sondern ein Ergebnis in einer anderen Größenordnung
  • Auch beim Rohdurchschnitt über Benchmarks bleibt 1-bit Bonsai 8B gegenüber wichtigen Modellen der 8B-Klasse konkurrenzfähig, während der Memory Footprint bei 1,15 GB liegt und damit etwa 12- bis 14-mal kleiner ist als bei vergleichbaren Modellen

Größe und Geschwindigkeit

  • Mit einer Größe von 1,15 GB kann es auf dem iPhone 17 Pro laufen – bestehende 16-Bit-8B-Modelle passen auf kein iPhone
  • Inferenzgeschwindigkeit nach Gerät:
    • M4 Pro Mac: 131 tok/s
    • RTX 4090: 368 tok/s
    • iPhone 17 Pro Max: etwa 44 tok/s
  • In einer Simulation von 50 Aufgaben zur Ticket-Zusammenfassung und -Zuweisung verarbeitete 1-bit Bonsai 8B alle 50, während ein 16-Bit-8B-Modell unter denselben Bedingungen nur 6 schaffte
  • Höherer Durchsatz und geringerer Speicherverbrauch bei langfristigen Agent-Workloads erweitern direkt die tatsächlich bearbeitbare Aufgabenmenge eines Agenten

Energieeffizienz

  • 1-bit Bonsai 8B erreicht gegenüber 16-Bit-Full-Precision-Modellen eine etwa 4- bis 5-mal höhere Energieeffizienz
    • M4 Pro: 0,074 mWh/tok
    • iPhone 17 Pro Max: 0,068 mWh/tok
  • Damit AI zu grundlegender Infrastruktur werden kann, ist eine drastische Verbesserung der Energieeffizienz zwingend notwendig

Potenzial spezialisierter 1-Bit-Hardware

  • Die aktuellen Leistungsgewinne stammen vor allem vom verkleinerten Memory Footprint von 1-Bit-Modellen; die 1-Bit-Gewichtsstruktur wird bei der Inferenz noch nicht vollständig ausgenutzt
  • In linearen Layern wie MLPs ermöglichen 1-Bit-Gewichte, Multiplikationen durch Additionen zu ersetzen
  • Wenn spezialisierte Hardware für 1-Bit-Inferenz entwickelt wird, sind zusätzliche Leistungs- und Energieeffizienzgewinne im einstelligen Vielfachen möglich

Bonsai-Modelle mit 4B und 1.7B

  • Zusammen mit dem Hauptmodell wurden auch die kleineren Modelle 1-bit Bonsai 4B und 1-bit Bonsai 1.7B veröffentlicht
  • In einem Streudiagramm zu Intelligenz vs. Größe im Vergleich mit 20 wichtigen Instruct-Modellen (im Bereich von 1,2 GB bis 16,4 GB) verschiebt die gesamte Bonsai-Familie die bisherige Pareto-Front deutlich nach links
  • Die bisherige Pareto-Front bestand aus Qwen3 0.6B, 1.7B, 4B, 8B sowie Ministral3 3B, doch die Bonsai-Familie definiert nun eine neue Front

Was verdichtete Intelligenz ermöglicht

  • Wenn ein Modell klein, schnell und effizient genug ist, um On-Device zu laufen, verändert sich der Designraum für AI-Produkte sofort:
    • Bessere Reaktionsfähigkeit: On-Device-Inferenz arbeitet ohne Netzwerklatenz
    • Stärkerer Datenschutz: Sensible Daten verlassen das Gerät nicht
    • Höhere Zuverlässigkeit: Geringere Abhängigkeit von permanenter Cloud-Anbindung
    • Wirtschaftlichkeit: AI wird auch in Umgebungen nutzbar, in denen serverseitiges Deployment aus Kostengründen nicht möglich war
  • Neu entstehende Kategorien: dauerhafte On-Device-Agenten, Echtzeit-Robotik, Security-Enterprise-Copilots, Offline-Intelligenz und AI-native Produkte für Umgebungen mit Bandbreiten-, Energie- oder Regulierungsbeschränkungen

Plattformunterstützung und Veröffentlichungsform

  • 1-bit Bonsai 8B unterstützt native Ausführung auf Apple-Geräten (Mac, iPhone, iPad) über MLX sowie auf NVIDIA-GPUs über llama.cpp CUDA
  • Die Modellgewichte werden derzeit unter der Apache-2.0-Lizenz veröffentlicht
  • Vollständige technische Details zu Training, Evaluation und Benchmarking sind im offiziellen Whitepaper verfügbar

2 Kommentare

 
runableapp 28 일 전

Das sind gute Informationen.

 
GN⁺ 28 일 전
Hacker-News-Kommentare
  • Es wird betont, dass die 1,125-Bit-Darstellung (1-Bit-Gewichte + ein gemeinsamer 16-Bit-Skalierungsfaktor pro 128er-Gruppe) eine technisch ehrliche Kennzahl ist
    Man müsse unterscheiden, ob „kommerziell praktikabel“ anhand der Inferenzkosten gemeint ist oder ob es per Fine-Tuning möglich ist
    Wenn es sich wie in Microsofts BitNet-Paper um ein Modell handelt, das von Anfang an auf 1 Bit hin trainiert wurde, dann ist es etwas völlig anderes als ein bloß quantisiertes Modell
    Besonders die Inferenz-Effizienz auf allgemeiner Hardware wirkt deutlich attraktiver als INT4-Quantisierung
    Allerdings werden die Benchmarks mit quantisierten großen Modellen verglichen, wodurch der eigentliche Kern der Behauptung etwas untergeht
    Man würde gern sehen, ob die Leistung auch bei Aufgaben erhalten bleibt, die mehrstufiges Schlussfolgern erfordern

  • Es ist interessant, dass die Struktur aus 1 Bit + FP16-Skalierung (eine pro 128 Bit) so gut funktioniert
    Über Cursor wurden Tests für Webseiten erzeugt, und die Fähigkeit zum Tool-Einsatz war ziemlich beeindruckend
    Bei einer Monte-Carlo-Simulation für π war die Logik korrekt, aber die Erstellung der Oberfläche scheiterte, sodass einige manuelle Korrekturen nötig waren
    Das Pelikan-Bildergebnis war sehr abstrakt
    Da es keine offizielle Demo gibt, wurde eine lokale llama.cpp-Instanz offen zugänglich gemacht

    • Dank des Links wurde es direkt getestet, und die Antwortgeschwindigkeit ist sehr hoch
      Es wurden verschiedene Anfragen wie R-Skripte und LaTeX-Formeln ausprobiert; insbesondere die Euler-Formel wurde perfekt erzeugt
      Trotz des kleinen 1-Bit-Modells ist die Wissensdichte hoch und die Reaktion schnell
    • Als Kunsthistoriker wird die Idee eines „Pelikans auf einem Fahrrad“ voll unterstützt
    • Der ngrok-Link wurde wegen Überlastung gesperrt, daher wurde eine Google-Colab-Version geteilt
    • Es wird gefragt, ob der llama.cpp-Fork von Prism nötig ist
    • Es fühlt sich wie frühes ChatGPT an: meistens richtig, aber gelegentlich kommt Unsinn heraus
      Mit einem „Denkschritt“ oder suchbasierter Verstärkung könnte es viel nützlicher werden
  • Es wurde ein selbst erstellter SQL-Debugging-Benchmark ausgeführt, und das Ergebnis war ziemlich beeindruckend
    8 von 25 bestanden, 0 fehlgeschlagen, 17 Fehler — damit liegt es ungefähr zwischen Qwen3.5-4B und Nanbeige4.1-3B
    Der gesamte Test war in nur 200 Sekunden abgeschlossen, und bei der Geschwindigkeit war es Granite 7B 4bit deutlich überlegen
    Die Ergebnisse sind auf der SQL-Benchmark-Website einsehbar

    • Auch hier wurde der Runpod von @freakynit verwendet
      Es wurde persönlich ein Test zum Erstellen einer Pomodoro-App gemacht; die Gesamtqualität war gering, aber in bestimmten Bereichen durchaus brauchbar
      Auch die Schreibfähigkeiten sind überraschend ordentlich, und interessant ist die seltene Verwendung von Gedankenstrichen
      Beim Schreiben von HTML ist es schwach, aber die Kombination eines 1-Bit-Modells mit Ngram-Embedding scheint viele neue Möglichkeiten zu eröffnen
      Auch ein selbst gebauter Prototyp-Code wurde geteilt
  • Mit der kürzlich aktualisierten Locally AI App läuft es auch auf dem iPhone
    Für eine Größe von 1,2 GB zeigt es erstaunliche Leistung
    Das Pelikan-SVG-Ergebnis hatte gute Kommentare, aber die Zeichnung war nicht besonders gut

    • Es wurde festgestellt, dass kleine Modelle bei Zeitzonenumrechnungen sehr schwach sind
      Auf die Frage „Welche Uhrzeit ist 9:30am Taiwan Standard Time in US Pacific Time?“ konnte kein Modell korrekt antworten
    • Es wird gefragt, ob ausdrücklich ein Fahrrad für den Pelikan angefordert wurde oder ob das Modell es kreativ hinzugefügt hat
  • Das 8GiB-Modell wurde auf einer RTX 3090 fünf Stunden lang öffentlich betrieben
    Ein Server-Link und der Startbefehl wurden geteilt
    5 parallele Anfragen, ein Limit von etwa 13K Tokens, 4GiB VRAM-Nutzung
    Mit 190t/s bei der Ausgabe zeigte es eine sehr hohe Geschwindigkeit

    • Es wird geraten, den KV-Cache ohne Präzisionsverlust beizubehalten
    • Mit dem Modell zu sprechen mache wirklich Spaß
      Im Gesprächsbeispiel auf die Frage, ob man zur Autowaschanlage laufen oder fahren solle, gab es eine kreative Antwort
    • Es wurde aktualisiert, dass der Server wegen der Beendigung einer Spot-Instanz abgeschaltet wurde
    • Es wird die Geschwindigkeit bewundert
    • Auch ein Pastebin-Ergebnis wurde geteilt, mit dem Hinweis, dass schwächere Modelle solche Resultate nicht liefern
  • Mangels GPU wurde es auf der CPU ausgeführt; selbst auf einem älteren Laptop verbesserte sich die Leistung von 0,6t/s nach Hinzufügen von AVX2 auf 12t/s
    Das wirkt ziemlich ordentlich

    • Es gab Feedback, dass es selbst mit AVX2-Build langsam sei oder nur bedeutungslose Ausgaben liefere
      Ursache war, dass der Schritt git checkout prism ausgelassen worden war; nach der Korrektur funktionierte es normal
    • Es wird scherzhaft gesagt, „not shabby“ sei eine Untertreibung
  • Man glaubt, dass die Zukunft großer Modelle eher bitweise als float-basiert sein wird
    Die meisten Float-Werte liegen in einem engen Bereich und sind daher ineffizient; letztlich wird ohnehin alles als Bit-Operationen umgesetzt
    Das Problem ist allerdings, dass GPUs und die theoretische Grundlage auf Gleitkomma-Rechenoperationen ausgerichtet sind

    • Inferenz mit niedriger Bitbreite ist einfach, aber das Training ist schwierig und instabil
      Dass Float-Formate bestehen bleiben, liegt schlicht daran, dass sie gut mit dem GPU-Stack kompatibel sind
    • Dieses Paper führt sogar das Training binärbasiert durch
      Es führt das Konzept der „Boolean variation“ ein, definiert Ableitungen in binärer Form und führt Backpropagation direkt damit aus
  • Die Ähnlichkeit zu spikenden neuronalen Netzen ist interessant
    Dabei wird mit 1-Bit-Kommunikation über das Vorhandensein eines Spikes gearbeitet, während analoge Membranpotenziale verwendet werden
    Mit 5.000 Izhikevich-Neuronen wurde eine Vierbeinersteuerung umgesetzt, die effizienter als PPO war
    1-Bit-Effizienz ist ein Konzept, das über LLMs hinausgeht

  • Es wird gefragt, ob ein Verhältnis von „-log error / model size“ von 1 bedeutet, dass die Fehlerrate bei etwa 40 % liegt
    Ergänzend wird mathematisch notiert, dass error/model size = 1/e sei

  • Bonsai bietet ein 8B-Modell mit 1,15 GB an; es wird gefragt, wie groß dann 27B- oder 35B-Modelle wären
    Wenn die Skalierung erhalten bleibt, könnten sogar 100B-Modelle in 64 GB RAM passen

    • Allerdings sind die Trainingskosten das Problem
      Vermutlich sind sie ähnlich hoch wie bei einem Modell mit voller Präzision; andernfalls wäre das sicher bereits erwähnt worden