- Das Modell Qwen3-30B-A3B-Instruct-2507 läuft in Echtzeit auf dem Raspberry Pi 5 (16GB) und hält dabei 8,03 TPS sowie 94,18 % der BF16-Qualität
- Mit ByteShapes ShapeLearn-Methode zum Lernen der Bitlänge wird das Gleichgewicht zwischen Geschwindigkeit und Qualität innerhalb der Speichergrenzen jedes Geräts optimiert
- Gegenüber Unsloth und MagicQuant werden bei gleicher Qualität höhere TPS oder bei gleichen TPS eine höhere Qualität erreicht
- Sowohl auf CPU als auch GPU (insbesondere RTX 5090 und 4080) zeigt sich nahe 4 Bit der optimale Leistungsbereich; eine geringere Bitzahl macht es nicht automatisch schneller
- Insgesamt liefern ByteShape-Modelle mit dem Ansatz „Speicher als Budget betrachten und TPS/Qualität optimieren“ effiziente Leistung vom Edge-Gerät bis zum Rechenzentrum
Überblick über die ShapeLearn-basierte Optimierung
- ByteShape optimiert die vom Nutzer wahrgenommene Geschwindigkeit und Antwortqualität bei der Modellausführung
- ShapeLearn lernt für jeden Tensor den Gewichts-Datentyp (Bitlänge), um TPS (Token pro Sekunde) und Ausgabequalität gleichzeitig zu maximieren
- Ziel ist nicht nur eine kleinere Dateigröße, sondern eine Verbesserung des tatsächlichen Gleichgewichts zwischen Geschwindigkeit und Qualität
- In der llama.cpp-Umgebung steigt die Geschwindigkeit nicht zwangsläufig, nur weil die Bitzahl sinkt; Kernel-Auswahl und Overhead haben großen Einfluss auf die Leistung
- ByteShape betrachtet Speicher als „Budget, das ausreichend passen muss“ und optimiert danach auf Basis von TPS und Qualität
Leistung auf dem Raspberry Pi 5
- Auf dem Raspberry Pi 5 (16GB) hält das 30B-Modell 8,5 TPS bei über 92 % Genauigkeit
- Das Modell Q3_K_S-2.70bpw [KQ-2] bietet Reaktionsgeschwindigkeit auf dem Niveau von Echtzeit-Konversationen
- Beim genauigkeitsorientierten Modell erreicht ByteShape mit 1,1–1,3 % relativem Fehler (ca. 98,8 % Genauigkeit) gegenüber Unsloth eine um bis zu 1,87-fach niedrigere Fehlerrate
- In derselben Umgebung werden 5–6 TPS gehalten, geeignet für auf Genauigkeit fokussierte Aufgaben
- Auch das geschwindigkeitsorientierte Modell (Q3_K_S-3.25bpw [KQ-5]) ist kleiner und schneller als Unsloth und behält dabei einen Genauigkeitsvorteil
- Viele Modelle von Unsloth und MagicQuant können wegen Speicherbeschränkungen in der Pi-Umgebung nicht ausgeführt werden
Leistung auf Intel i7 (64GB)
- In einer Umgebung, in der alle Modelle in den Speicher passen, erreicht ByteShape höhere Qualität und höhere TPS als Unsloth und MagicQuant
- Qualitätsorientierter Bereich: ByteShapes Modell IQ4_XS-4.67bpw [KQ-9] erzielt gegenüber Unsloths Q6_K eine 1,44-fach niedrigere Fehlerrate und zugleich höhere TPS
- Ausgewogener Bereich: ByteShapes Modell Q3_K_S-3.25bpw hat eine 1,73-fach niedrigere Fehlerrate als Unsloth und ist MagicQuant bei Genauigkeit und Geschwindigkeit gleichermaßen überlegen
- Nur ByteShape deckt gleichzeitig den Bereich von 26+ TPS und den Hochqualitätsbereich ab
GPU-Leistungsvergleich (RTX 5090 / RTX 4080)
- Auf GPUs bestimmen Kernel-Auswahl und Effizienz des VRAM-Zugriffs die Leistung
- Nahe 4 Bit (~4bpw) liegt der Sweet Spot für TPS und Qualität
- RTX 5090 (32GB)
- Unsloth, MagicQuant und ByteShape erreichen im 4b-Bereich jeweils 302–303 TPS bei 98,4–98,9 % Genauigkeit
- ByteShapes Modell IQ4_XS-4.67bpw erzielt mit 272,98 TPS und 99,75 % Genauigkeit die höchste Genauigkeit
- Es ist Unsloths Q6_K (6,57bpw, 264,88 TPS, 99,64 %) und MagicQuants mxfp4 (5,46bpw, 240,42 TPS, 99,32 %) überlegen
- RTX 4080 (16GB)
- Wegen VRAM-Beschränkungen sind 4b-Modelle nicht möglich; unter denselben 16GB-Bedingungen ist ByteShape Unsloth bei TPS und Genauigkeit gleichermaßen überlegen
- ByteShape IQ4_XS-3.87bpw: 214,81 TPS, 98,66 % Genauigkeit
- Gegenüber Unsloth Q3_K_XL 1,59-fach niedrigere Fehlerrate, 9,4 % höhere TPS
- Gegenüber Unsloth IQ2_M 2,54-fach niedrigere Fehlerrate
Das Paradox von Bitzahl und Geschwindigkeit
- Auch unter 3 Bit ist ein Geschwindigkeitsgewinn nicht garantiert
- GPUs arbeiten in 32-Thread-Warps und sind auf bestimmte Datenformate und Zugriffsmuster optimiert
- VRAM wird in auf 32 Byte ausgerichteten Blöcken gelesen, daher verbrauchen auch kleinere Daten dieselbe Bandbreite
- Eine geringere Bitbreite kann durch steigenden Decodierungs-Overhead sogar langsamer werden
- Beispiel: Auf der RTX 5090 benötigt
iq4_xs54µs,iq3_xxs62µs → 25 % weniger Größe führen zu 13 % weniger Geschwindigkeit - ShapeLearn berücksichtigt diese Hardware-Eigenschaften und wählt Datentypen pro Tensor, um Geschwindigkeit und Genauigkeit gleichzeitig sicherzustellen
Bewertungsmethode und Fazit
- Alle Modelle wurden mit derselben Evaluierungs-Harness hinsichtlich TPS und normalisiertem Qualitätswert (gegenüber BF16) gemessen
- Die Qualitätsbewertung bündelt die Ergebnisse von MMLU, GSM8K, IFEval, LiveCodeBench V4
- Zentrale Schlussfolgerungen:
- „Speicher nicht als Ziel, sondern als Einschränkung behandeln.“
- Sobald ein Modell auf das Gerät passt, ist danach die Kurve des Gleichgewichts zwischen TPS und Qualität entscheidend
- ByteShape erreicht auf allen Geräten bei gleicher Qualität höhere Geschwindigkeit oder bei gleicher Geschwindigkeit höhere Qualität
- Auf dem Raspberry Pi 5 eignet sich das Modell Q3_K_S-2.70bpw [KQ-2] für Echtzeit-Konversationen
- Dasselbe Prinzip gilt auch in großen CPU- und GPU-Umgebungen: „Erst passend machen, dann optimieren.“
- ByteShape will künftig weitere geräteoptimierte Modelle kontinuierlich veröffentlichen
1 Kommentare
Hacker-News-Kommentare
Ich denke, hier gibt es eine große Marktchance
Was ich will, ist ein Sprachassistent wie Alexa, aber ein System mit standardisierten Komponenten auf Basis von lokaler Inferenz und lokalem Speicher
Der Kern ist Privatsphäre und Interoperabilität. Wenn eine Kontoanmeldung oder die Verbindung zu externen Servern nötig ist, würde ich es nicht kaufen. Ich möchte Befehle wie „Freddy, stell einen Timer auf 10 Minuten“ lokal verarbeiten
Dabei stehen mehrere günstige Wi‑Fi- + Mikrofon- + Lautsprecher-Geräte im ganzen Haus verteilt, während die Sprachverarbeitung auf einer zentralen leistungsstarken Box erfolgt
Letztlich funktioniert das wie ein einziges Programm, daher könnte eine etwas stärkere Maschine mit zusätzlicher Wi‑Fi-Karte auch als Wi‑Fi-Extender dienen
Auch das Konzept des Wake Words gefällt mir nicht. Ich habe das Gefühl, dass es im gesamten Stack noch viel zu verbessern gibt
Ich frage mich, ob es gute Materialien gibt, mit denen man verschiedene Modelle leicht vergleichen kann
Ich kenne den Unterschied in der Parameterzahl zwischen gpt-oss-20b und gpt-oss-120b, aber ich weiß nicht genau, wie groß der reale Leistungsunterschied ist
Ich habe bisher nur große Modelle wie Gemini oder GPT benutzt, möchte aber wissen, bis zu wie kleinen Modellen ich auf meiner Hardware noch sinnvoll arbeiten kann
Ich habe nachgesehen, wie hoch die „Echtzeit“-Leistung tatsächlich ist
Auf einem Pi 5 (16GB) erreicht das Modell Q3_K_S-2.70bpw [KQ-2] 8.03 TPS und behält 94.18 % der BF16-Qualität bei
Der Artikel behandelt auch weitere Hardware-Details
Ich habe ebenfalls mit dem neuesten llama.cpp auf einem Pi 5 (16GB) experimentiert, dabei trat aber ein Segmentation Fault (segfault) auf
Es erschien eine Fehlermeldung wegen Speichermangels, und nach etwa 10GB RAM-Nutzung wurde der Prozess beendet
Mit der Option
-c 4096und verkleinerter Kontextgröße ließ sich das Modell erfolgreich ladenModelle wie BitNet b1.58-2B-4T-gguf scheinen sich auch gut für Vergleichstests auf leistungsschwachen Geräten oder Office-PCs nur mit iGPU zu eignen
Ich frage mich, ob die Methode zur Genauigkeitsmessung anders ist als die übliche Perplexity
Dass bei BF16 auf 2.8 reduziert wurde und der Qualitätsverlust trotzdem nur 5 % betragen soll, kommt mir seltsam vor
GPT-OSS-20B ist etwa 11.2GB groß, daher sollte es auch auf Geräten mit 16GB Speicher ohne Qualitätsverlust gut lauffähig sein