30-Milliarden-Parameter-Qwen-Modell läuft in Echtzeit auf dem Raspberry Pi

(byteshape.com)

22 Punkte von GN⁺ 2026-01-07 | Noch keine Kommentare. | Auf WhatsApp teilen

Das Modell Qwen3-30B-A3B-Instruct-2507 läuft in Echtzeit auf dem Raspberry Pi 5 (16GB) und hält dabei 8,03 TPS sowie 94,18 % der BF16-Qualität
Mit ByteShapes ShapeLearn-Methode zum Lernen der Bitlänge wird das Gleichgewicht zwischen Geschwindigkeit und Qualität innerhalb der Speichergrenzen jedes Geräts optimiert
Gegenüber Unsloth und MagicQuant werden bei gleicher Qualität höhere TPS oder bei gleichen TPS eine höhere Qualität erreicht
Sowohl auf CPU als auch GPU (insbesondere RTX 5090 und 4080) zeigt sich nahe 4 Bit der optimale Leistungsbereich; eine geringere Bitzahl macht es nicht automatisch schneller
Insgesamt liefern ByteShape-Modelle mit dem Ansatz „Speicher als Budget betrachten und TPS/Qualität optimieren“ effiziente Leistung vom Edge-Gerät bis zum Rechenzentrum

Überblick über die ShapeLearn-basierte Optimierung

ByteShape optimiert die vom Nutzer wahrgenommene Geschwindigkeit und Antwortqualität bei der Modellausführung
- ShapeLearn lernt für jeden Tensor den Gewichts-Datentyp (Bitlänge), um TPS (Token pro Sekunde) und Ausgabequalität gleichzeitig zu maximieren
- Ziel ist nicht nur eine kleinere Dateigröße, sondern eine Verbesserung des tatsächlichen Gleichgewichts zwischen Geschwindigkeit und Qualität
In der llama.cpp-Umgebung steigt die Geschwindigkeit nicht zwangsläufig, nur weil die Bitzahl sinkt; Kernel-Auswahl und Overhead haben großen Einfluss auf die Leistung
ByteShape betrachtet Speicher als „Budget, das ausreichend passen muss“ und optimiert danach auf Basis von TPS und Qualität

Auf dem Raspberry Pi 5 (16GB) hält das 30B-Modell 8,5 TPS bei über 92 % Genauigkeit
- Das Modell Q3_K_S-2.70bpw [KQ-2] bietet Reaktionsgeschwindigkeit auf dem Niveau von Echtzeit-Konversationen
Beim genauigkeitsorientierten Modell erreicht ByteShape mit 1,1–1,3 % relativem Fehler (ca. 98,8 % Genauigkeit) gegenüber Unsloth eine um bis zu 1,87-fach niedrigere Fehlerrate
- In derselben Umgebung werden 5–6 TPS gehalten, geeignet für auf Genauigkeit fokussierte Aufgaben
Auch das geschwindigkeitsorientierte Modell (Q3_K_S-3.25bpw [KQ-5]) ist kleiner und schneller als Unsloth und behält dabei einen Genauigkeitsvorteil
Viele Modelle von Unsloth und MagicQuant können wegen Speicherbeschränkungen in der Pi-Umgebung nicht ausgeführt werden

In einer Umgebung, in der alle Modelle in den Speicher passen, erreicht ByteShape höhere Qualität und höhere TPS als Unsloth und MagicQuant
Qualitätsorientierter Bereich: ByteShapes Modell IQ4_XS-4.67bpw [KQ-9] erzielt gegenüber Unsloths Q6_K eine 1,44-fach niedrigere Fehlerrate und zugleich höhere TPS
Ausgewogener Bereich: ByteShapes Modell Q3_K_S-3.25bpw hat eine 1,73-fach niedrigere Fehlerrate als Unsloth und ist MagicQuant bei Genauigkeit und Geschwindigkeit gleichermaßen überlegen
Nur ByteShape deckt gleichzeitig den Bereich von 26+ TPS und den Hochqualitätsbereich ab

Auf GPUs bestimmen Kernel-Auswahl und Effizienz des VRAM-Zugriffs die Leistung
- Nahe 4 Bit (~4bpw) liegt der Sweet Spot für TPS und Qualität
RTX 5090 (32GB)
- Unsloth, MagicQuant und ByteShape erreichen im 4b-Bereich jeweils 302–303 TPS bei 98,4–98,9 % Genauigkeit
- ByteShapes Modell IQ4_XS-4.67bpw erzielt mit 272,98 TPS und 99,75 % Genauigkeit die höchste Genauigkeit
- Es ist Unsloths Q6_K (6,57bpw, 264,88 TPS, 99,64 %) und MagicQuants mxfp4 (5,46bpw, 240,42 TPS, 99,32 %) überlegen
RTX 4080 (16GB)
- Wegen VRAM-Beschränkungen sind 4b-Modelle nicht möglich; unter denselben 16GB-Bedingungen ist ByteShape Unsloth bei TPS und Genauigkeit gleichermaßen überlegen
- ByteShape IQ4_XS-3.87bpw: 214,81 TPS, 98,66 % Genauigkeit
  - Gegenüber Unsloth Q3_K_XL 1,59-fach niedrigere Fehlerrate, 9,4 % höhere TPS
  - Gegenüber Unsloth IQ2_M 2,54-fach niedrigere Fehlerrate

Auch unter 3 Bit ist ein Geschwindigkeitsgewinn nicht garantiert
- GPUs arbeiten in 32-Thread-Warps und sind auf bestimmte Datenformate und Zugriffsmuster optimiert
- VRAM wird in auf 32 Byte ausgerichteten Blöcken gelesen, daher verbrauchen auch kleinere Daten dieselbe Bandbreite
- Eine geringere Bitbreite kann durch steigenden Decodierungs-Overhead sogar langsamer werden
Beispiel: Auf der RTX 5090 benötigt iq4_xs 54µs, iq3_xxs 62µs → 25 % weniger Größe führen zu 13 % weniger Geschwindigkeit
ShapeLearn berücksichtigt diese Hardware-Eigenschaften und wählt Datentypen pro Tensor, um Geschwindigkeit und Genauigkeit gleichzeitig sicherzustellen

Alle Modelle wurden mit derselben Evaluierungs-Harness hinsichtlich TPS und normalisiertem Qualitätswert (gegenüber BF16) gemessen
- Die Qualitätsbewertung bündelt die Ergebnisse von MMLU, GSM8K, IFEval, LiveCodeBench V4
Zentrale Schlussfolgerungen:
- „Speicher nicht als Ziel, sondern als Einschränkung behandeln.“
- Sobald ein Modell auf das Gerät passt, ist danach die Kurve des Gleichgewichts zwischen TPS und Qualität entscheidend
- ByteShape erreicht auf allen Geräten bei gleicher Qualität höhere Geschwindigkeit oder bei gleicher Geschwindigkeit höhere Qualität
Auf dem Raspberry Pi 5 eignet sich das Modell Q3_K_S-2.70bpw [KQ-2] für Echtzeit-Konversationen
Dasselbe Prinzip gilt auch in großen CPU- und GPU-Umgebungen: „Erst passend machen, dann optimieren.“
ByteShape will künftig weitere geräteoptimierte Modelle kontinuierlich veröffentlichen