- Das Modell Qwen3-30B-A3B-Instruct-2507 läuft in Echtzeit auf dem Raspberry Pi 5 (16GB) und hält dabei 8,03 TPS sowie 94,18 % der BF16-Qualität
- Mit ByteShapes ShapeLearn-Methode zum Lernen der Bitlänge wird das Gleichgewicht zwischen Geschwindigkeit und Qualität innerhalb der Speichergrenzen jedes Geräts optimiert
- Gegenüber Unsloth und MagicQuant werden bei gleicher Qualität höhere TPS oder bei gleichen TPS eine höhere Qualität erreicht
- Sowohl auf CPU als auch GPU (insbesondere RTX 5090 und 4080) zeigt sich nahe 4 Bit der optimale Leistungsbereich; eine geringere Bitzahl macht es nicht automatisch schneller
- Insgesamt liefern ByteShape-Modelle mit dem Ansatz „Speicher als Budget betrachten und TPS/Qualität optimieren“ effiziente Leistung vom Edge-Gerät bis zum Rechenzentrum
Überblick über die ShapeLearn-basierte Optimierung
- ByteShape optimiert die vom Nutzer wahrgenommene Geschwindigkeit und Antwortqualität bei der Modellausführung
- ShapeLearn lernt für jeden Tensor den Gewichts-Datentyp (Bitlänge), um TPS (Token pro Sekunde) und Ausgabequalität gleichzeitig zu maximieren
- Ziel ist nicht nur eine kleinere Dateigröße, sondern eine Verbesserung des tatsächlichen Gleichgewichts zwischen Geschwindigkeit und Qualität
- In der llama.cpp-Umgebung steigt die Geschwindigkeit nicht zwangsläufig, nur weil die Bitzahl sinkt; Kernel-Auswahl und Overhead haben großen Einfluss auf die Leistung
- ByteShape betrachtet Speicher als „Budget, das ausreichend passen muss“ und optimiert danach auf Basis von TPS und Qualität
Leistung auf dem Raspberry Pi 5
- Auf dem Raspberry Pi 5 (16GB) hält das 30B-Modell 8,5 TPS bei über 92 % Genauigkeit
- Das Modell Q3_K_S-2.70bpw [KQ-2] bietet Reaktionsgeschwindigkeit auf dem Niveau von Echtzeit-Konversationen
- Beim genauigkeitsorientierten Modell erreicht ByteShape mit 1,1–1,3 % relativem Fehler (ca. 98,8 % Genauigkeit) gegenüber Unsloth eine um bis zu 1,87-fach niedrigere Fehlerrate
- In derselben Umgebung werden 5–6 TPS gehalten, geeignet für auf Genauigkeit fokussierte Aufgaben
- Auch das geschwindigkeitsorientierte Modell (Q3_K_S-3.25bpw [KQ-5]) ist kleiner und schneller als Unsloth und behält dabei einen Genauigkeitsvorteil
- Viele Modelle von Unsloth und MagicQuant können wegen Speicherbeschränkungen in der Pi-Umgebung nicht ausgeführt werden
Leistung auf Intel i7 (64GB)
- In einer Umgebung, in der alle Modelle in den Speicher passen, erreicht ByteShape höhere Qualität und höhere TPS als Unsloth und MagicQuant
- Qualitätsorientierter Bereich: ByteShapes Modell IQ4_XS-4.67bpw [KQ-9] erzielt gegenüber Unsloths Q6_K eine 1,44-fach niedrigere Fehlerrate und zugleich höhere TPS
- Ausgewogener Bereich: ByteShapes Modell Q3_K_S-3.25bpw hat eine 1,73-fach niedrigere Fehlerrate als Unsloth und ist MagicQuant bei Genauigkeit und Geschwindigkeit gleichermaßen überlegen
- Nur ByteShape deckt gleichzeitig den Bereich von 26+ TPS und den Hochqualitätsbereich ab
GPU-Leistungsvergleich (RTX 5090 / RTX 4080)
- Auf GPUs bestimmen Kernel-Auswahl und Effizienz des VRAM-Zugriffs die Leistung
- Nahe 4 Bit (~4bpw) liegt der Sweet Spot für TPS und Qualität
- RTX 5090 (32GB)
- Unsloth, MagicQuant und ByteShape erreichen im 4b-Bereich jeweils 302–303 TPS bei 98,4–98,9 % Genauigkeit
- ByteShapes Modell IQ4_XS-4.67bpw erzielt mit 272,98 TPS und 99,75 % Genauigkeit die höchste Genauigkeit
- Es ist Unsloths Q6_K (6,57bpw, 264,88 TPS, 99,64 %) und MagicQuants mxfp4 (5,46bpw, 240,42 TPS, 99,32 %) überlegen
- RTX 4080 (16GB)
- Wegen VRAM-Beschränkungen sind 4b-Modelle nicht möglich; unter denselben 16GB-Bedingungen ist ByteShape Unsloth bei TPS und Genauigkeit gleichermaßen überlegen
- ByteShape IQ4_XS-3.87bpw: 214,81 TPS, 98,66 % Genauigkeit
- Gegenüber Unsloth Q3_K_XL 1,59-fach niedrigere Fehlerrate, 9,4 % höhere TPS
- Gegenüber Unsloth IQ2_M 2,54-fach niedrigere Fehlerrate
Das Paradox von Bitzahl und Geschwindigkeit
- Auch unter 3 Bit ist ein Geschwindigkeitsgewinn nicht garantiert
- GPUs arbeiten in 32-Thread-Warps und sind auf bestimmte Datenformate und Zugriffsmuster optimiert
- VRAM wird in auf 32 Byte ausgerichteten Blöcken gelesen, daher verbrauchen auch kleinere Daten dieselbe Bandbreite
- Eine geringere Bitbreite kann durch steigenden Decodierungs-Overhead sogar langsamer werden
- Beispiel: Auf der RTX 5090 benötigt
iq4_xs 54µs, iq3_xxs 62µs → 25 % weniger Größe führen zu 13 % weniger Geschwindigkeit
- ShapeLearn berücksichtigt diese Hardware-Eigenschaften und wählt Datentypen pro Tensor, um Geschwindigkeit und Genauigkeit gleichzeitig sicherzustellen
Bewertungsmethode und Fazit
- Alle Modelle wurden mit derselben Evaluierungs-Harness hinsichtlich TPS und normalisiertem Qualitätswert (gegenüber BF16) gemessen
- Die Qualitätsbewertung bündelt die Ergebnisse von MMLU, GSM8K, IFEval, LiveCodeBench V4
- Zentrale Schlussfolgerungen:
- „Speicher nicht als Ziel, sondern als Einschränkung behandeln.“
- Sobald ein Modell auf das Gerät passt, ist danach die Kurve des Gleichgewichts zwischen TPS und Qualität entscheidend
- ByteShape erreicht auf allen Geräten bei gleicher Qualität höhere Geschwindigkeit oder bei gleicher Geschwindigkeit höhere Qualität
- Auf dem Raspberry Pi 5 eignet sich das Modell Q3_K_S-2.70bpw [KQ-2] für Echtzeit-Konversationen
- Dasselbe Prinzip gilt auch in großen CPU- und GPU-Umgebungen: „Erst passend machen, dann optimieren.“
- ByteShape will künftig weitere geräteoptimierte Modelle kontinuierlich veröffentlichen
Noch keine Kommentare.