22 Punkte von GN⁺ 2026-01-07 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das Modell Qwen3-30B-A3B-Instruct-2507 läuft in Echtzeit auf dem Raspberry Pi 5 (16GB) und hält dabei 8,03 TPS sowie 94,18 % der BF16-Qualität
  • Mit ByteShapes ShapeLearn-Methode zum Lernen der Bitlänge wird das Gleichgewicht zwischen Geschwindigkeit und Qualität innerhalb der Speichergrenzen jedes Geräts optimiert
  • Gegenüber Unsloth und MagicQuant werden bei gleicher Qualität höhere TPS oder bei gleichen TPS eine höhere Qualität erreicht
  • Sowohl auf CPU als auch GPU (insbesondere RTX 5090 und 4080) zeigt sich nahe 4 Bit der optimale Leistungsbereich; eine geringere Bitzahl macht es nicht automatisch schneller
  • Insgesamt liefern ByteShape-Modelle mit dem Ansatz „Speicher als Budget betrachten und TPS/Qualität optimieren“ effiziente Leistung vom Edge-Gerät bis zum Rechenzentrum

Überblick über die ShapeLearn-basierte Optimierung

  • ByteShape optimiert die vom Nutzer wahrgenommene Geschwindigkeit und Antwortqualität bei der Modellausführung
    • ShapeLearn lernt für jeden Tensor den Gewichts-Datentyp (Bitlänge), um TPS (Token pro Sekunde) und Ausgabequalität gleichzeitig zu maximieren
    • Ziel ist nicht nur eine kleinere Dateigröße, sondern eine Verbesserung des tatsächlichen Gleichgewichts zwischen Geschwindigkeit und Qualität
  • In der llama.cpp-Umgebung steigt die Geschwindigkeit nicht zwangsläufig, nur weil die Bitzahl sinkt; Kernel-Auswahl und Overhead haben großen Einfluss auf die Leistung
  • ByteShape betrachtet Speicher als „Budget, das ausreichend passen muss“ und optimiert danach auf Basis von TPS und Qualität

Leistung auf dem Raspberry Pi 5

  • Auf dem Raspberry Pi 5 (16GB) hält das 30B-Modell 8,5 TPS bei über 92 % Genauigkeit
    • Das Modell Q3_K_S-2.70bpw [KQ-2] bietet Reaktionsgeschwindigkeit auf dem Niveau von Echtzeit-Konversationen
  • Beim genauigkeitsorientierten Modell erreicht ByteShape mit 1,1–1,3 % relativem Fehler (ca. 98,8 % Genauigkeit) gegenüber Unsloth eine um bis zu 1,87-fach niedrigere Fehlerrate
    • In derselben Umgebung werden 5–6 TPS gehalten, geeignet für auf Genauigkeit fokussierte Aufgaben
  • Auch das geschwindigkeitsorientierte Modell (Q3_K_S-3.25bpw [KQ-5]) ist kleiner und schneller als Unsloth und behält dabei einen Genauigkeitsvorteil
  • Viele Modelle von Unsloth und MagicQuant können wegen Speicherbeschränkungen in der Pi-Umgebung nicht ausgeführt werden

Leistung auf Intel i7 (64GB)

  • In einer Umgebung, in der alle Modelle in den Speicher passen, erreicht ByteShape höhere Qualität und höhere TPS als Unsloth und MagicQuant
  • Qualitätsorientierter Bereich: ByteShapes Modell IQ4_XS-4.67bpw [KQ-9] erzielt gegenüber Unsloths Q6_K eine 1,44-fach niedrigere Fehlerrate und zugleich höhere TPS
  • Ausgewogener Bereich: ByteShapes Modell Q3_K_S-3.25bpw hat eine 1,73-fach niedrigere Fehlerrate als Unsloth und ist MagicQuant bei Genauigkeit und Geschwindigkeit gleichermaßen überlegen
  • Nur ByteShape deckt gleichzeitig den Bereich von 26+ TPS und den Hochqualitätsbereich ab

GPU-Leistungsvergleich (RTX 5090 / RTX 4080)

  • Auf GPUs bestimmen Kernel-Auswahl und Effizienz des VRAM-Zugriffs die Leistung
    • Nahe 4 Bit (~4bpw) liegt der Sweet Spot für TPS und Qualität
  • RTX 5090 (32GB)
    • Unsloth, MagicQuant und ByteShape erreichen im 4b-Bereich jeweils 302–303 TPS bei 98,4–98,9 % Genauigkeit
    • ByteShapes Modell IQ4_XS-4.67bpw erzielt mit 272,98 TPS und 99,75 % Genauigkeit die höchste Genauigkeit
    • Es ist Unsloths Q6_K (6,57bpw, 264,88 TPS, 99,64 %) und MagicQuants mxfp4 (5,46bpw, 240,42 TPS, 99,32 %) überlegen
  • RTX 4080 (16GB)
    • Wegen VRAM-Beschränkungen sind 4b-Modelle nicht möglich; unter denselben 16GB-Bedingungen ist ByteShape Unsloth bei TPS und Genauigkeit gleichermaßen überlegen
    • ByteShape IQ4_XS-3.87bpw: 214,81 TPS, 98,66 % Genauigkeit
      • Gegenüber Unsloth Q3_K_XL 1,59-fach niedrigere Fehlerrate, 9,4 % höhere TPS
      • Gegenüber Unsloth IQ2_M 2,54-fach niedrigere Fehlerrate

Das Paradox von Bitzahl und Geschwindigkeit

  • Auch unter 3 Bit ist ein Geschwindigkeitsgewinn nicht garantiert
    • GPUs arbeiten in 32-Thread-Warps und sind auf bestimmte Datenformate und Zugriffsmuster optimiert
    • VRAM wird in auf 32 Byte ausgerichteten Blöcken gelesen, daher verbrauchen auch kleinere Daten dieselbe Bandbreite
    • Eine geringere Bitbreite kann durch steigenden Decodierungs-Overhead sogar langsamer werden
  • Beispiel: Auf der RTX 5090 benötigt iq4_xs 54µs, iq3_xxs 62µs → 25 % weniger Größe führen zu 13 % weniger Geschwindigkeit
  • ShapeLearn berücksichtigt diese Hardware-Eigenschaften und wählt Datentypen pro Tensor, um Geschwindigkeit und Genauigkeit gleichzeitig sicherzustellen

Bewertungsmethode und Fazit

  • Alle Modelle wurden mit derselben Evaluierungs-Harness hinsichtlich TPS und normalisiertem Qualitätswert (gegenüber BF16) gemessen
    • Die Qualitätsbewertung bündelt die Ergebnisse von MMLU, GSM8K, IFEval, LiveCodeBench V4
  • Zentrale Schlussfolgerungen:
    • „Speicher nicht als Ziel, sondern als Einschränkung behandeln.“
    • Sobald ein Modell auf das Gerät passt, ist danach die Kurve des Gleichgewichts zwischen TPS und Qualität entscheidend
    • ByteShape erreicht auf allen Geräten bei gleicher Qualität höhere Geschwindigkeit oder bei gleicher Geschwindigkeit höhere Qualität
  • Auf dem Raspberry Pi 5 eignet sich das Modell Q3_K_S-2.70bpw [KQ-2] für Echtzeit-Konversationen
  • Dasselbe Prinzip gilt auch in großen CPU- und GPU-Umgebungen: „Erst passend machen, dann optimieren.“
  • ByteShape will künftig weitere geräteoptimierte Modelle kontinuierlich veröffentlichen

Noch keine Kommentare.

Noch keine Kommentare.