22 Punkte von GN⁺ 2026-01-07 | 1 Kommentare | Auf WhatsApp teilen
  • Das Modell Qwen3-30B-A3B-Instruct-2507 läuft in Echtzeit auf dem Raspberry Pi 5 (16GB) und hält dabei 8,03 TPS sowie 94,18 % der BF16-Qualität
  • Mit ByteShapes ShapeLearn-Methode zum Lernen der Bitlänge wird das Gleichgewicht zwischen Geschwindigkeit und Qualität innerhalb der Speichergrenzen jedes Geräts optimiert
  • Gegenüber Unsloth und MagicQuant werden bei gleicher Qualität höhere TPS oder bei gleichen TPS eine höhere Qualität erreicht
  • Sowohl auf CPU als auch GPU (insbesondere RTX 5090 und 4080) zeigt sich nahe 4 Bit der optimale Leistungsbereich; eine geringere Bitzahl macht es nicht automatisch schneller
  • Insgesamt liefern ByteShape-Modelle mit dem Ansatz „Speicher als Budget betrachten und TPS/Qualität optimieren“ effiziente Leistung vom Edge-Gerät bis zum Rechenzentrum

Überblick über die ShapeLearn-basierte Optimierung

  • ByteShape optimiert die vom Nutzer wahrgenommene Geschwindigkeit und Antwortqualität bei der Modellausführung
    • ShapeLearn lernt für jeden Tensor den Gewichts-Datentyp (Bitlänge), um TPS (Token pro Sekunde) und Ausgabequalität gleichzeitig zu maximieren
    • Ziel ist nicht nur eine kleinere Dateigröße, sondern eine Verbesserung des tatsächlichen Gleichgewichts zwischen Geschwindigkeit und Qualität
  • In der llama.cpp-Umgebung steigt die Geschwindigkeit nicht zwangsläufig, nur weil die Bitzahl sinkt; Kernel-Auswahl und Overhead haben großen Einfluss auf die Leistung
  • ByteShape betrachtet Speicher als „Budget, das ausreichend passen muss“ und optimiert danach auf Basis von TPS und Qualität

Leistung auf dem Raspberry Pi 5

  • Auf dem Raspberry Pi 5 (16GB) hält das 30B-Modell 8,5 TPS bei über 92 % Genauigkeit
    • Das Modell Q3_K_S-2.70bpw [KQ-2] bietet Reaktionsgeschwindigkeit auf dem Niveau von Echtzeit-Konversationen
  • Beim genauigkeitsorientierten Modell erreicht ByteShape mit 1,1–1,3 % relativem Fehler (ca. 98,8 % Genauigkeit) gegenüber Unsloth eine um bis zu 1,87-fach niedrigere Fehlerrate
    • In derselben Umgebung werden 5–6 TPS gehalten, geeignet für auf Genauigkeit fokussierte Aufgaben
  • Auch das geschwindigkeitsorientierte Modell (Q3_K_S-3.25bpw [KQ-5]) ist kleiner und schneller als Unsloth und behält dabei einen Genauigkeitsvorteil
  • Viele Modelle von Unsloth und MagicQuant können wegen Speicherbeschränkungen in der Pi-Umgebung nicht ausgeführt werden

Leistung auf Intel i7 (64GB)

  • In einer Umgebung, in der alle Modelle in den Speicher passen, erreicht ByteShape höhere Qualität und höhere TPS als Unsloth und MagicQuant
  • Qualitätsorientierter Bereich: ByteShapes Modell IQ4_XS-4.67bpw [KQ-9] erzielt gegenüber Unsloths Q6_K eine 1,44-fach niedrigere Fehlerrate und zugleich höhere TPS
  • Ausgewogener Bereich: ByteShapes Modell Q3_K_S-3.25bpw hat eine 1,73-fach niedrigere Fehlerrate als Unsloth und ist MagicQuant bei Genauigkeit und Geschwindigkeit gleichermaßen überlegen
  • Nur ByteShape deckt gleichzeitig den Bereich von 26+ TPS und den Hochqualitätsbereich ab

GPU-Leistungsvergleich (RTX 5090 / RTX 4080)

  • Auf GPUs bestimmen Kernel-Auswahl und Effizienz des VRAM-Zugriffs die Leistung
    • Nahe 4 Bit (~4bpw) liegt der Sweet Spot für TPS und Qualität
  • RTX 5090 (32GB)
    • Unsloth, MagicQuant und ByteShape erreichen im 4b-Bereich jeweils 302–303 TPS bei 98,4–98,9 % Genauigkeit
    • ByteShapes Modell IQ4_XS-4.67bpw erzielt mit 272,98 TPS und 99,75 % Genauigkeit die höchste Genauigkeit
    • Es ist Unsloths Q6_K (6,57bpw, 264,88 TPS, 99,64 %) und MagicQuants mxfp4 (5,46bpw, 240,42 TPS, 99,32 %) überlegen
  • RTX 4080 (16GB)
    • Wegen VRAM-Beschränkungen sind 4b-Modelle nicht möglich; unter denselben 16GB-Bedingungen ist ByteShape Unsloth bei TPS und Genauigkeit gleichermaßen überlegen
    • ByteShape IQ4_XS-3.87bpw: 214,81 TPS, 98,66 % Genauigkeit
      • Gegenüber Unsloth Q3_K_XL 1,59-fach niedrigere Fehlerrate, 9,4 % höhere TPS
      • Gegenüber Unsloth IQ2_M 2,54-fach niedrigere Fehlerrate

Das Paradox von Bitzahl und Geschwindigkeit

  • Auch unter 3 Bit ist ein Geschwindigkeitsgewinn nicht garantiert
    • GPUs arbeiten in 32-Thread-Warps und sind auf bestimmte Datenformate und Zugriffsmuster optimiert
    • VRAM wird in auf 32 Byte ausgerichteten Blöcken gelesen, daher verbrauchen auch kleinere Daten dieselbe Bandbreite
    • Eine geringere Bitbreite kann durch steigenden Decodierungs-Overhead sogar langsamer werden
  • Beispiel: Auf der RTX 5090 benötigt iq4_xs 54µs, iq3_xxs 62µs → 25 % weniger Größe führen zu 13 % weniger Geschwindigkeit
  • ShapeLearn berücksichtigt diese Hardware-Eigenschaften und wählt Datentypen pro Tensor, um Geschwindigkeit und Genauigkeit gleichzeitig sicherzustellen

Bewertungsmethode und Fazit

  • Alle Modelle wurden mit derselben Evaluierungs-Harness hinsichtlich TPS und normalisiertem Qualitätswert (gegenüber BF16) gemessen
    • Die Qualitätsbewertung bündelt die Ergebnisse von MMLU, GSM8K, IFEval, LiveCodeBench V4
  • Zentrale Schlussfolgerungen:
    • „Speicher nicht als Ziel, sondern als Einschränkung behandeln.“
    • Sobald ein Modell auf das Gerät passt, ist danach die Kurve des Gleichgewichts zwischen TPS und Qualität entscheidend
    • ByteShape erreicht auf allen Geräten bei gleicher Qualität höhere Geschwindigkeit oder bei gleicher Geschwindigkeit höhere Qualität
  • Auf dem Raspberry Pi 5 eignet sich das Modell Q3_K_S-2.70bpw [KQ-2] für Echtzeit-Konversationen
  • Dasselbe Prinzip gilt auch in großen CPU- und GPU-Umgebungen: „Erst passend machen, dann optimieren.“
  • ByteShape will künftig weitere geräteoptimierte Modelle kontinuierlich veröffentlichen

1 Kommentare

 
GN⁺ 2026-01-07
Hacker-News-Kommentare
  • Ich denke, hier gibt es eine große Marktchance
    Was ich will, ist ein Sprachassistent wie Alexa, aber ein System mit standardisierten Komponenten auf Basis von lokaler Inferenz und lokalem Speicher

    • Interaktives Gerät: ein Gerät wie von Alexa/Google/Apple mit guten Lautsprechern und Sprachsteuerung oder ein TV-Eingabegerät. Es wäre gut, wenn es auch als Wi‑Fi-Extender oder Router dienen könnte. Ich würde gern in jedem Raum eines haben und so ein echtes Mesh-Netzwerk aufbauen
    • Home-Cloud-Server: ein Gerät mit günstiger CPU, etwas RAM und ausreichend Speicherplatz, das als zentraler Knoten für die Verwaltung der Apps im Haus und von Netzwerk-Backups dient
    • Inferenz-Engine: Sie sollte Dienste auf standardisierte Weise bekanntmachen, und es wäre gut, wenn sich die Steuerknoten automatisch verbinden würden. Ich möchte eine Plug-and-Play-Umgebung, die einfach nach dem Einstecken funktioniert
      Der Kern ist Privatsphäre und Interoperabilität. Wenn eine Kontoanmeldung oder die Verbindung zu externen Servern nötig ist, würde ich es nicht kaufen. Ich möchte Befehle wie „Freddy, stell einen Timer auf 10 Minuten“ lokal verarbeiten
    • Es gibt zwar noch kein vollständig echtes Plug-and-Play-Produkt, aber ich habe mit Home Assistant und dessen Voice Preview Edition ziemlich gute Ergebnisse erzielt
      Dabei stehen mehrere günstige Wi‑Fi- + Mikrofon- + Lautsprecher-Geräte im ganzen Haus verteilt, während die Sprachverarbeitung auf einer zentralen leistungsstarken Box erfolgt
      Letztlich funktioniert das wie ein einziges Programm, daher könnte eine etwas stärkere Maschine mit zusätzlicher Wi‑Fi-Karte auch als Wi‑Fi-Extender dienen
    • Ich kann mich mit dieser Idee ebenfalls identifizieren. Ich habe Schwierigkeiten, in Home Assistant (HA) die Sprachverbindung zu ChatGPT nahtlos hinzubekommen
      Auch das Konzept des Wake Words gefällt mir nicht. Ich habe das Gefühl, dass es im gesamten Stack noch viel zu verbessern gibt
    • Und ich denke, es wäre auch interessant, so ein System in Spielzeug einzubauen
  • Ich frage mich, ob es gute Materialien gibt, mit denen man verschiedene Modelle leicht vergleichen kann
    Ich kenne den Unterschied in der Parameterzahl zwischen gpt-oss-20b und gpt-oss-120b, aber ich weiß nicht genau, wie groß der reale Leistungsunterschied ist
    Ich habe bisher nur große Modelle wie Gemini oder GPT benutzt, möchte aber wissen, bis zu wie kleinen Modellen ich auf meiner Hardware noch sinnvoll arbeiten kann

  • Ich habe nachgesehen, wie hoch die „Echtzeit“-Leistung tatsächlich ist
    Auf einem Pi 5 (16GB) erreicht das Modell Q3_K_S-2.70bpw [KQ-2] 8.03 TPS und behält 94.18 % der BF16-Qualität bei
    Der Artikel behandelt auch weitere Hardware-Details

    • Ich fände es gut, wenn es eine Hacker-News-Zusammenfassungsseite gäbe, die nur solche Kernzahlen herausfiltert und anzeigt
  • Ich habe ebenfalls mit dem neuesten llama.cpp auf einem Pi 5 (16GB) experimentiert, dabei trat aber ein Segmentation Fault (segfault) auf
    Es erschien eine Fehlermeldung wegen Speichermangels, und nach etwa 10GB RAM-Nutzung wurde der Prozess beendet
    Mit der Option -c 4096 und verkleinerter Kontextgröße ließ sich das Modell erfolgreich laden

    • Einen Versuch wert wären auch 4-Bit-quantisierte Modelle von illama oder ik_llama.cpp sowie Microsoft BitNet
      Modelle wie BitNet b1.58-2B-4T-gguf scheinen sich auch gut für Vergleichstests auf leistungsschwachen Geräten oder Office-PCs nur mit iGPU zu eignen
    • Vielleicht wurde auch Swap-Speicher hinzugefügt
  • Ich frage mich, ob die Methode zur Genauigkeitsmessung anders ist als die übliche Perplexity
    Dass bei BF16 auf 2.8 reduziert wurde und der Qualitätsverlust trotzdem nur 5 % betragen soll, kommt mir seltsam vor

  • GPT-OSS-20B ist etwa 11.2GB groß, daher sollte es auch auf Geräten mit 16GB Speicher ohne Qualitätsverlust gut lauffähig sein