13 Token pro Sekunde mit Qwen3 30B A3B auf 4 Raspberry Pi 5 erreicht

(github.com/b4rtaz)

18 Punkte von GN⁺ 2025-09-09 | 3 Kommentare | Auf WhatsApp teilen

Vorstellung eines Setup- und Benchmark-Beispiels, bei dem vier kleine Raspberry-Pi-Boards als verteilte Inferenzknoten zusammengeschaltet wurden, um das quantisierte Modell Qwen3 30B MoE A3B Q40 auszuführen
Netzwerkaufbau über einen Switch mit 1 ROOT + 3 WORKER (alle Raspberry Pi 5 mit 8 GB)
Die Token-Erzeugungsrate wurde in der Evaluierungsphase mit 14.33 tok/s und in der Vorhersagephase mit 13.04 tok/s gemessen
Das Modell basiert auf der Qwen3-MoE-Architektur und besteht aus 48 Layern und 128 Experten
Durch kostengünstige Hardware wird die Ausführung leistungsfähiger Sprachmodelle möglich, was das Potenzial von Raspberry-Pi-Clustern und kosteneffizienter AI-Forschung zeigt

Projektüberblick

Mit Distributed Llama v0.16.0 wurde das Modell Qwen3 30B A3B Q40 auf vier Raspberry Pi 5 mit 8 GB ausgeführt
- Entwickelt, um große Sprachmodelle auf kostengünstigen Geräten lauffähig zu machen
- Netzwerkverbindung über einen TP-Link-LS1008G-Switch
Das Hauptziel ist, AI-Modelle auch ohne High-Performance-Computing-Ressourcen effizient zu betreiben
- Verteilung der Arbeit auf vier Geräte (1 Root, 3 Worker)
- IP-Adressen: Root (10.0.0.2), Worker (10.0.0.1, 10.0.0.3, 10.0.0.4)

Hardware- und Netzwerkkonfiguration

Aufbau: Cluster aus vier Raspberry Pi 5 mit 8 GB
- Jedes Gerät ist mit einem TP-Link-LS1008G-Switch verbunden
- Der Root-Knoten und drei Worker-Knoten kommunizieren über das Netzwerk
Netzwerkinitialisierung: Erfolgreiche Verbindung zu allen Worker-Knoten (10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999)
- Netzwerkbetrieb im Non-Blocking-Modus
- Datenübertragung: bei der Evaluierung 12084 kB gesendet, 20085 kB empfangen
CPU-Nutzung: Optimierte Rechenverarbeitung mit Unterstützung für Neon Dotprod FP16

Modelldetails

Modell: Qwen3 30B A3B Q40
- Architektur: Qwen3 MoE (Mixture of Experts)
- Anzahl der Layer: 48
- Anzahl der Experten: 128, davon 8 aktiv
- Dimensionen: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
Tokenizer: Vokabulargröße 151669, mit einer leichten Abweichung zur Modell-Vokabulargröße von 151936
- Allgemeine Vokabulargröße: 151643
- Spezielle Vokabulargröße: 26
Speicherbedarf: 5513 MB
- Maximale Sequenzlänge: 4096
- NormEpsilon: 0.000001, RopeTheta: 10000000

Benchmark-Leistung

Evaluierungsphase
- Batch-Anzahl: 32
- Token-Anzahl: 19
- Token-Erzeugungsrate: 14.33 tok/s (69.80 ms/tok)
Vorhersagephase
- Token-Anzahl: 109
- Token-Erzeugungsrate: 13.04 tok/s (76.69 ms/tok)
Detaillierte Vorhersagelogs:
- Pro Vorhersageschritt etwa 49–70 ms, Synchronisationszeit 14–94 ms
- Gesendete Daten 636 kB, empfangene Daten 1057 kB, konstant über die Schritte hinweg
- Beispiele erzeugter Tokens: "Of", "course", "Poland"
- Thread-Anzahl: 4
- Buffer-Float-Typ: Q80
- Maximale Sequenzlänge: 4096

Hinweise und Einschränkungen (Notes & Caveats)

Es gibt eine Warnung wegen einer Abweichung zwischen Tokenizer vocab size und Model vocab size; daher ist eine Überprüfung der Tokenizer-Konsistenz erforderlich
A3B Q40 ist eine aggressive Quantisierung, daher sollte der Trade-off bei Präzision und Antwortqualität berücksichtigt werden
Die Konfiguration Pi 5 8GB × 4 hat Grenzen bei Speicher und Rechenleistung, daher sind je nach Prompt-Länge, Parallelität und Netzwerkqualität größere Schwankungen möglich

Praktische Bedeutung

Ein Projekt, das die Möglichkeit einer kostengünstigen AI-Ausführung demonstriert
Als reproduzierbares Beispiel für die verteilte Ausführung eines MoE-Modells der 30B-Klasse auf einem kostengünstigen SBC-Cluster kann es als Referenz dienen, um die Hürde für On-Premises-Leichtgewichtsinferenz und Entwicklungsversuche zu senken
Enthält Netzwerk- und Synchronisationslogs pro Token und liefert damit aussagekräftige Daten zum Messen und Tunen des verteilten Overheads
Die Kombination aus verteiltem Framework + quantisiertem Modell kann in Edge-/persönlichen Forschungsumgebungen die Leistung im Verhältnis zu TCO verbessern

3 Kommentare

seohc 2025-09-10

Die n-Serie-Mini-PCs sind auch günstig, aber wenn man vier 16-GB-Geräte zusammenschaltet ... wenn ich so darüber nachdenke, landet man wohl beim Preis eines 8845 mit 32 GB, haha

ndrgrd 2025-09-10

Beeindruckend. Ich finde es gut, dass es in letzter Zeit immer mehr Informationen zum Betrieb von LLMs mit geringer Last gibt.

developerjhp 2025-09-09

Unglaublich..