- Vorstellung eines Setup- und Benchmark-Beispiels, bei dem vier kleine Raspberry-Pi-Boards als verteilte Inferenzknoten zusammengeschaltet wurden, um das quantisierte Modell Qwen3 30B MoE A3B Q40 auszuführen
- Netzwerkaufbau über einen Switch mit 1 ROOT + 3 WORKER (alle Raspberry Pi 5 mit 8 GB)
- Die Token-Erzeugungsrate wurde in der Evaluierungsphase mit 14.33 tok/s und in der Vorhersagephase mit 13.04 tok/s gemessen
- Das Modell basiert auf der Qwen3-MoE-Architektur und besteht aus 48 Layern und 128 Experten
- Durch kostengünstige Hardware wird die Ausführung leistungsfähiger Sprachmodelle möglich, was das Potenzial von Raspberry-Pi-Clustern und kosteneffizienter AI-Forschung zeigt
Projektüberblick
- Mit Distributed Llama v0.16.0 wurde das Modell Qwen3 30B A3B Q40 auf vier Raspberry Pi 5 mit 8 GB ausgeführt
- Entwickelt, um große Sprachmodelle auf kostengünstigen Geräten lauffähig zu machen
- Netzwerkverbindung über einen TP-Link-LS1008G-Switch
- Das Hauptziel ist, AI-Modelle auch ohne High-Performance-Computing-Ressourcen effizient zu betreiben
- Verteilung der Arbeit auf vier Geräte (1 Root, 3 Worker)
- IP-Adressen: Root (10.0.0.2), Worker (10.0.0.1, 10.0.0.3, 10.0.0.4)
Hardware- und Netzwerkkonfiguration
- Aufbau: Cluster aus vier Raspberry Pi 5 mit 8 GB
- Jedes Gerät ist mit einem TP-Link-LS1008G-Switch verbunden
- Der Root-Knoten und drei Worker-Knoten kommunizieren über das Netzwerk
- Netzwerkinitialisierung: Erfolgreiche Verbindung zu allen Worker-Knoten (10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999)
- Netzwerkbetrieb im Non-Blocking-Modus
- Datenübertragung: bei der Evaluierung 12084 kB gesendet, 20085 kB empfangen
- CPU-Nutzung: Optimierte Rechenverarbeitung mit Unterstützung für Neon Dotprod FP16
Modelldetails
- Modell: Qwen3 30B A3B Q40
- Architektur: Qwen3 MoE (Mixture of Experts)
- Anzahl der Layer: 48
- Anzahl der Experten: 128, davon 8 aktiv
- Dimensionen: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
- Tokenizer: Vokabulargröße 151669, mit einer leichten Abweichung zur Modell-Vokabulargröße von 151936
- Allgemeine Vokabulargröße: 151643
- Spezielle Vokabulargröße: 26
- Speicherbedarf: 5513 MB
- Maximale Sequenzlänge: 4096
- NormEpsilon: 0.000001, RopeTheta: 10000000
Benchmark-Leistung
- Evaluierungsphase
- Batch-Anzahl: 32
- Token-Anzahl: 19
- Token-Erzeugungsrate: 14.33 tok/s (69.80 ms/tok)
- Vorhersagephase
- Token-Anzahl: 109
- Token-Erzeugungsrate: 13.04 tok/s (76.69 ms/tok)
- Detaillierte Vorhersagelogs:
- Pro Vorhersageschritt etwa 49–70 ms, Synchronisationszeit 14–94 ms
- Gesendete Daten 636 kB, empfangene Daten 1057 kB, konstant über die Schritte hinweg
- Beispiele erzeugter Tokens: "Of", "course", "Poland"
- Thread-Anzahl: 4
- Buffer-Float-Typ: Q80
- Maximale Sequenzlänge: 4096
Hinweise und Einschränkungen (Notes & Caveats)
- Es gibt eine Warnung wegen einer Abweichung zwischen Tokenizer vocab size und Model vocab size; daher ist eine Überprüfung der Tokenizer-Konsistenz erforderlich
- A3B Q40 ist eine aggressive Quantisierung, daher sollte der Trade-off bei Präzision und Antwortqualität berücksichtigt werden
- Die Konfiguration Pi 5 8GB × 4 hat Grenzen bei Speicher und Rechenleistung, daher sind je nach Prompt-Länge, Parallelität und Netzwerkqualität größere Schwankungen möglich
Praktische Bedeutung
- Ein Projekt, das die Möglichkeit einer kostengünstigen AI-Ausführung demonstriert
- Als reproduzierbares Beispiel für die verteilte Ausführung eines MoE-Modells der 30B-Klasse auf einem kostengünstigen SBC-Cluster kann es als Referenz dienen, um die Hürde für On-Premises-Leichtgewichtsinferenz und Entwicklungsversuche zu senken
- Enthält Netzwerk- und Synchronisationslogs pro Token und liefert damit aussagekräftige Daten zum Messen und Tunen des verteilten Overheads
- Die Kombination aus verteiltem Framework + quantisiertem Modell kann in Edge-/persönlichen Forschungsumgebungen die Leistung im Verhältnis zu TCO verbessern
3 Kommentare
Die n-Serie-Mini-PCs sind auch günstig, aber wenn man vier 16-GB-Geräte zusammenschaltet ... wenn ich so darüber nachdenke, landet man wohl beim Preis eines 8845 mit 32 GB, haha
Beeindruckend. Ich finde es gut, dass es in letzter Zeit immer mehr Informationen zum Betrieb von LLMs mit geringer Last gibt.
Unglaublich..