18 Punkte von GN⁺ 2025-09-09 | 3 Kommentare | Auf WhatsApp teilen
  • Vorstellung eines Setup- und Benchmark-Beispiels, bei dem vier kleine Raspberry-Pi-Boards als verteilte Inferenzknoten zusammengeschaltet wurden, um das quantisierte Modell Qwen3 30B MoE A3B Q40 auszuführen
  • Netzwerkaufbau über einen Switch mit 1 ROOT + 3 WORKER (alle Raspberry Pi 5 mit 8 GB)
  • Die Token-Erzeugungsrate wurde in der Evaluierungsphase mit 14.33 tok/s und in der Vorhersagephase mit 13.04 tok/s gemessen
  • Das Modell basiert auf der Qwen3-MoE-Architektur und besteht aus 48 Layern und 128 Experten
  • Durch kostengünstige Hardware wird die Ausführung leistungsfähiger Sprachmodelle möglich, was das Potenzial von Raspberry-Pi-Clustern und kosteneffizienter AI-Forschung zeigt

Projektüberblick

  • Mit Distributed Llama v0.16.0 wurde das Modell Qwen3 30B A3B Q40 auf vier Raspberry Pi 5 mit 8 GB ausgeführt
    • Entwickelt, um große Sprachmodelle auf kostengünstigen Geräten lauffähig zu machen
    • Netzwerkverbindung über einen TP-Link-LS1008G-Switch
  • Das Hauptziel ist, AI-Modelle auch ohne High-Performance-Computing-Ressourcen effizient zu betreiben
    • Verteilung der Arbeit auf vier Geräte (1 Root, 3 Worker)
    • IP-Adressen: Root (10.0.0.2), Worker (10.0.0.1, 10.0.0.3, 10.0.0.4)

Hardware- und Netzwerkkonfiguration

  • Aufbau: Cluster aus vier Raspberry Pi 5 mit 8 GB
    • Jedes Gerät ist mit einem TP-Link-LS1008G-Switch verbunden
    • Der Root-Knoten und drei Worker-Knoten kommunizieren über das Netzwerk
  • Netzwerkinitialisierung: Erfolgreiche Verbindung zu allen Worker-Knoten (10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999)
    • Netzwerkbetrieb im Non-Blocking-Modus
    • Datenübertragung: bei der Evaluierung 12084 kB gesendet, 20085 kB empfangen
  • CPU-Nutzung: Optimierte Rechenverarbeitung mit Unterstützung für Neon Dotprod FP16

Modelldetails

  • Modell: Qwen3 30B A3B Q40
    • Architektur: Qwen3 MoE (Mixture of Experts)
    • Anzahl der Layer: 48
    • Anzahl der Experten: 128, davon 8 aktiv
    • Dimensionen: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
  • Tokenizer: Vokabulargröße 151669, mit einer leichten Abweichung zur Modell-Vokabulargröße von 151936
    • Allgemeine Vokabulargröße: 151643
    • Spezielle Vokabulargröße: 26
  • Speicherbedarf: 5513 MB
    • Maximale Sequenzlänge: 4096
    • NormEpsilon: 0.000001, RopeTheta: 10000000

Benchmark-Leistung

  • Evaluierungsphase
    • Batch-Anzahl: 32
    • Token-Anzahl: 19
    • Token-Erzeugungsrate: 14.33 tok/s (69.80 ms/tok)
  • Vorhersagephase
    • Token-Anzahl: 109
    • Token-Erzeugungsrate: 13.04 tok/s (76.69 ms/tok)
  • Detaillierte Vorhersagelogs:
    • Pro Vorhersageschritt etwa 49–70 ms, Synchronisationszeit 14–94 ms
    • Gesendete Daten 636 kB, empfangene Daten 1057 kB, konstant über die Schritte hinweg
    • Beispiele erzeugter Tokens: "Of", "course", "Poland"
    • Thread-Anzahl: 4
    • Buffer-Float-Typ: Q80
    • Maximale Sequenzlänge: 4096

Hinweise und Einschränkungen (Notes & Caveats)

  • Es gibt eine Warnung wegen einer Abweichung zwischen Tokenizer vocab size und Model vocab size; daher ist eine Überprüfung der Tokenizer-Konsistenz erforderlich
  • A3B Q40 ist eine aggressive Quantisierung, daher sollte der Trade-off bei Präzision und Antwortqualität berücksichtigt werden
  • Die Konfiguration Pi 5 8GB × 4 hat Grenzen bei Speicher und Rechenleistung, daher sind je nach Prompt-Länge, Parallelität und Netzwerkqualität größere Schwankungen möglich

Praktische Bedeutung

  • Ein Projekt, das die Möglichkeit einer kostengünstigen AI-Ausführung demonstriert
  • Als reproduzierbares Beispiel für die verteilte Ausführung eines MoE-Modells der 30B-Klasse auf einem kostengünstigen SBC-Cluster kann es als Referenz dienen, um die Hürde für On-Premises-Leichtgewichtsinferenz und Entwicklungsversuche zu senken
  • Enthält Netzwerk- und Synchronisationslogs pro Token und liefert damit aussagekräftige Daten zum Messen und Tunen des verteilten Overheads
  • Die Kombination aus verteiltem Framework + quantisiertem Modell kann in Edge-/persönlichen Forschungsumgebungen die Leistung im Verhältnis zu TCO verbessern

3 Kommentare

 
seohc 2025-09-10

Die n-Serie-Mini-PCs sind auch günstig, aber wenn man vier 16-GB-Geräte zusammenschaltet ... wenn ich so darüber nachdenke, landet man wohl beim Preis eines 8845 mit 32 GB, haha

 
ndrgrd 2025-09-10

Beeindruckend. Ich finde es gut, dass es in letzter Zeit immer mehr Informationen zum Betrieb von LLMs mit geringer Last gibt.

 
developerjhp 2025-09-09

Unglaublich..