- Experimente auf dem Raspberry Pi 5, bei denen AMD-, Intel- und Nvidia-GPUs betrieben und mit einem Desktop-PC verglichen wurden, zeigen in vielen Fällen Leistungsverluste von nur 2 bis 5 %
- Getestet wurden vier Bereiche: Jellyfin-Transkodierung, GravityMark-Rendering, LLM/AI-Inferenz und Multi-GPU-Konfigurationen, um Effizienz und Preis-Leistungs-Verhältnis zu messen
- In einem Aufbau mit vier Nvidia RTX A5000 zeigte sich ein Leistungsunterschied von unter 2 % gegenüber einem Intel-Server; eine zentrale Rolle spielte dabei die gemeinsame Speichernutzung zwischen den GPUs über einen PCIe-Switch
- Die Gesamtkosten eines Raspberry-Pi-eGPU-Systems liegen bei etwa $350–400, ein PC dagegen bei $1500–2000; auch der Stromverbrauch ist beim Pi deutlich geringer (im Leerlauf 4–5 W vs. 30 W)
- Das belegt das Potenzial des Raspberry Pi als stromsparende und kostengünstige alternative Plattform, um große GPUs effizient zu nutzen
Überblick über das Experiment
- Trotz der Begrenzung des Raspberry Pi 5 auf PCIe Gen 3 x1 Bandbreite (8 GT/s) wurde die Nutzbarkeit von GPUs überprüft
- Als Vergleich diente ein moderner Desktop-PC (PCIe Gen 5 x16, 512 GT/s)
- Die Tests umfassten Medientranskodierung (Jellyfin), GPU-Rendering (GravityMark), LLM/AI-Leistung und Multi-GPU-Konfigurationen
- Mithilfe eines externen PCIe-Gen-4-Switches und eines 3-Slot-Backplanes von Dolphin ICS wurde ein Versuch mit zwei gleichzeitig betriebenen GPUs durchgeführt
Ein Raspberry Pi mit vier angeschlossenen GPUs
- Der GitHub-Nutzer mpsparrow verband vier Nvidia RTX A5000 GPUs mit einem einzelnen Pi
- Beim Ausführen des Llama 3 70B-Modells lag der Leistungsunterschied gegenüber einem Intel-Server bei unter 2 % (11.83 vs. 12 tokens/sec)
- Über einen PCIe-Switch war gemeinsame Speichernutzung zwischen den GPUs möglich, wodurch die Bandbreitenbeschränkung des Pi umgangen wurde
- Auch mit nur einer GPU wurde bei manchen Aufgaben eine dem Desktop vergleichbare oder sogar bessere Leistung festgestellt
Vergleich von Kosten und Effizienz
- Raspberry-Pi-eGPU-Konfiguration: etwa $350–400, Intel-PC-Konfiguration: etwa $1500–2000
- Leistungsaufnahme im Leerlauf: Pi 4–5 W, PC 30 W
- Unter gleichen Bedingungen ohne GPU ist der Pi sowohl bei Kosten als auch bei Energieeffizienz im Vorteil
Jellyfin-Transkodierungs-Benchmark
- Mit einer Nvidia 4070 Ti war der PC bei der Rohdurchsatzrate (2 GB/s) überlegen
- Der Pi erreichte etwa PCIe 850 MB/s, USB-SSD 300 MB/s
- Bei H.264/H.265-Medienstreaming konnte der Pi jedoch ebenfalls 1080p- und 4K-Transkodierung problemlos bewältigen
- NVENC-Hardware-Encoding wird unterstützt, auch zwei gleichzeitige Transkodierungen liefen stabil
- Bei AMD-GPUs traten teilweise Probleme bei der Stabilität der Transkodierung auf
GravityMark-Rendering-Test
- Getestet wurde vor allem mit AMD-GPUs; der PC war etwas schneller, der Unterschied war jedoch gering
- Mit einer RX 460 erzielte der Pi eine höhere Effizienz (Leistung/W) als der PC
- Bei älteren GPUs mit derselben PCIe-Gen-3-Bandbreite hatte der Pi einen relativen Vorteil
Vergleich der AI- und LLM-Leistung
- Beim Test der AMD Radeon AI Pro R9700 (32 GB VRAM) lag die Leistung unter den Erwartungen; möglich sind Probleme mit Treibern oder den BAR-Einstellungen
- Mit einer Nvidia RTX 3060 (12 GB) war der Pi beim Llama 2 13B-Modell schneller als der PC
- Die Effizienzmessung zeigte, dass der Pi beim Durchsatz pro Watt besser abschnitt als der PC
- Auch beim Test mit einer RTX 4090 lag der Leistungsunterschied bei großen Modellen (Qwen3 30B) innerhalb von 5 %, wobei der Pi in vielen Fällen effizienter war
- Sowohl das CUDA-Backend als auch das Vulkan-Backend funktionierten auf dem Pi normal
Experiment mit Dual-GPU-Konfiguration
- Verwendet wurden ein Dolphin PCIe Interconnect Board und ein MXH932 HBA
- Durch Deaktivierung von ACS wurde direkter Speicherzugriff zwischen den GPUs möglich
- Bei Kombinationen unterschiedlicher GPU-Modelle (4070, A4000) wurde kein VRAM-Pooling unterstützt, wodurch Leistungssteigerungen begrenzt blieben
- Mit identischen GPUs konnten größere Modelle (Qwen3 30B usw.) ausgeführt werden
- Die Kombination AMD RX 7900 XT + R9700 scheiterte bei einigen Modellen an Treiberproblemen
- Der Intel-PC war insgesamt schneller, doch auch der Pi hielt bei großen Modellen eine ähnliche Leistung
Fazit
- Bei absoluter Leistung und Komfort ist der PC überlegen
- Bei GPU-zentrierten Workloads und in stromsparenden, kostengünstigen Umgebungen ist der Raspberry Pi jedoch eine praktikable Alternative
- 20–30 W weniger Leerlaufverbrauch, und Rockchip- oder Qualcomm-basierte SBCs bieten noch höhere Effizienz und I/O-Bandbreite
- Ziel des Experiments war es, die Grenzen des Pi und die Struktur von GPU-Computing zu verstehen; dabei wurde auch das Potenzial kleiner Systeme sichtbar
Noch keine Kommentare.