3 Punkte von GN⁺ 2025-09-20 | 5 Kommentare | Auf WhatsApp teilen
  • Mit 10 Raspberry Pi Compute Blades und CM5-Modulen wurde ein AI-Cluster im Wert von rund 3.000 US-Dollar aufgebaut, blieb bei Leistung und Preis-Leistungs-Verhältnis jedoch hinter den Erwartungen zurück
  • In HPC-Benchmarks wurde gegenüber einem einzelnen Pi zwar eine 10-fache Leistungssteigerung (325 Gflops) erreicht, das Ergebnis war aber 4-mal langsamer als bei einem Framework-Desktop-Cluster
  • In AI-Tests wurde mangels GPU-Beschleunigung auf CPU-basierte Inferenz zurückgegriffen, und beim Ausführen des Modells Llama 70B lag die Token-Generierung nur bei etwa 0,85 t/s
  • Durch die Vorteile niedriger Stromverbrauch, geringe Lautstärke und hohe Dichte könnte es dennoch für spezielle Einsatzzwecke wie CI-Jobs, sicherheitskritische Edge-Deployments oder Tor-Relay-Knoten sinnvoll sein
  • Insgesamt wird betont, dass das Projekt für Lern- und Experimentierzwecke zwar interessant ist, sich für allgemeine AI-/HPC-Anwendungen jedoch nicht eignet und die Grenzen von Blade-Servern aufzeigt

Einleitung und Überblick über den Cluster

  • Vor zwei Jahren, im April 2023, wurden 10 Compute Blades bestellt; erst vor Kurzem trafen alle ein, sodass der Cluster fertiggestellt werden konnte
  • In der Zwischenzeit wurde Raspberry Pi von CM4 auf CM5 aufgerüstet, weshalb zusätzlich 10 CM5-Lite-Module mit 16 GB bestellt wurden, was zu einer Gesamtkonfiguration mit 160 GB Arbeitsspeicher führte
  • Die Gesamtkosten betrugen 3.000 US-Dollar inklusive Versand, und es handelte sich um den größten Pi-Cluster, den der Autor persönlich gebaut hatte
  • Als Pi-basierter Blade-Computer existiert auch der Xerxes Pi, doch wegen möglicher Verzögerungen bei Veröffentlichung und Auslieferung wurde dieser eher aus Neugier unterstützt
  • Die Frage war, ob Pi-Cluster heute überhaupt noch einen Wert haben, und es sollte anhand von Leistung, Dichte und Effizienz im Vergleich zu einem Framework-Desktop-Cluster geprüft werden, ob sich die Investition lohnt

Aufbau des Clusters und wiederholte Nacharbeiten

  • Wegen wiederholter SSD-Kompatibilitätsprobleme und Wärmeproblemen musste der Cluster sogar dreimal neu aufgebaut werden
      1. Umbau: Verschiedene NVMe-SSDs wurden verwendet, doch es traten Kompatibilitäts- und Zuverlässigkeitsprobleme auf; nach vollständigem Austausch gegen Patriot-P300-SSDs verbesserte sich die Stabilität
      1. Umbau: Wegen thermisch bedingtem Throttling wurden die Kühlkörper fest fixiert, wodurch die Probleme bei der Wärmeableitung gelöst wurden

Ergebnisse der HPC-Benchmarks (High Performance Computing)

  • Mit dem High Performance Linpack (Top500) Benchmark wurde die Supercomputer-Leistung gemessen
    • Vor der Montage der Kühlkörper lag die Leistung bei 275 Gflops, danach stieg sie auf maximal 325 Gflops
    • Dieser Wert entspricht der 10-fachen Leistung eines einzelnen Knotens mit integriertem 8-GB-CM5 bei einem Stromverbrauch von 130 W
  • Im Vergleich zu einem 8.000-US-Dollar-Framework-Desktop-Cluster mit 4 Knoten war der Pi-Cluster jedoch 4-mal langsamer
  • Bei der Energieeffizienz (Gflops/W) gibt es einen leichten Vorteil, beim Preis-Leistungs-Verhältnis bleibt der Framework-Cluster jedoch überlegen
  • Für groß angelegtes HPC ist dies keine geeignete Lösung

Test der AI-Nutzbarkeit und ihre Grenzen

  • Mit 160 GB Arbeitsspeicher wurden Erwartungen an einen AI-Cluster verbunden, doch auf der iGPU des Pi 5 ist keine Beschleunigung über Vulkan möglich
  • AI-Inferenz ist dadurch auf die CPU beschränkt, und die Grenzen des Arm Cortex A76 drücken die Verarbeitungsleistung deutlich
  • Beim Modell Llama 3.2:3B werden auf einem einzelnen Knoten nur 6 Token pro Sekunde verarbeitet, was vergleichsweise langsam ist
  • Selbst bei verteilter Verarbeitung eines großen Modells (Llama 3.3:70B) über alle Knoten hinweg bleibt die Leistung bei nur 0,28 bis 0,85 Token/Sekunde (mindestens 5- bis 25-mal langsamer als der Framework-Cluster)
  • Andere verteilte AI-Tools wie Exo oder distributed-llama sind für den praktischen Einsatz ebenfalls instabil oder zu leistungsschwach
  • Insgesamt ist der Cluster für AI-Workloads ungeeignet

Fazit und Vorschläge für realistische Einsatzszenarien

  • Ein Pi-Blade-Cluster ist bei Leistung und Preis-Leistung keine wettbewerbsfähige Option und lässt sich außerhalb von Lernen, Experimenten und Hobby kaum empfehlen
  • Vorteile gibt es dagegen bei einfacher Verwaltung, geringer Lautstärke, kompakter Bauform sowie Knotendichte und Trennbarkeit
  • Praktisch kommt er allenfalls begrenzt für CI-(Continuous Integration)-Aufgaben oder in Umgebungen infrage, die isolierte Setups wie hochsichere oder Edge-Computing-Szenarien erfordern
  • Bei Unredacted Labs wird er genutzt, um in Umgebungen mit vielen Knoten wie Tor Exit Relays Effizienz und Knotendichte zu maximieren
  • Für die meisten Nutzer gibt es bei ähnlichen Kosten jedoch andere Alternativen mit höherer Leistung und Effizienz
  • Auch der Hersteller Gateworks verkaufte eine Zeit lang das industrielle GBlade, hatte damit aber keinen Markterfolg und stellte das Produkt wieder ein
  • In Bezug auf Wartung und Praxistauglichkeit ist es zwar einfacher als der Betrieb großer Cluster, aber ohne einen besonderen Grund schwer zu empfehlen

Liste der verwendeten Komponenten

  • (Der Autor stellte zusätzlich eine Liste der verwendeten Komponenten vor, merkte jedoch an, dass er nicht empfiehlt, eine ähnliche Konfiguration unverändert nachzubauen)

5 Kommentare

 
euphcat 2025-09-22

Genauer gesagt ist es bei Vulkan wohl korrekt zu sagen: „Die Vulkan-API, die die iGPU des Pi 5 unterstützt, wird von llama.cpp derzeit noch nicht unterstützt.“ Ich bin auch neugierig, welche Leistung möglich gewesen wäre, wenn das unterstützt worden wäre.

 
GN⁺ 2025-09-20
Hacker-News-Kommentare
  • Für alle, die sich für verteilte Systeme interessieren: Ich empfehle dringend, auf einer einzelnen Maschine mit einer aktuellen 16-Core-AMD-CPU acht virtuelle Maschinen zu starten. Jeder VM kann man vier Hyperthreads und jeweils 1/8 des gesamten RAM zuweisen, dann in einer Virtualisierungssoftware wie Proxmox ein virtuelles Netzwerk anlegen und so Cluster-Erfahrung sammeln. Man kann sogar Ausfallsicherheit testen, indem man einzelne VMs mit einem Klick stoppt und wiederherstellt. Dieser Ansatz ist einem Pi-Cluster bei Perf/W und Komfort deutlich überlegen. Ohne den Stress des Zusammenbaus braucht man nur CPU, Mainboard, eine m.2-SSD und zwei RAM-Module. Natürlich erzielt man auf einer Maschine mit vielen Kernen ohne Virtualisierung die höchste Perf/W, aber was in Benchmarks oft übersehen wird, ist der Idle-Stromverbrauch. Wenn ein Cluster dauerhaft eingeschaltet ist und nur selten genutzt wird, ist auch das sehr wichtig

    • Ich finde nicht, dass die CPU-Leistung so hoch sein muss. Auch mit einem älteren Quad-Core reicht das völlig aus

    • Dazu passend: Ich war überrascht, dass sich das Ausführen älterer MPI-Programme in Umgebungen wie einer AMD-Multichip-Workstation nicht stärker durchgesetzt hat, ich hätte gedacht, das würde größer werden

    • Ehrlich gesagt frage ich mich, ob man überhaupt so viel CPU-Power braucht. Wenn es um das Üben verteilter Systeme geht, reicht es, auf einer alten Linux-Box oder sogar auf einem einzelnen Raspberry Pi einfach Erlang zu installieren und ein paar Nodes zu konfigurieren, um ausreichend zu experimentieren

    • Ich fand es vor ein paar Jahren während des Raspberry-Pi-Engpasses schade, wie sehr Leute versuchten, diese Spielzeug-Cluster zu bauen. Der Pi war ursprünglich für Bildung gedacht, wird in der Praxis aber meiner Meinung nach oft verschwendet. Ich betreibe mit xcp-ng einen K8s-„Cluster“, aber eigentlich geht es noch viel einfacher. Mit Docker Machine konnte man Hosts auf mehreren Maschinen mit einer einzigen Zeile starten. Das Projekt scheint inzwischen eingestellt zu sein, aber mit Docker Swarm lässt sich die Skalierung von Services auch ohne Hypervisor leicht anpassen

    • Ich übe auf diese Weise Postgres Hot Standby und Read Replicas. Hadoop- und Cassandra-Cluster habe ich ebenfalls so gelernt. Weil ich über Erfahrungen bei der Konfiguration solcher Systeme und bei simulierten Recovery-Szenarien sprechen konnte, habe ich auch neue Jobs bekommen, bei denen sich mein Gehalt verdoppelt oder verdreifacht hat. Allen Entwicklerinnen und Entwicklern mit einem gewissen Maß an Praxiserfahrung kann ich nur sehr empfehlen, so etwas auszuprobieren. Für den nächsten Karriereschritt ist das enorm hilfreich

  • Das erinnert mich an die NormConf-Session „Just use one big machine for model training and inference.“ Empfehle das zugehörige Video. Und auch das alte Klassiker-Paper „Scalability! But at what COST?“ (Link) ist wirklich interessant. Kurz zusammengefasst: Bei der Performance von Parallelverarbeitung gibt es weit mehr zu beachten als nur Amdahl's Law. Scale-out-Systeme brauchen eine Menge Zusatzarbeit, die es auf einem einzelnen Node nicht gibt. Tatsächlich bringt auch Multithreading viel zusätzlichen Aufwand mit sich, den sequentieller Code nicht hat. Das wahre Geheimnis von Performance ist: „Die schnellste Operation ist die, die man nicht ausführt“

  • Der erste Benchmark, den ich laufen ließ, war der top500-High-Performance-Linpack-Cluster-Benchmark. Ich mag ihn, weil er die traditionelle Methode zur Messung der Supercomputer-Leistung ist. Nachdem ich die thermischen Probleme gelöst hatte, lag der Verbrauch bei etwa 130 W und ich erreichte 325 Gflops. Da die Liste auf der top500-Website bis 1993 zurückreicht, hatte ich gehofft, dass ein Pi-Cluster irgendwo in die absurde Geschichte der 70er Jahre passen würde, aber so alt ist das dann doch nicht. 1993 (Platz 1: 131 Gflop/s, Platz 10: 15,24 Gflop/s) bis 1997 (Platz 1: 1,830,40, Platz 10: 326,4), und 2002 bis 2003 scheint es aus den top500 herauszufallen. Eigentlich müsste man nach Rmax statt nach Rpeak sortieren, um es korrekt zu machen, aber da es ohnehin nicht ganz reicht, habe ich das ausgelassen. Für so einen Spielzeug-Cluster hat er sich meiner Meinung nach ziemlich gut geschlagen. Ich war an diese alten Witze à la „Eine Apple Watch ist schneller als der Apollo-Computer“ gewöhnt und dachte daher, es würde noch weiter in die Vergangenheit reichen

  • RPI hatte schon immer eine miserable CPU-Leistung. Die Idee hinter dem Pi war von Anfang an, billige Broadcom-Chips unter dem Banner „für Bildung“ zu nutzen. Kinder sollen mit dem Raspberry Pi LEDs blinken lassen und Schaltungen lernen. Auf die Idee zu kommen, mit einem Pi-Cluster Hochleistungsrechnen zu betreiben, ist von Anfang an unsinnig

  • Man sollte den Inhalt des Artikels nicht zu wörtlich nehmen. Der Autor ist ein erfolgreicher Tech-Influencer, der teure Geräte kauft, damit angibt und dann damit Geld verdient, sich darüber zu beschweren, wie teuer sie waren. Seine ökonomische Sicht muss nicht dieselbe sein wie meine

    • Das ist zwar offensichtlich, aber der eigentliche Punkt ist: Wenn man heute irgendetwas machen will, ist die Antwort sehr wahrscheinlich nicht Raspberry Pi. Das Preis-Leistungs-Verhältnis stimmt überhaupt nicht, und der Markt stagniert

    • Ich finde Jeffs Video trotzdem erfrischend. Andere YouTuber stecken immer wieder in denselben Vergleichen fest: „Renderzeit für YouTube-Videos, Farbgenauigkeit, Kamerabildqualität, Audioqualität“ – er ist anders

    • Ich wünschte, Dan Luu würde auf solche Inhalte umsteigen

    • Wer sich auskennt, weiß sowieso schon, dass eine einzelne GPU die Rechenleistung um das Zehnfache steigern kann

  • Die Überschrift wirkte etwas reißerisch, aber der Autor schien am Experiment selbst und am Zusammenbau der Hardware wirklich Spaß gehabt zu haben. Der erste Satz „Ich habe im April 2023 ein Set aus 10 Compute Blades bestellt, und jetzt ist es angekommen“ war allerdings schon ziemlich ernüchternd

    • Das ist der größte Grund zur Reue. Ich habe bisher sechs Kickstarter-Projekte unterstützt, und die durchschnittliche Lieferzeit lag bei etwa einem Jahr. Erstaunlicherweise habe ich am Ende aber alle bekommen. Hardware-Startups sind wirklich schwer, und ich habe mehrfach erlebt, wie mehr als die Hälfte solcher kleinen Ideen scheitern, bevor überhaupt an Kunden ausgeliefert wird. Mit viel Glück schaffen sie es gerade noch, Prototypen oder Samples zu bauen und zu verschicken, und geraten dann bei Versand und Logistik doch in großes Chaos
  • Wenn Pi-Cluster beim Verhältnis von Kosten zu Leistung wirklich konkurrenzfähig wären, wären Rechenzentren längst voll davon

    • Das erinnert an den Witz der Ökonomen darüber, warum niemand einen 20-Dollar-Schein auf dem Boden aufhebt. Vollkommene Markteffizienz funktioniert langfristig vielleicht, aber kurzfristig dominieren meist Gewohnheiten und Erfahrungsintuition

    • Man darf nicht vergessen, dass über die PlayStation dasselbe gesagt wurde

    • Pi-Cluster scheinen ... für eigentlich gar nichts wirklich preislich konkurrenzfähig zu sein

    • Es gibt ein Unternehmen namens Mythic Beasts, das einen Mietservice für RPI-Server anbietet (Link). In einem sehr kleinen Markt gibt es also durchaus einen Einsatzbereich

  • Es gibt einen Grund, warum Supercomputer in den letzten zehn Jahren GPUs verwenden. GPUs sind viel effizienter. Wenn man 32-Bit-Parallelverarbeitung braucht, kauft man einfach eine Consumer-GPU; wenn man 64 Bit braucht, reicht eine Prosumer-GPU wie die RTX 6000 Pro. Heute baut niemand mehr CPU-Cluster

    • Leider hat auch die RTX 6000 Pro bei Double Precision nur 2 TFLOPS und ist damit 64-mal langsamer als bei Single Precision. Ein EPYC 9755 schafft ungefähr 10 TFLOPS, und das auch noch mit weniger Strom. Beim A100 ist es ähnlich. Wenn man als Hobbyist DP-Rechenleistung für HPC will, sind ältere AMD-Karten eher die bessere Wahl. Inzwischen wissen sowohl AMD als auch NVIDIA, dass wissenschaftliche Kunden für hohe Präzisionsleistung einen hohen Preis zahlen

    • Der Supercomputer El Capitan nutzt ebenfalls AMD-CPUs (mit integrierter GPU) und gehört aktuell zur Spitzengruppe der Rangliste. Frontier folgt mit ähnlicher Konfiguration. Eine GPU als separat angebundenes Bauteil mit eigenem Datenbus und eigenem Speicher ist nicht zwingend optimal

  • Pi-Cluster zielen in Wahrheit nicht auf hohe Leistung, sondern sind ein spaßiges Nerd-Hobbygerät. Kaum jemand erwartet dabei ernsthaft eine kosteneffiziente Lösung. Es wirkt eher wie ein typischer YouTube-reißerischer Titel, der in Blogform übernommen wurde. Wenn das eigentliche Ziel Linux-Cluster-Übung ist, ist es viel wirtschaftlicher, auf einer Desktop-CPU einen Hypervisor zu installieren und VMs zu erstellen. Wenn es nicht gerade um das Gefühl geht, viele Kabel einzustecken, ist dieser Ansatz bei Ressourcennutzung und Flexibilität am Ende viel effizienter

    • Wenn man wirklich kosteneffizient üben will, sollte man die Cloud nutzen. Meist verliert man nach dem Üben ohnehin schnell wieder das Interesse, daher ist die Wahrscheinlichkeit hoch, dass die Cloud-Kosten enden, bevor man den Preis eines Desktop-Systems erreicht

    • Ich habe es durchgerechnet, und ein Mac Studio mit aktuellem Mx-Ultra-Prozessor und maximalem Speicher ist die kosteneffizienteste Methode, um mit Modellen mit mehr als 100B Parametern zu experimentieren

    • Im traditionellen Computing verliert man zwar beim Platz, gewinnt aber bei Strom und Kosten. Für AI war es allerdings keine Option, weil man keine GPUs nutzen konnte und die Clustering-Software von llama.cpp noch zu unreif ist, um belastbare Schlüsse zu ziehen. Das könnte sich ändern, wenn die Software besser wird

    • Ich denke, man kann in dieser Diskussion auch ohne technischen Hintergrund zu einer klaren Schlussfolgerung kommen. Es reicht, sich anzuschauen, dass alle für AI GPUs verwenden und wie stark die NVIDIA-Aktie gestiegen ist. Ich frage mich, ob der OP wirklich dachte, die Welt habe nur noch nicht erkannt, dass man stattdessen einfach Raspberry Pis einstecken sollte

    • Einige Raspberry-Pi-Produkte werden mit Verlust verkauft, und allein deshalb kann der Irrtum entstehen, sie könnten „preislich konkurrenzfähig sein“

  • Ich fand die Bemerkung des Autors „Wenn du auf dem Blog gelandet bist, magst du wahrscheinlich Text lieber als Videos, also komme ich direkt zur Sache“ sehr sympathisch

 
chcv0313 2025-09-20

Es ist schon ziemlich lustig, erst riesigen Spaß damit zu haben und es dann zu bereuen, lol. Das ist doch kaum anders, als bei einem Spiel mit über 1000 Stunden Spielzeit zu sagen, es hätte keinen Spaß gemacht.

 
gafani 2025-09-25

Die Analogie sitzt perfekt, haha.

 
kandk 2025-09-22

Hahahahahahahaha