- Experiment, bei dem die in macOS 26.2 neu hinzugefügte Funktion RDMA (Remote Direct Memory Access) über Thunderbolt 5 genutzt wird, um mehrere Mac Studio wie einen einzigen riesigen Speicherpool arbeiten zu lassen
- Mit dem Open-Source-Clustering-Tool Exo 1.0 wurde ein gemeinsamer Speicher von 1,5 TB aufgebaut, um die Ausführung großer AI-Modelle zu beschleunigen
- Das M3 Ultra Mac Studio zeigt bereits als einzelner Knoten hohe Rechenleistung und Effizienz; mit RDMA sinkt die Speicherzugriffs-Latenz von 300 μs auf unter 50 μs
- Es gibt jedoch auch betriebliche Grenzen beim Cluster-Betrieb, etwa die Kabelkomplexität von Thunderbolt 5, das Fehlen von Switches und Einschränkungen bei der macOS-Verwaltung
- Die Kombination aus RDMA und Exo zeigt das Erweiterungspotenzial für Mac-basierte AI- und HPC-Umgebungen, doch Stabilität und Skalierbarkeit müssen noch verbessert werden
Überblick über das Experiment mit RDMA über Thunderbolt 5
- Mit einem von Apple bereitgestellten Mac-Studio-Cluster wurde die RDMA-over-Thunderbolt-Funktion von macOS 26.2 getestet
- RDMA lässt mehrere Macs wie einen großen RAM-Verbund arbeiten und beschleunigt so die Verarbeitung großer AI-Modelle
- Für den Test wurde das Open-Source-AI-Clustering-Tool Exo 1.0 verwendet
- Vier Mac Studio mit insgesamt 1,5 TB Unified Memory kosten rund 40.000 US-Dollar
Apples HPC-Geschichte und die Rolle des M3 Ultra
- Apple hat seit den Zeiten von Xserve und Xgrid kaum noch HPC-bezogene Versuche unternommen
- Das M3 Ultra Mac Studio bietet eine für lokale AI-Modelle geeignete Leistung; mit RDMA sinkt die Latenz beim Clustering von 300 μs auf unter 50 μs
- Es arbeitet leise mit weniger als 250 W Leistungsaufnahme und eignet sich auch für kleinere wissenschaftliche Berechnungen und kreative Workloads
Hardware-Aufbau und Networking
- Die unteren zwei Geräte sind mit 512 GB RAM / 32-Core-CPU ausgestattet, die oberen zwei mit 256 GB RAM
- Über Thunderbolt 5 werden 50–60 Gbit/s effektive Bandbreite erreicht, wegen des fehlenden Thunderbolt-Switches müssen die Macs jedoch direkt miteinander verbunden werden
- Im Vergleich zur Nvidia DGX Spark mit QSFP-Ports ist die Netzwerkstabilität geringer
- Es gibt mit ThunderLok-A zwar eine Fixierung für Thunderbolt-Kabel, sie wurde aber nicht eingesetzt, weil dafür Modifikationen am Mac-Studio-Gehäuse nötig wären
Leistungs-Benchmarks des M3 Ultra Mac Studio
- In Geekbench liegt es bei Single- und Multi-Core vor dem Dell Pro Max (GB10) und dem AMD AI Max+ 395
- Im FP64-HPL-Benchmark überschreitet es 1 Tflop und erreicht damit etwa die doppelte Leistung des Nvidia GB10
- Auch bei der Inferenz großer AI-Modelle ist es stark und bietet eine hohe Effizienz pro Watt
- Ein einzelner M3 Ultra liegt bei Leistung und Effizienz vor einem 2-Knoten-Cluster aus Dell Pro Max
Cluster-Verwaltung und macOS-Einschränkungen
- macOS erlaubt keine System-Upgrades per SSH, stattdessen ist GUI-Bedienung nötig
- Die Fernverwaltung erfolgt über Screen Sharing
- Im Vergleich zu Linux ist die Automatisierung der Cluster-Verwaltung schwieriger, und das Fehlen von MDM-Tools ist unpraktisch
Tests mit HPL und Llama.cpp
- HPL erreicht auf einem einzelnen Knoten 1,3 Tflops, mit 4 Knoten 3,7 Tflops, also etwa die dreifache Leistung
- Bei TCP-Verbindungen über Thunderbolt kam es zu Systemabstürzen; ohne RDMA war der Betrieb instabil
- In Llama.cpp-Tests zeigte Thunderbolt 5 eine geringere Latenz als 2,5-Gbit/s-Ethernet
Aktivierung von RDMA und Tests mit Exo 1.0
- Vorgehen zum Aktivieren von RDMA: In den Wiederherstellungsmodus wechseln → Befehl
rdma_ctl enable ausführen → neu starten
- Exo 1.0 ist das einzige Tool mit RDMA-Unterstützung und kann Modelle mit mehr als 600 GB (wie Kimi K2 Thinking) verteilt über mehrere Macs ausführen
- Llama.cpp verteilt Modell-Layer per RPC, was jedoch ineffizient ist
- Mit zunehmender Knotenzahl steigt bei Exo die Leistung; beim Qwen3-235B-Modell wurden 32 Token pro Sekunde erreicht
- Auch DeepSeek V3.1 und Kimi K2 Thinking (1 Billion Parameter) konnten erfolgreich ausgeführt werden
Stabilitätsprobleme und Open-Source-Themen
- Die Tests basierten auf Pre-Release-Software und waren daher instabil
- Wenn RDMA funktionierte, war die Leistung stark, bei Fehlern musste jedoch der gesamte Cluster neu gestartet werden
- Das Exo-Entwicklungsteam kehrte nach einer längeren Pause zurück; die Software steht unter der Apache-2.0-Lizenz
- Erwähnt werden auch Bedenken bezüglich eines nicht öffentlichen Entwicklungsprozesses durch die Zusammenarbeit mit Apple
Künftige Aufgaben und offene Fragen
- Ob ein M5 Ultra erscheint und ob sich die Machine-Learning-Leistung weiter steigern lässt
- Der Bedarf an besseren Clustering-Möglichkeiten durch eine Rückkehr der PCIe-Erweiterbarkeit beim Mac Pro
- Die Möglichkeit schneller Dateifreigaben bei Unterstützung von SMB Direct
- Die Hoffnung auf breitere RDMA-Unterstützung in anderer Software wie Llama.cpp
Fazit
- Die Kombination aus RDMA und Exo erweitert die Einsatzmöglichkeiten des Mac Studio für AI und HPC erheblich
- Dennoch bleiben die strukturellen Grenzen von Thunderbolt 5 und die Verwaltungsbeschränkungen von macOS ein Flaschenhals
- Für bessere Netzwerk-Skalierbarkeit wären Verbesserungen wie die Einführung von QSFP-Ports nötig
- Auch wenn der AI-Boom abflaut, bleibt das Mac Studio als leise und leistungsstarke Workstation wertvoll
Noch keine Kommentare.