6 Punkte von GN⁺ 2025-12-19 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Experiment, bei dem die in macOS 26.2 neu hinzugefügte Funktion RDMA (Remote Direct Memory Access) über Thunderbolt 5 genutzt wird, um mehrere Mac Studio wie einen einzigen riesigen Speicherpool arbeiten zu lassen
  • Mit dem Open-Source-Clustering-Tool Exo 1.0 wurde ein gemeinsamer Speicher von 1,5 TB aufgebaut, um die Ausführung großer AI-Modelle zu beschleunigen
  • Das M3 Ultra Mac Studio zeigt bereits als einzelner Knoten hohe Rechenleistung und Effizienz; mit RDMA sinkt die Speicherzugriffs-Latenz von 300 μs auf unter 50 μs
  • Es gibt jedoch auch betriebliche Grenzen beim Cluster-Betrieb, etwa die Kabelkomplexität von Thunderbolt 5, das Fehlen von Switches und Einschränkungen bei der macOS-Verwaltung
  • Die Kombination aus RDMA und Exo zeigt das Erweiterungspotenzial für Mac-basierte AI- und HPC-Umgebungen, doch Stabilität und Skalierbarkeit müssen noch verbessert werden

Überblick über das Experiment mit RDMA über Thunderbolt 5

  • Mit einem von Apple bereitgestellten Mac-Studio-Cluster wurde die RDMA-over-Thunderbolt-Funktion von macOS 26.2 getestet
    • RDMA lässt mehrere Macs wie einen großen RAM-Verbund arbeiten und beschleunigt so die Verarbeitung großer AI-Modelle
  • Für den Test wurde das Open-Source-AI-Clustering-Tool Exo 1.0 verwendet
  • Vier Mac Studio mit insgesamt 1,5 TB Unified Memory kosten rund 40.000 US-Dollar

Apples HPC-Geschichte und die Rolle des M3 Ultra

  • Apple hat seit den Zeiten von Xserve und Xgrid kaum noch HPC-bezogene Versuche unternommen
  • Das M3 Ultra Mac Studio bietet eine für lokale AI-Modelle geeignete Leistung; mit RDMA sinkt die Latenz beim Clustering von 300 μs auf unter 50 μs
  • Es arbeitet leise mit weniger als 250 W Leistungsaufnahme und eignet sich auch für kleinere wissenschaftliche Berechnungen und kreative Workloads

Hardware-Aufbau und Networking

  • Die unteren zwei Geräte sind mit 512 GB RAM / 32-Core-CPU ausgestattet, die oberen zwei mit 256 GB RAM
  • Über Thunderbolt 5 werden 50–60 Gbit/s effektive Bandbreite erreicht, wegen des fehlenden Thunderbolt-Switches müssen die Macs jedoch direkt miteinander verbunden werden
  • Im Vergleich zur Nvidia DGX Spark mit QSFP-Ports ist die Netzwerkstabilität geringer
  • Es gibt mit ThunderLok-A zwar eine Fixierung für Thunderbolt-Kabel, sie wurde aber nicht eingesetzt, weil dafür Modifikationen am Mac-Studio-Gehäuse nötig wären

Leistungs-Benchmarks des M3 Ultra Mac Studio

  • In Geekbench liegt es bei Single- und Multi-Core vor dem Dell Pro Max (GB10) und dem AMD AI Max+ 395
  • Im FP64-HPL-Benchmark überschreitet es 1 Tflop und erreicht damit etwa die doppelte Leistung des Nvidia GB10
  • Auch bei der Inferenz großer AI-Modelle ist es stark und bietet eine hohe Effizienz pro Watt
  • Ein einzelner M3 Ultra liegt bei Leistung und Effizienz vor einem 2-Knoten-Cluster aus Dell Pro Max

Cluster-Verwaltung und macOS-Einschränkungen

  • macOS erlaubt keine System-Upgrades per SSH, stattdessen ist GUI-Bedienung nötig
  • Die Fernverwaltung erfolgt über Screen Sharing
  • Im Vergleich zu Linux ist die Automatisierung der Cluster-Verwaltung schwieriger, und das Fehlen von MDM-Tools ist unpraktisch

Tests mit HPL und Llama.cpp

  • HPL erreicht auf einem einzelnen Knoten 1,3 Tflops, mit 4 Knoten 3,7 Tflops, also etwa die dreifache Leistung
  • Bei TCP-Verbindungen über Thunderbolt kam es zu Systemabstürzen; ohne RDMA war der Betrieb instabil
  • In Llama.cpp-Tests zeigte Thunderbolt 5 eine geringere Latenz als 2,5-Gbit/s-Ethernet

Aktivierung von RDMA und Tests mit Exo 1.0

  • Vorgehen zum Aktivieren von RDMA: In den Wiederherstellungsmodus wechseln → Befehl rdma_ctl enable ausführen → neu starten
  • Exo 1.0 ist das einzige Tool mit RDMA-Unterstützung und kann Modelle mit mehr als 600 GB (wie Kimi K2 Thinking) verteilt über mehrere Macs ausführen
  • Llama.cpp verteilt Modell-Layer per RPC, was jedoch ineffizient ist
  • Mit zunehmender Knotenzahl steigt bei Exo die Leistung; beim Qwen3-235B-Modell wurden 32 Token pro Sekunde erreicht
  • Auch DeepSeek V3.1 und Kimi K2 Thinking (1 Billion Parameter) konnten erfolgreich ausgeführt werden

Stabilitätsprobleme und Open-Source-Themen

  • Die Tests basierten auf Pre-Release-Software und waren daher instabil
  • Wenn RDMA funktionierte, war die Leistung stark, bei Fehlern musste jedoch der gesamte Cluster neu gestartet werden
  • Das Exo-Entwicklungsteam kehrte nach einer längeren Pause zurück; die Software steht unter der Apache-2.0-Lizenz
  • Erwähnt werden auch Bedenken bezüglich eines nicht öffentlichen Entwicklungsprozesses durch die Zusammenarbeit mit Apple

Künftige Aufgaben und offene Fragen

  • Ob ein M5 Ultra erscheint und ob sich die Machine-Learning-Leistung weiter steigern lässt
  • Der Bedarf an besseren Clustering-Möglichkeiten durch eine Rückkehr der PCIe-Erweiterbarkeit beim Mac Pro
  • Die Möglichkeit schneller Dateifreigaben bei Unterstützung von SMB Direct
  • Die Hoffnung auf breitere RDMA-Unterstützung in anderer Software wie Llama.cpp

Fazit

  • Die Kombination aus RDMA und Exo erweitert die Einsatzmöglichkeiten des Mac Studio für AI und HPC erheblich
  • Dennoch bleiben die strukturellen Grenzen von Thunderbolt 5 und die Verwaltungsbeschränkungen von macOS ein Flaschenhals
  • Für bessere Netzwerk-Skalierbarkeit wären Verbesserungen wie die Einführung von QSFP-Ports nötig
  • Auch wenn der AI-Boom abflaut, bleibt das Mac Studio als leise und leistungsstarke Workstation wertvoll

Noch keine Kommentare.

Noch keine Kommentare.