Ab macOS 26.2 wird der Aufbau schneller AI-Cluster per RDMA über Thunderbolt möglich
(developer.apple.com)- Mit macOS Tahoe 26.2 wurde Thunderbolt-5-basiertes RDMA neu hinzugefügt, wodurch latenzarme Kommunikation für verteilte AI-Inferenz mit MLX möglich wird
- Das bedeutet, dass „Macs wie Hochgeschwindigkeits-Knoten für verteiltes Rechnen behandelt werden können“; damit kann sich macOS über ein reines Desktop-OS hinaus zu einer lokalen Experimentierplattform für AI und HPC erweitern
Was ist RDMA?
- RDMA (Remote Direct Memory Access) ist eine Kommunikationsmethode, bei der ein Computer direkt und ohne CPU-Beteiligung auf den Speicher eines anderen Computers zugreift
- Dadurch werden Netzwerk-Stack, Kernel-Kopien und Context Switches umgangen, was die Latenz drastisch senkt und den Durchsatz deutlich erhöht
- Bisher wurde RDMA hauptsächlich in Rechenzentrumsnetzwerken wie InfiniBand oder RoCE eingesetzt
- In High Performance Computing (HPC), verteiltem Storage sowie großskaligem AI-Training und -Inferenz hat es sich als Standardtechnologie etabliert
- Der Kernpunkt ist, dass es „trotz Netzwerkkommunikation fast so schnell arbeitet, als würde derselbe Speicher gemeinsam genutzt“
Die Bedeutung von RDMA over Thunderbolt
- In macOS 26.2 wird RDMA-Kommunikation zwischen über Thunderbolt 5 verbundenen Macs unterstützt
- Wenn RDMA bisher auf Server-Netzwerkhardware beschränkt war, ist es nun auch in lokalen Mac-Clustern möglich, die nur mit einem Kabel verbunden sind
- Die hohe Bandbreite und die sehr geringe Latenz von Thunderbolt lassen sich direkt im RDMA-Modell nutzen
- Anders gesagt: Es eröffnet sich ein „Verbindungsweg, um mehrere Macs auf dem Schreibtisch wie ein Rechenzentrum zusammenzufassen“
Warum das gut zu AI-Workloads passt
- Bei verteilter AI-Inferenz oder beim Training wird der Tensor-Austausch zwischen Knoten leicht zum Flaschenhals
- RDMA ermöglicht in diesem Prozess ein Kommunikationsmuster nahe an GPU-zu-GPU, ohne CPU-Ressourcen zu verbrauchen
- Die in den Release Notes erwähnte MLX-basierte verteilte AI-Inferenz ist für genau solche latenzarmen Verbindungen mit hoher Bandbreite ausgelegt
- Dadurch wächst die Möglichkeit, Modelle auf mehrere Macs zu verteilen und einen Inferenz-Cluster aufzubauen, der wie eine einzelne Maschine arbeitet
- Für kleine Teams oder Forschungsumgebungen wird es zu einer realistischen Option, „einen AI-Cluster mit Macs statt mit Servern aufzubauen“
Konkrete Einsatzszenarien, die dadurch möglich werden
- Mehrere Mac Studio oder Mac Pro per Thunderbolt verbinden und eine lokale AI-Inferenz-Farm aufbauen
- Wenn sich große Modelle nur schwer auf einer einzelnen GPU unterbringen lassen, werden Experimente zur partitionierten Modell-Inferenz möglich
- Lokale verteilte Simulationen, Hochgeschwindigkeits-Datenpipelines und experimentelle Forschung an verteilten Systemen
- Die Kosten für den Aufbau von Prototyp- und PoC-Umgebungen vor dem Schritt ins Rechenzentrum lassen sich deutlich senken
4 Kommentare
Thunderbolt-Networking ist wirklich sehr praktisch
Durch Daisy-Chaining braucht man nicht einmal einen Hub
Jetzt werden wohl ziemlich viele Leute ihre Macs zusammenschalten, daraus eine Inferenz-Farm bauen und den Dienst von zu Hause aus anbieten.
In den offiziellen Release Notes von Apple steht dazu nur eine einzige Zeile, nämlich dass „RDMA over Thunderbolt“ möglich geworden ist; deshalb habe ich in GN+ eine zusätzliche Erklärung ergänzt.
Hacker-News-Kommentare
Ich folge dem Twitter-Account des MLX-Teams. Dort werden gelegentlich Beispiele geteilt, in denen zwei oder mehr Macs verbunden werden, um Modelle auszuführen, die mehr als 512 GB RAM benötigen
Beispiele sind Kimi K2 Thinking (1T Parameter) und DeepSeek R1 (671B). Für Letzteres gibt es auch einen Gist mit Einrichtungsanleitung
Im kommenden Release Tahoe 26.2 soll Tensor-Parallelisierung möglich werden. Dabei wird jeder Layer über mehrere Maschinen geshardet, sodass man mit N Maschinen nahezu die N-fache Geschwindigkeit erreichen kann. Die größte Herausforderung ist jedoch die Kommunikationslatenz
Für Einzelpersonen, die lokal mit LLMs experimentieren wollen, ist es dagegen interessant, aber es gibt wohl keinen Grund für kapitalkräftige Unternehmen, das in großer Stückzahl statt GPUs zu kaufen
Ich habe Inference-Hardware mit einem Budget von 50.000 $ verglichen
Angesichts des aktuellen Chaos auf dem RAM-Markt wäre es schon ironisch, wenn Apple dank seiner stabilen Lieferkette zu einer preisgünstigen Option für mittelgroße Inference-Cluster würde
Gemeint ist also, mehrere Mac Studios zu einem Cluster zu verbinden, und ich mache mir Sorgen über physische und administrative Einschränkungen
sudo softwareupdate -i -asind nur Minor-Updates möglichEs wäre schön, wenn Apple selbst eine Cloud auf Basis der M-Serie aufbauen, Metal für AI weiter ausbauen und datenschutzorientierte Self-Hosting-Modelle anbieten würde. In Branchen mit vielen sensiblen Daten könnte das sehr erfolgreich sein
Ich frage mich, ob sich diese Funktion auch für allgemeine verteilte Workloads außerhalb von AI nutzen lässt
Siehe auch: MLX-Leitfaden für verteilte Nutzung
Verwandter Artikel: Engadget - Mit macOS Tahoe 26.2 lässt sich aus einem Mac-Cluster ein AI-Supercomputer bauen
George Hotz hat mit tinygrad per USB4 auf einem Mac eine NVIDIA-GPU betrieben
tinygrad-Tweet
Ich weiß nicht genau, was RDMA ist, aber bedeutet das, dass man mehrere Macs verbinden und Inference parallel ausführen kann? Falls ja, ist das wirklich eine großartige Funktion