Ab macOS 26.2 wird der Aufbau schneller AI-Cluster per RDMA über Thunderbolt möglich

(developer.apple.com)

11 Punkte von GN⁺ 2025-12-13 | Noch keine Kommentare. | Auf WhatsApp teilen

Mit macOS Tahoe 26.2 wurde Thunderbolt-5-basiertes RDMA neu hinzugefügt, wodurch latenzarme Kommunikation für verteilte AI-Inferenz mit MLX möglich wird
Das bedeutet, dass „Macs wie Hochgeschwindigkeits-Knoten für verteiltes Rechnen behandelt werden können“; damit kann sich macOS über ein reines Desktop-OS hinaus zu einer lokalen Experimentierplattform für AI und HPC erweitern

Was ist RDMA?

RDMA (Remote Direct Memory Access) ist eine Kommunikationsmethode, bei der ein Computer direkt und ohne CPU-Beteiligung auf den Speicher eines anderen Computers zugreift
Dadurch werden Netzwerk-Stack, Kernel-Kopien und Context Switches umgangen, was die Latenz drastisch senkt und den Durchsatz deutlich erhöht
Bisher wurde RDMA hauptsächlich in Rechenzentrumsnetzwerken wie InfiniBand oder RoCE eingesetzt
In High Performance Computing (HPC), verteiltem Storage sowie großskaligem AI-Training und -Inferenz hat es sich als Standardtechnologie etabliert
Der Kernpunkt ist, dass es „trotz Netzwerkkommunikation fast so schnell arbeitet, als würde derselbe Speicher gemeinsam genutzt“

In macOS 26.2 wird RDMA-Kommunikation zwischen über Thunderbolt 5 verbundenen Macs unterstützt
Wenn RDMA bisher auf Server-Netzwerkhardware beschränkt war, ist es nun auch in lokalen Mac-Clustern möglich, die nur mit einem Kabel verbunden sind
Die hohe Bandbreite und die sehr geringe Latenz von Thunderbolt lassen sich direkt im RDMA-Modell nutzen
Anders gesagt: Es eröffnet sich ein „Verbindungsweg, um mehrere Macs auf dem Schreibtisch wie ein Rechenzentrum zusammenzufassen“

Bei verteilter AI-Inferenz oder beim Training wird der Tensor-Austausch zwischen Knoten leicht zum Flaschenhals
RDMA ermöglicht in diesem Prozess ein Kommunikationsmuster nahe an GPU-zu-GPU, ohne CPU-Ressourcen zu verbrauchen
Die in den Release Notes erwähnte MLX-basierte verteilte AI-Inferenz ist für genau solche latenzarmen Verbindungen mit hoher Bandbreite ausgelegt
Dadurch wächst die Möglichkeit, Modelle auf mehrere Macs zu verteilen und einen Inferenz-Cluster aufzubauen, der wie eine einzelne Maschine arbeitet
Für kleine Teams oder Forschungsumgebungen wird es zu einer realistischen Option, „einen AI-Cluster mit Macs statt mit Servern aufzubauen“

Mehrere Mac Studio oder Mac Pro per Thunderbolt verbinden und eine lokale AI-Inferenz-Farm aufbauen
Wenn sich große Modelle nur schwer auf einer einzelnen GPU unterbringen lassen, werden Experimente zur partitionierten Modell-Inferenz möglich
Lokale verteilte Simulationen, Hochgeschwindigkeits-Datenpipelines und experimentelle Forschung an verteilten Systemen
Die Kosten für den Aufbau von Prototyp- und PoC-Umgebungen vor dem Schritt ins Rechenzentrum lassen sich deutlich senken