- Mit macOS Tahoe 26.2 wurde Thunderbolt-5-basiertes RDMA neu hinzugefügt, wodurch latenzarme Kommunikation für verteilte AI-Inferenz mit MLX möglich wird
- Das bedeutet, dass „Macs wie Hochgeschwindigkeits-Knoten für verteiltes Rechnen behandelt werden können“; damit kann sich macOS über ein reines Desktop-OS hinaus zu einer lokalen Experimentierplattform für AI und HPC erweitern
Was ist RDMA?
- RDMA (Remote Direct Memory Access) ist eine Kommunikationsmethode, bei der ein Computer direkt und ohne CPU-Beteiligung auf den Speicher eines anderen Computers zugreift
- Dadurch werden Netzwerk-Stack, Kernel-Kopien und Context Switches umgangen, was die Latenz drastisch senkt und den Durchsatz deutlich erhöht
- Bisher wurde RDMA hauptsächlich in Rechenzentrumsnetzwerken wie InfiniBand oder RoCE eingesetzt
- In High Performance Computing (HPC), verteiltem Storage sowie großskaligem AI-Training und -Inferenz hat es sich als Standardtechnologie etabliert
- Der Kernpunkt ist, dass es „trotz Netzwerkkommunikation fast so schnell arbeitet, als würde derselbe Speicher gemeinsam genutzt“
Die Bedeutung von RDMA over Thunderbolt
- In macOS 26.2 wird RDMA-Kommunikation zwischen über Thunderbolt 5 verbundenen Macs unterstützt
- Wenn RDMA bisher auf Server-Netzwerkhardware beschränkt war, ist es nun auch in lokalen Mac-Clustern möglich, die nur mit einem Kabel verbunden sind
- Die hohe Bandbreite und die sehr geringe Latenz von Thunderbolt lassen sich direkt im RDMA-Modell nutzen
- Anders gesagt: Es eröffnet sich ein „Verbindungsweg, um mehrere Macs auf dem Schreibtisch wie ein Rechenzentrum zusammenzufassen“
Warum das gut zu AI-Workloads passt
- Bei verteilter AI-Inferenz oder beim Training wird der Tensor-Austausch zwischen Knoten leicht zum Flaschenhals
- RDMA ermöglicht in diesem Prozess ein Kommunikationsmuster nahe an GPU-zu-GPU, ohne CPU-Ressourcen zu verbrauchen
- Die in den Release Notes erwähnte MLX-basierte verteilte AI-Inferenz ist für genau solche latenzarmen Verbindungen mit hoher Bandbreite ausgelegt
- Dadurch wächst die Möglichkeit, Modelle auf mehrere Macs zu verteilen und einen Inferenz-Cluster aufzubauen, der wie eine einzelne Maschine arbeitet
- Für kleine Teams oder Forschungsumgebungen wird es zu einer realistischen Option, „einen AI-Cluster mit Macs statt mit Servern aufzubauen“
Konkrete Einsatzszenarien, die dadurch möglich werden
- Mehrere Mac Studio oder Mac Pro per Thunderbolt verbinden und eine lokale AI-Inferenz-Farm aufbauen
- Wenn sich große Modelle nur schwer auf einer einzelnen GPU unterbringen lassen, werden Experimente zur partitionierten Modell-Inferenz möglich
- Lokale verteilte Simulationen, Hochgeschwindigkeits-Datenpipelines und experimentelle Forschung an verteilten Systemen
- Die Kosten für den Aufbau von Prototyp- und PoC-Umgebungen vor dem Schritt ins Rechenzentrum lassen sich deutlich senken
Noch keine Kommentare.