11 Punkte von GN⁺ 2025-12-13 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Mit macOS Tahoe 26.2 wurde Thunderbolt-5-basiertes RDMA neu hinzugefügt, wodurch latenzarme Kommunikation für verteilte AI-Inferenz mit MLX möglich wird
  • Das bedeutet, dass „Macs wie Hochgeschwindigkeits-Knoten für verteiltes Rechnen behandelt werden können“; damit kann sich macOS über ein reines Desktop-OS hinaus zu einer lokalen Experimentierplattform für AI und HPC erweitern

Was ist RDMA?

  • RDMA (Remote Direct Memory Access) ist eine Kommunikationsmethode, bei der ein Computer direkt und ohne CPU-Beteiligung auf den Speicher eines anderen Computers zugreift
  • Dadurch werden Netzwerk-Stack, Kernel-Kopien und Context Switches umgangen, was die Latenz drastisch senkt und den Durchsatz deutlich erhöht
  • Bisher wurde RDMA hauptsächlich in Rechenzentrumsnetzwerken wie InfiniBand oder RoCE eingesetzt
  • In High Performance Computing (HPC), verteiltem Storage sowie großskaligem AI-Training und -Inferenz hat es sich als Standardtechnologie etabliert
  • Der Kernpunkt ist, dass es „trotz Netzwerkkommunikation fast so schnell arbeitet, als würde derselbe Speicher gemeinsam genutzt“

Die Bedeutung von RDMA over Thunderbolt

  • In macOS 26.2 wird RDMA-Kommunikation zwischen über Thunderbolt 5 verbundenen Macs unterstützt
  • Wenn RDMA bisher auf Server-Netzwerkhardware beschränkt war, ist es nun auch in lokalen Mac-Clustern möglich, die nur mit einem Kabel verbunden sind
  • Die hohe Bandbreite und die sehr geringe Latenz von Thunderbolt lassen sich direkt im RDMA-Modell nutzen
  • Anders gesagt: Es eröffnet sich ein „Verbindungsweg, um mehrere Macs auf dem Schreibtisch wie ein Rechenzentrum zusammenzufassen“

Warum das gut zu AI-Workloads passt

  • Bei verteilter AI-Inferenz oder beim Training wird der Tensor-Austausch zwischen Knoten leicht zum Flaschenhals
  • RDMA ermöglicht in diesem Prozess ein Kommunikationsmuster nahe an GPU-zu-GPU, ohne CPU-Ressourcen zu verbrauchen
  • Die in den Release Notes erwähnte MLX-basierte verteilte AI-Inferenz ist für genau solche latenzarmen Verbindungen mit hoher Bandbreite ausgelegt
  • Dadurch wächst die Möglichkeit, Modelle auf mehrere Macs zu verteilen und einen Inferenz-Cluster aufzubauen, der wie eine einzelne Maschine arbeitet
  • Für kleine Teams oder Forschungsumgebungen wird es zu einer realistischen Option, „einen AI-Cluster mit Macs statt mit Servern aufzubauen“

Konkrete Einsatzszenarien, die dadurch möglich werden

  • Mehrere Mac Studio oder Mac Pro per Thunderbolt verbinden und eine lokale AI-Inferenz-Farm aufbauen
  • Wenn sich große Modelle nur schwer auf einer einzelnen GPU unterbringen lassen, werden Experimente zur partitionierten Modell-Inferenz möglich
  • Lokale verteilte Simulationen, Hochgeschwindigkeits-Datenpipelines und experimentelle Forschung an verteilten Systemen
  • Die Kosten für den Aufbau von Prototyp- und PoC-Umgebungen vor dem Schritt ins Rechenzentrum lassen sich deutlich senken

Noch keine Kommentare.

Noch keine Kommentare.