11 Punkte von GN⁺ 2025-12-13 | 4 Kommentare | Auf WhatsApp teilen
  • Mit macOS Tahoe 26.2 wurde Thunderbolt-5-basiertes RDMA neu hinzugefügt, wodurch latenzarme Kommunikation für verteilte AI-Inferenz mit MLX möglich wird
  • Das bedeutet, dass „Macs wie Hochgeschwindigkeits-Knoten für verteiltes Rechnen behandelt werden können“; damit kann sich macOS über ein reines Desktop-OS hinaus zu einer lokalen Experimentierplattform für AI und HPC erweitern

Was ist RDMA?

  • RDMA (Remote Direct Memory Access) ist eine Kommunikationsmethode, bei der ein Computer direkt und ohne CPU-Beteiligung auf den Speicher eines anderen Computers zugreift
  • Dadurch werden Netzwerk-Stack, Kernel-Kopien und Context Switches umgangen, was die Latenz drastisch senkt und den Durchsatz deutlich erhöht
  • Bisher wurde RDMA hauptsächlich in Rechenzentrumsnetzwerken wie InfiniBand oder RoCE eingesetzt
  • In High Performance Computing (HPC), verteiltem Storage sowie großskaligem AI-Training und -Inferenz hat es sich als Standardtechnologie etabliert
  • Der Kernpunkt ist, dass es „trotz Netzwerkkommunikation fast so schnell arbeitet, als würde derselbe Speicher gemeinsam genutzt“

Die Bedeutung von RDMA over Thunderbolt

  • In macOS 26.2 wird RDMA-Kommunikation zwischen über Thunderbolt 5 verbundenen Macs unterstützt
  • Wenn RDMA bisher auf Server-Netzwerkhardware beschränkt war, ist es nun auch in lokalen Mac-Clustern möglich, die nur mit einem Kabel verbunden sind
  • Die hohe Bandbreite und die sehr geringe Latenz von Thunderbolt lassen sich direkt im RDMA-Modell nutzen
  • Anders gesagt: Es eröffnet sich ein „Verbindungsweg, um mehrere Macs auf dem Schreibtisch wie ein Rechenzentrum zusammenzufassen“

Warum das gut zu AI-Workloads passt

  • Bei verteilter AI-Inferenz oder beim Training wird der Tensor-Austausch zwischen Knoten leicht zum Flaschenhals
  • RDMA ermöglicht in diesem Prozess ein Kommunikationsmuster nahe an GPU-zu-GPU, ohne CPU-Ressourcen zu verbrauchen
  • Die in den Release Notes erwähnte MLX-basierte verteilte AI-Inferenz ist für genau solche latenzarmen Verbindungen mit hoher Bandbreite ausgelegt
  • Dadurch wächst die Möglichkeit, Modelle auf mehrere Macs zu verteilen und einen Inferenz-Cluster aufzubauen, der wie eine einzelne Maschine arbeitet
  • Für kleine Teams oder Forschungsumgebungen wird es zu einer realistischen Option, „einen AI-Cluster mit Macs statt mit Servern aufzubauen“

Konkrete Einsatzszenarien, die dadurch möglich werden

  • Mehrere Mac Studio oder Mac Pro per Thunderbolt verbinden und eine lokale AI-Inferenz-Farm aufbauen
  • Wenn sich große Modelle nur schwer auf einer einzelnen GPU unterbringen lassen, werden Experimente zur partitionierten Modell-Inferenz möglich
  • Lokale verteilte Simulationen, Hochgeschwindigkeits-Datenpipelines und experimentelle Forschung an verteilten Systemen
  • Die Kosten für den Aufbau von Prototyp- und PoC-Umgebungen vor dem Schritt ins Rechenzentrum lassen sich deutlich senken

4 Kommentare

 
bus710 2025-12-14

Thunderbolt-Networking ist wirklich sehr praktisch
Durch Daisy-Chaining braucht man nicht einmal einen Hub

 
shakespeares 2025-12-13

Jetzt werden wohl ziemlich viele Leute ihre Macs zusammenschalten, daraus eine Inferenz-Farm bauen und den Dienst von zu Hause aus anbieten.

 
xguru 2025-12-13

In den offiziellen Release Notes von Apple steht dazu nur eine einzige Zeile, nämlich dass „RDMA over Thunderbolt“ möglich geworden ist; deshalb habe ich in GN+ eine zusätzliche Erklärung ergänzt.

 
GN⁺ 2025-12-13
Hacker-News-Kommentare
  • Ich folge dem Twitter-Account des MLX-Teams. Dort werden gelegentlich Beispiele geteilt, in denen zwei oder mehr Macs verbunden werden, um Modelle auszuführen, die mehr als 512 GB RAM benötigen
    Beispiele sind Kimi K2 Thinking (1T Parameter) und DeepSeek R1 (671B). Für Letzteres gibt es auch einen Gist mit Einrichtungsanleitung

    • Diese Posts zeigen Beispiele mit Pipeline-Parallelisierung. Wenn es N Maschinen gibt, werden L/N Layer auf jede Maschine verteilt. Das bringt keinen Geschwindigkeitsgewinn, ermöglicht aber die Ausführung großer Modelle, die nicht auf eine einzelne Maschine passen
      Im kommenden Release Tahoe 26.2 soll Tensor-Parallelisierung möglich werden. Dabei wird jeder Layer über mehrere Maschinen geshardet, sodass man mit N Maschinen nahezu die N-fache Geschwindigkeit erreichen kann. Die größte Herausforderung ist jedoch die Kommunikationslatenz
    • Letzte Woche wurde ein RDMA-basierter Tensor-Parallel-Test durchgeführt. Test-Link. Erwähnt wird auch eine Umgehung für schnelle Synchronisierung (fast sync)
    • Für Nicht-Fachleute ist das hoffentlich nicht allzu attraktiv. Bei parallelen Workloads oder der Kontextverarbeitung skaliert die Leistung nicht besonders gut
      Für Einzelpersonen, die lokal mit LLMs experimentieren wollen, ist es dagegen interessant, aber es gibt wohl keinen Grund für kapitalkräftige Unternehmen, das in großer Stückzahl statt GPUs zu kaufen
    • Am erstaunlichsten ist der Stromverbrauch. Zusammen nur etwa 50 W – ich musste zweimal hinschauen, um sicherzugehen, dass ich mich nicht verlesen habe
  • Ich habe Inference-Hardware mit einem Budget von 50.000 $ verglichen

    • Apple M3 Ultra Cluster (50.000 $): Maximiert die Kapazität (3 TB). Die einzige Option, mit der sich Modelle mit 3T+ Parametern wie Kimi K2 ausführen lassen, aber die Geschwindigkeit ist gering (~15 t/s)
    • NVIDIA-RTX-6000-Workstation (50.000 $): Maximiert den Durchsatz (>80 t/s). Sehr gut für Training und Inference, aber der VRAM ist auf 384 GB begrenzt, sodass nur Modelle unter 400B möglich sind
    • Um sowohl dieselbe Kapazität (3 TB) als auch einen Durchsatz von über 100 t/s zu erreichen, bräuchte man ein NVIDIA-GH200-Cluster für etwa 270.000 $. Das Apple-Cluster bietet 87 % dieser Kapazität zu 18 % der Kosten
    • Es geht auch günstiger. Ich betreibe DeepSeek-R1 auf einer Dual-Socket-Xeon-Workstation (768 GB RAM) für 2.000 $ mit 1–2 Tokens pro Sekunde
    • Ich frage mich, wie die Rechnung für das NVIDIA-Cluster für 50.000 $ aussieht. Wenn eine RTX 6000 ungefähr 8.000 $ kostet, käme man mit etwa fünf Stück auf 40.000 $ und ungefähr ein halbes TB. Trotzdem bleiben Macs für Inference effizient, und der M5 Ultra dürfte ein noch besseres Preis-Leistungs-Verhältnis bieten
    • Für das gleiche Budget könnte man auch 25 Framework-Desktop-Boards kaufen, jeweils mit 128 GB VRAM und Strix Halo. Insgesamt wären das 3 TB VRAM, aber das Clustering dürfte ziemlich herausfordernd sein
    • Wenn man die noch nicht implementierten parallelen Geschwindigkeitsgewinne berücksichtigt, wirkt das für On-Premises-Inference durchaus wie ein ziemlich gutes Angebot
    • Apple verwendet LPDDR5X, um Energieverbrauch und Kosten zu senken, während NVIDIA mit GDDR/HBM die Leistung priorisiert
  • Angesichts des aktuellen Chaos auf dem RAM-Markt wäre es schon ironisch, wenn Apple dank seiner stabilen Lieferkette zu einer preisgünstigen Option für mittelgroße Inference-Cluster würde

    • Es wäre allerdings etwas unerquicklich, wenn kommerzielle Nutzer alle guten Macs aufkaufen würden
    • In manchen Einsatzbereichen passiert das bereits
  • Gemeint ist also, mehrere Mac Studios zu einem Cluster zu verbinden, und ich mache mir Sorgen über physische und administrative Einschränkungen

    1. Die Position des Power-Buttons ist unpraktisch, wenn man sie im Rack montiert
    2. Thunderbolt ist großartig für Peripheriegeräte, aber als Interconnect für dauerhafte Verbindungen mache ich mir Sorgen um die Haltbarkeit der Ports
    3. Die Kabelqualität ist wichtig. Bei TB4/TB5 gab es mit günstigen Kabeln oft Probleme
    4. Die Fernverwaltung von macOS ist weniger effizient als unter Linux. Zum Beispiel ist ein Upgrade von macOS 26.1 auf 26.2 ohne GUI schwierig. Mit sudo softwareupdate -i -a sind nur Minor-Updates möglich
    • Zu Punkt 2: Das OWC-Dock hat Schraublöcher zur Kabelfixierung. Mit dem OWC Thunderbolt Dock und dem ClingOn-Adapter lässt sich die Belastung des Ports reduzieren
    • Das Problem mit dem Power-Button lässt sich mit dem RackMac-Studio-Gehäuse lösen. Es verlängert den Button mechanisch
    • Thunderbolt als Server-Interconnect einzusetzen, wirkt ästhetisch vielleicht etwas seltsam, aber in einem fest montierten Rack gibt es sogar weniger physische Belastung
    • Mit einer MDM-Lösung sind nicht nur Software-Updates, sondern auch LOM (Remote-Power-Management) möglich. Es gibt auch Open-Source-MDMs
    • Die Rackmount-Version des Mac Pro wird zwar noch verkauft, wurde aber nicht auf den M3 Ultra aktualisiert und dürfte bald eingestellt werden
  • Es wäre schön, wenn Apple selbst eine Cloud auf Basis der M-Serie aufbauen, Metal für AI weiter ausbauen und datenschutzorientierte Self-Hosting-Modelle anbieten würde. In Branchen mit vielen sensiblen Daten könnte das sehr erfolgreich sein

    • Ein ähnliches Konzept existiert bereits mit Private Cloud Compute, allerdings nur für iUser, die Apple-Modelle verwenden
    • In Rechenzentren ist Sharding über schnelle Interconnects effizienter als großer Speicher pro GPU. NVIDIA- und AMD-GPUs liegen bei der reinen Rechenleistung weiterhin vorn
  • Ich frage mich, ob sich diese Funktion auch für allgemeine verteilte Workloads außerhalb von AI nutzen lässt

    • Ich habe es mit HPL und mpirun getestet, aber RDMA wird noch nicht unterstützt und es ist nur ein Ring-Ansatz möglich. Etwas grob, aber es funktioniert
      Siehe auch: MLX-Leitfaden für verteilte Nutzung
  • Verwandter Artikel: Engadget - Mit macOS Tahoe 26.2 lässt sich aus einem Mac-Cluster ein AI-Supercomputer bauen

  • George Hotz hat mit tinygrad per USB4 auf einem Mac eine NVIDIA-GPU betrieben
    tinygrad-Tweet

  • Ich weiß nicht genau, was RDMA ist, aber bedeutet das, dass man mehrere Macs verbinden und Inference parallel ausführen kann? Falls ja, ist das wirklich eine großartige Funktion

    • Inference über mehrere Macs war schon seit einem Jahr möglich, aber jetzt läuft es deutlich schneller