4 Punkte von GN⁺ 2024-09-24 | 1 Kommentare | Auf WhatsApp teilen
  • Tesla hat auf der HotChips 2024 das Tesla Transport Protocol over Ethernet (TTPoE) als Open Source veröffentlicht
  • Tesla ist dem Ultra Ethernet Consortium (UEC) beigetreten, um dieses Protokoll zu teilen und an der Standardisierung eines neuen Hochgeschwindigkeits-/Niedriglatenz-Fabrics für AI/ML/Rechenzentren zu arbeiten
  • TTPoE ist nicht proprietär, kostengünstig und setzt auf verteilte Congestion Control, Standard-Ethernet-II-Frames und ein dezentrales Interconnect-Protokoll
  • Eigenschaften von TTPoE
    • Wie bei TCP sind Paketverlust und Neuübertragung erlaubt, die vollständige Übertragung wird jedoch garantiert
    • Die erste Bereitstellung von TTPoE erfolgte im Tesla-Dojo-v1-Projekt
      • Das Protokoll läuft vollständig in Hardware und wurde in einem extrem großen Multi-Exaflops-(fp16)-Supercomputer mit Zehntausenden gleichzeitigen Endpunkten eingesetzt
    • Das Protokoll kann Links ohne Eingriff von CPU oder OS aufbauen und betreiben
  • Das Protokoll ist nicht komplex oder übermäßig clever, sondern basiert auf Grundprinzipien
    • Ethernet-Transport dient im Kern dazu, Daten von A nach B zu bewegen, und sollte nur durch physikalische Grenzen eingeschränkt sein
    • In sehr groß skalierten Systemen ist zentralisiertes Congestion Management ein törichter Versuch; jeder Endpunkt sollte resilient sein und sich selbst verwalten

Meinung von GN⁺

  • TTPoE ist ein interessanter Versuch, die Grenzen des bestehenden TCP-Protokolls in Hochleistungsrechenumgebungen zu überwinden
  • Das Hauptziel scheint zu sein, durch Hardware-Offloading und eine vereinfachte State Machine die Latenz zu minimieren und den Durchsatz zu maximieren
  • TTPoE hat das Potenzial, die Datenübertragungsgeschwindigkeit und Latenz im Bereich AI und ML zu verbessern
  • Dass Tesla dieses Protokoll als Open Source veröffentlicht hat, dürfte helfen, Innovationen im HPC-Bereich zu beschleunigen
  • Allerdings dürfte es für TTPoE schwierig sein, TCP in allgemeinen Netzwerken vollständig zu ersetzen; es handelt sich um eine für hochwertige dedizierte Netzwerke optimierte Lösung. Für eine breite Akzeptanz von TTPoE werden Standardisierung und der Aufbau eines Ökosystems wichtig sein
  • Ähnliche Protokolle mit vergleichbaren Funktionen sind RoCE (RDMA over Converged Ethernet) und NVLink

1 Kommentare

 
xguru 2024-09-24

Es gibt noch einen anderen Artikel, der TTPoE etwas genauer erklärt.
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications

Überblick über TTPoE

  • Tesla stellte auf der Hot Chips 2023 den Dojo-Supercomputer vor, der für Machine Learning mit Fokus auf Automobilanwendungen wie autonomes Fahren verwendet wird.
  • Die Trainingsdaten umfassen Videos, die viel IO-Bandbreite erfordern, und ein einzelner Tensor kann bei Teslas Vision-Anwendungen bis zu 1,7 GB groß sein.
  • Tesla stellte fest, dass der Durchsatz des Dojo-Supercomputers durch die Geschwindigkeit begrenzt werden kann, mit der Host-Maschinen Daten in den Supercomputer einspeisen.

Warum TTPoE nötig ist

  • Tesla löste dieses Problem, indem es mehr Hosts hinzufügte und einen Weg fand, diese zusätzlichen Hosts kostengünstig mit dem Supercomputer zu verbinden.
  • Statt typischer Supercomputer-Netzwerklösungen wie InfiniBand entschied sich Tesla dafür, Ethernet mit einer modifizierten Transportschicht an die eigenen Anforderungen anzupassen.
  • TCP wird durch Tesla Transport Protocol over Ethernet (TTPoE) ersetzt, das für Latenzen im Mikrosekundenbereich ausgelegt ist und ein einfaches Hardware-Offloading ermöglichen soll.

Eigenschaften von TTPoE

  • TTPoE ist so konzipiert, dass es vollständig in Hardware verarbeitet wird, und bietet eine bessere Latenz als das Standard-TCP-Protokoll.
  • Die Zustandsmaschine von TTPoE ist im Vergleich zu TCP stark vereinfacht.
  • Durch das Entfernen von Wartezuständen aus TCP wird die Latenz reduziert.
  • TTP entfernt den TIME_WAIT-Zustand und ändert die Sequenz zum Verbindungsabbau von drei Übertragungen auf zwei.
  • Der 3-Way-Handshake von TCP wird zu einem 2-Way-Handshake verkürzt, um die Latenz beim Verbindungsaufbau zu senken.

Staukontrolle in TTPoE

  • Wie bei TCP verwendet Tesla Paketverlust für die Staukontrolle.
  • Da Tesla für den Betrieb in einem standardmäßig latenzarmen Netzwerk ausgelegt ist, konnte das Unternehmen hier einen eher brachialen Ansatz wählen.
  • Traditionelle TCP-Implementierungen verwalten ein gleitendes Congestion Window, TTP jedoch nicht.
  • Die Hardware verfolgt in einem SRAM-Puffer die übertragenen Daten nach; dieser definiert die Größe des Congestion Window.
  • Herkömmliche TCP-Algorithmen zur Staukontrolle arbeiten auf Zeitskalen, die zu lang sind, um für Teslas Dojo-Supercomputer-Anwendungen effektiv zu sein.

Hardware-Implementierung von TTPoE

  • Tesla verarbeitet das TTP-Protokoll in einem Hardware-Block, der zwischen dem Chip und standardmäßiger Ethernet-Hardware platziert ist.
  • Dieser MAC-Hardware-Block wurde von CPU-Designern entworfen und übernimmt viele Merkmale aus dem CPU-Design.
  • Der Vortragende beschrieb ihn als ähnlich zu einem Shared Cache; ein Arbiter wählt unter den Anfragen aus und berücksichtigt dabei Reihenfolgenrisiken.
  • Eine der auffälligsten Ressourcen ist ein 1-MB-SRAM-Puffer für Übertragungen, der wie oben erwähnt das Congestion Window definiert.

Mojo NIC

  • Der TPP-MAC wird in dem implementiert, was Tesla als „Dumb-NIC“ bezeichnet.
  • „Dumb“ wird sie genannt, weil sie so günstig und einfach wie möglich gehalten ist.
  • Tesla möchte eine große Zahl von Host-Knoten einsetzen, um den Dojo-Supercomputer mit Daten zu versorgen; mit günstigen Netzwerkkarten lässt sich das kosteneffizient umsetzen.
  • Der Name Mojo stammt von der Idee, dass zusätzliche Host-Knoten Dojo mehr Mojo liefern, um die Leistung aufrechtzuerhalten.
  • Mojo-Karten werden in entfernten Host-Maschinen installiert, und wenn Ingenieure mehr Bandbreite benötigen, um den Dojo-Supercomputer mit Daten zu versorgen, können sie Remote-Host-Maschinen aus einem Pool hinzunehmen.

Zusammenfassung

  • Das Mojo- und TTPoE-Protokoll bietet interessante Einblicke, wie das bekannte Transmission Control Protocol (TCP) für den Einsatz in hochwertigen internen Supercomputer-Netzwerken vereinfacht werden kann.
  • Das Protokoll könnte theoretisch im Internet betrieben werden, aber Vereinfachungen wie ein festes Congestion Window würden auf qualitativ schlechteren Verbindungen zu Internet Service Providern und darüber hinaus wahrscheinlich nicht gut funktionieren.
  • Im Vergleich zu anderen Supercomputing-Netzwerklösungen wie InfiniBand kann ein benutzerdefiniertes Transportprotokoll über Ethernet ausreichend zusätzliche Bandbreite liefern, um die Anforderungen von Dojo zu erfüllen.