- Tesla hat auf der HotChips 2024 das Tesla Transport Protocol over Ethernet (TTPoE) als Open Source veröffentlicht
- Tesla ist dem Ultra Ethernet Consortium (UEC) beigetreten, um dieses Protokoll zu teilen und an der Standardisierung eines neuen Hochgeschwindigkeits-/Niedriglatenz-Fabrics für AI/ML/Rechenzentren zu arbeiten
- TTPoE ist nicht proprietär, kostengünstig und setzt auf verteilte Congestion Control, Standard-Ethernet-II-Frames und ein dezentrales Interconnect-Protokoll
- Eigenschaften von TTPoE
- Wie bei TCP sind Paketverlust und Neuübertragung erlaubt, die vollständige Übertragung wird jedoch garantiert
- Die erste Bereitstellung von TTPoE erfolgte im Tesla-Dojo-v1-Projekt
- Das Protokoll läuft vollständig in Hardware und wurde in einem extrem großen Multi-Exaflops-(fp16)-Supercomputer mit Zehntausenden gleichzeitigen Endpunkten eingesetzt
- Das Protokoll kann Links ohne Eingriff von CPU oder OS aufbauen und betreiben
- Das Protokoll ist nicht komplex oder übermäßig clever, sondern basiert auf Grundprinzipien
- Ethernet-Transport dient im Kern dazu, Daten von A nach B zu bewegen, und sollte nur durch physikalische Grenzen eingeschränkt sein
- In sehr groß skalierten Systemen ist zentralisiertes Congestion Management ein törichter Versuch; jeder Endpunkt sollte resilient sein und sich selbst verwalten
Meinung von GN⁺
- TTPoE ist ein interessanter Versuch, die Grenzen des bestehenden TCP-Protokolls in Hochleistungsrechenumgebungen zu überwinden
- Das Hauptziel scheint zu sein, durch Hardware-Offloading und eine vereinfachte State Machine die Latenz zu minimieren und den Durchsatz zu maximieren
- TTPoE hat das Potenzial, die Datenübertragungsgeschwindigkeit und Latenz im Bereich AI und ML zu verbessern
- Dass Tesla dieses Protokoll als Open Source veröffentlicht hat, dürfte helfen, Innovationen im HPC-Bereich zu beschleunigen
- Allerdings dürfte es für TTPoE schwierig sein, TCP in allgemeinen Netzwerken vollständig zu ersetzen; es handelt sich um eine für hochwertige dedizierte Netzwerke optimierte Lösung. Für eine breite Akzeptanz von TTPoE werden Standardisierung und der Aufbau eines Ökosystems wichtig sein
- Ähnliche Protokolle mit vergleichbaren Funktionen sind RoCE (RDMA over Converged Ethernet) und NVLink
1 Kommentare
Es gibt noch einen anderen Artikel, der TTPoE etwas genauer erklärt.
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications
Überblick über TTPoE
Warum TTPoE nötig ist
Eigenschaften von TTPoE
Staukontrolle in TTPoE
Hardware-Implementierung von TTPoE
Mojo NIC
Zusammenfassung