Überblick über Teslas Projekt Dojo
(perspectives.mvdirona.com)<p>Ein Beitrag von AWS-VP James Hamilton<br />
- Das Machine-Learning-System Dojo ist in drei Aspekten interessant <br />
1. Netzwerk im großen Maßstab <br />
→ Jeder D1-Chip bietet 16.000 Gbps Networking (4 Tbps, 4 Kanäle) und wird zu einem 25-Chip-MCM (Multi-Chip Modules) kombiniert, das 36.000 Gbps (4x 9 Tb) Bandbreite liefert<br />
2. Extrem kleines Verhältnis von Speicher zu Rechenleistung <br />
→ Jeder D1-Chip besteht aus 354 Funktionseinheiten, und jede Einheit verfügt nur über 1,25 Mega SRAM und kein DRAM, sodass ein einzelner D1-Chip insgesamt nicht einmal ein halbes Gigabyte Speicher hat (442,5 Mb)<br />
→ Am Ende einer Rack-Einheit aus 5 Blöcken wird ein großer DRAM-Pool platziert, während das Computing-Rack selbst kein DRAM besitzt<br />
→ Wenn man darüber nachdenkt, wie der Betrieb mit so wenig Speicher möglich ist, dürfte es eine Kombination aus enormer Netzwerkbandbreite und einem Systemdesign sein, das darauf ausgelegt ist, Vision-Modelle auszuführen, die deutlich weniger Speicher verwenden als andere typische ML-Trainingsaufgaben<br />
3. Enorme Leistungsdichte <br />
→ Jeder D1-Chip verbraucht nur 400 W; das entspricht für diese Größe zwar modernen Erwartungen, wurde aber in einem sehr dicht gepackten 25-Chip-MCM so kombiniert, dass es nur 15 kW verbraucht (10 kW für die D1s und 5 kW für die Spannungsregler)<br />
→ Dadurch kommt ein vollständig bestücktes 10-Rack-Dojo-Trainingssystem auf 1,8 Megawatt<br />
→ Aus Größensicht würde ein Rechenzentrum mittlerer Größe typischerweise im Bereich von 30 bis 40 Megawatt betrieben werden<br />
<br />
- Ein eher kleiner Punkt, aber das direkte Platzieren des VRD (Voltage Regulator Down) auf dem Tile scheint ein guter Ansatz zu sein, um die ungewöhnlich hohe 52-V-Stromversorgung bereitzustellen. Selbst bei einem Stromverbrauch von 15 kW fließen bei 52 V immer noch 288 A<br />
- 354 Funktionseinheiten sind auf einem einzelnen D1-Chip mit 645 mm^2 integriert. 25 D1-Chips bilden ein Multi-Chip-Modul namens Training Tile, 12 Training Tiles bilden ein Rack, und 10 Racks füllen ein Exapod.<br />
- „Ein ziemlich innovatives System“</p>
1 Kommentare