11 Punkte von xguru 2021-08-24 | 1 Kommentare | Auf WhatsApp teilen
<p>Ein Beitrag von AWS-VP James Hamilton<br /> - Das Machine-Learning-System Dojo ist in drei Aspekten interessant <br /> 1. Netzwerk im großen Maßstab <br /> → Jeder D1-Chip bietet 16.000 Gbps Networking (4 Tbps, 4 Kanäle) und wird zu einem 25-Chip-MCM (Multi-Chip Modules) kombiniert, das 36.000 Gbps (4x 9 Tb) Bandbreite liefert<br /> 2. Extrem kleines Verhältnis von Speicher zu Rechenleistung <br /> → Jeder D1-Chip besteht aus 354 Funktionseinheiten, und jede Einheit verfügt nur über 1,25 Mega SRAM und kein DRAM, sodass ein einzelner D1-Chip insgesamt nicht einmal ein halbes Gigabyte Speicher hat (442,5 Mb)<br /> → Am Ende einer Rack-Einheit aus 5 Blöcken wird ein großer DRAM-Pool platziert, während das Computing-Rack selbst kein DRAM besitzt<br /> → Wenn man darüber nachdenkt, wie der Betrieb mit so wenig Speicher möglich ist, dürfte es eine Kombination aus enormer Netzwerkbandbreite und einem Systemdesign sein, das darauf ausgelegt ist, Vision-Modelle auszuführen, die deutlich weniger Speicher verwenden als andere typische ML-Trainingsaufgaben<br /> 3. Enorme Leistungsdichte <br /> → Jeder D1-Chip verbraucht nur 400 W; das entspricht für diese Größe zwar modernen Erwartungen, wurde aber in einem sehr dicht gepackten 25-Chip-MCM so kombiniert, dass es nur 15 kW verbraucht (10 kW für die D1s und 5 kW für die Spannungsregler)<br /> → Dadurch kommt ein vollständig bestücktes 10-Rack-Dojo-Trainingssystem auf 1,8 Megawatt<br /> → Aus Größensicht würde ein Rechenzentrum mittlerer Größe typischerweise im Bereich von 30 bis 40 Megawatt betrieben werden<br /> <br /> - Ein eher kleiner Punkt, aber das direkte Platzieren des VRD (Voltage Regulator Down) auf dem Tile scheint ein guter Ansatz zu sein, um die ungewöhnlich hohe 52-V-Stromversorgung bereitzustellen. Selbst bei einem Stromverbrauch von 15 kW fließen bei 52 V immer noch 288 A<br /> - 354 Funktionseinheiten sind auf einem einzelnen D1-Chip mit 645 mm^2 integriert. 25 D1-Chips bilden ein Multi-Chip-Modul namens Training Tile, 12 Training Tiles bilden ein Rack, und 10 Racks füllen ein Exapod.<br /> - „Ein ziemlich innovatives System“</p>

1 Kommentare

 
xguru 2021-08-24
<p>Weitere lesenswerte Beiträge zum Tesla AI Day<br /> - Eindrücke vom Tesla AI Day https://de.news.hada.io/topic?id=4859<br /> - Zusammenfassung des Inhalts des Tesla AI Day.gif https://gall.dcinside.com/mgallery/board/… /> - Tesla AI Day, vollständige Version Teil 1 mit koreanischen Untertiteln https://www.youtube.com/watch?v=Ah-TMrKSvic</p>;