Metas Open-AI-Hardware-Vision

(engineering.fb.com)

6 Punkte von GN⁺ 2024-10-18 | 1 Kommentare | Auf WhatsApp teilen

Meta stellt auf dem Open Compute Project (OCP) Global Summit 2024 seine neuesten AI-Hardware-Designs vor

Präsentation innovativer Technologien wie einer neuen AI-Plattform, modernster Open-Rack-Designs, fortschrittlicher Netzwerk-Fabrics und Komponenten
Durch das Teilen der Designs sollen Zusammenarbeit gefördert und Innovationen beschleunigt werden

Metas Innovationen bei AI-Modellen und Fortschritte der Infrastruktur

Meta optimiert und verbessert seit Jahren Funktionen wie Feed- und Werbesysteme durch Innovationen bei AI-Modellen
Mit der Entwicklung und Veröffentlichung neuer, fortschrittlicher AI-Modelle konzentriert sich das Unternehmen auch auf den Ausbau der Infrastruktur zur Unterstützung neuer AI-Workloads
So wurden für das Training des Modells Llama 3.1 405B umfangreiche Optimierungen über den gesamten Training-Stack hinweg vorgenommen, sodass es auf mehr als 16.000 NVIDIA-H100-GPUs betrieben werden konnte
Im Laufe des Jahres 2023 wurde der Trainings-Cluster schnell von 1K auf 16K GPUs skaliert; derzeit werden Modelle auf einem 24K-GPU-Cluster trainiert
Es wird erwartet, dass die für AI-Training benötigte Rechenleistung auch künftig stark zunimmt

Die Bedeutung von Networking und Bandbreite für den Aufbau von AI-Clustern

Neben GPUs spielen auch Networking und Bandbreite eine entscheidende Rolle, um die Cluster-Performance sicherzustellen
Metas Systeme bestehen aus HPC-Computing-Systemen und einem High-Bandwidth-Computing-Netzwerk, das GPUs und domänenspezifische Beschleuniger verbindet
Künftig wird ein Anstieg der Injection-Bandbreite pro Beschleuniger auf das Niveau von Terabytes pro Sekunde erwartet, also mehr als das Zehnfache heutiger Netzwerke
Um dies zu unterstützen, wird eine hochperformante, mehrschichtige, nicht blockierende Netzwerk-Fabric benötigt, damit das Potenzial von AI-Clustern voll ausgeschöpft werden kann

Sicherung der AI-Skalierbarkeit durch Open Hardware

Um AI in diesem Tempo zu skalieren, sind Open-Hardware-Lösungen erforderlich
Die Entwicklung neuer Architekturen, Netzwerk-Fabrics und Systemdesigns auf Basis des Prinzips der Offenheit ist am effizientesten und wirkungsvollsten
Durch Investitionen in Open Hardware lässt sich das volle Potenzial von AI ausschöpfen und kontinuierliche Innovation im AI-Bereich vorantreiben

Einführung der Open-Architecture „Catalina“ für AI-Infrastruktur

Meta kündigte der OCP-Community die geplante Einführung von Catalina an, einem High-Performance-Rack für AI-Workloads
Catalina basiert auf einer Rack-Scale-Lösung der NVIDIA-Blackwell-Plattform und legt den Schwerpunkt auf Modularität und Flexibilität
Es wurde zur Unterstützung des neuesten NVIDIA-GB200-Grace-Blackwell-Superchips entwickelt und erfüllt damit die wachsenden Anforderungen moderner AI-Infrastruktur
Aufgrund des steigenden Strombedarfs von GPUs müssen Open-Rack-Lösungen höhere Leistungsanforderungen unterstützen
Mit Catalina führt Meta das Orv3 High-Power Rack (HPR) ein, das bis zu 140 kW unterstützen kann
Die Lösung ist vollständig flüssigkeitsgekühlt und besteht aus verschiedenen Komponenten
Das modulare Design von Catalina ermöglicht es, Racks an spezifische AI-Workloads anzupassen

Unterstützung von AMD-Beschleunigern auf der Grand-Teton-Plattform

Grand Teton ist Metas AI-Plattform der nächsten Generation und wurde so konzipiert, dass sie sowohl die Anforderungen speicherbandbreitengebundener als auch rechengebundener Workloads unterstützt
Die Grand-Teton-Plattform wurde nun um die Unterstützung für AMD Instinct MI300X erweitert, und Meta plant, diese neue Version an OCP zu spenden
Wie die vorherige Version zeichnet sich Grand Teton durch ein einzelnes monolithisches Systemdesign aus, in dem Stromversorgung, Steuerung, Computing und Fabric-Schnittstellen vollständig integriert sind
Neben der Unterstützung verschiedener Beschleunigerdesigns einschließlich AMD Instinct MI300X bietet sie größere Rechenkapazität, erweiterten Speicher und höhere Netzwerkbandbreite

Open Disaggregated Scheduled Fabric (DSF)

Um die Performance von AI-Trainingsclustern weiter zu verbessern, wird die Entwicklung eines offenen, herstellerneutralen Networking-Backends eine wichtige Rolle spielen
Durch die Entkopplung des Netzwerks kann gemeinsam mit Anbietern aus der gesamten Branche an innovativen, skalierbaren, flexiblen und effizienten Systemen gearbeitet werden
Metas neue DSF für AI-Cluster der nächsten Generation bietet mehrere Vorteile gegenüber bestehenden Switches
DSF basiert auf dem offenen OCP-SAI-Standard und Metas eigenem Netzwerkbetriebssystem FBOSS
Unterstützt werden offene und standardisierte Ethernet-basierte RoCE-Schnittstellen für Endpunkte und Beschleuniger über mehrere GPUs und NICs verschiedener Anbieter hinweg, darunter NVIDIA, Broadcom und AMD
Zusätzlich zu DSF hat Meta einen neuen 51T-Fabric-Switch auf Basis von Broadcom- und Cisco-ASICs entwickelt und bereitgestellt und teilt zudem ein neues NIC-Modul namens FBNIC, das den ersten selbst entwickelten Netzwerk-ASIC von Meta enthält

Zusammenarbeit von Meta und Microsoft zur Förderung offener Innovation

Meta und Microsoft verbindet innerhalb von OCP eine langjährige Partnerschaft, die 2018 mit der Entwicklung der Switch Abstraction Interface (SAI) für Rechenzentren begann
Beide Unternehmen haben zu wichtigen Initiativen wie dem Open Accelerator Module (OAM)-Standard und der SSD-Standardisierung beigetragen
Derzeit konzentriert sich die Zusammenarbeit der beiden Unternehmen auf ein neues disaggregiertes Power Rack namens Mount Diablo
Mount Diablo ist eine hochmoderne Lösung mit skalierbaren 400VDC-Einheiten, die Effizienz und Skalierbarkeit verbessern und die AI-Infrastruktur deutlich voranbringen

Die offene Zukunft der AI-Infrastruktur

Meta bekennt sich zu Open Source AI und ist überzeugt, dass Open Source die Vorteile und Chancen von AI in die Hände von Menschen auf der ganzen Welt bringen wird
Ohne Zusammenarbeit wird AI ihr Potenzial nicht entfalten können
Zur Förderung von Modellinnovationen, zur Sicherstellung von Portabilität und zur Verbesserung der Transparenz in der AI-Entwicklung sind Open-Software-Frameworks erforderlich
Offene und standardisierte Modelle sollten priorisiert werden, um kollektive Expertise zu nutzen, AI zugänglicher zu machen und Verzerrungen in Systemen zu minimieren
Auch offene AI-Hardware-Systeme sind nötig, um die für AI-Fortschritte erforderliche hochperformante, kosteneffiziente und anpassungsfähige Infrastruktur bereitzustellen
Alle, die zur künftigen Entwicklung von AI-Hardware-Systemen beitragen möchten, werden ermutigt, sich an der OCP-Community zu beteiligen
Wenn die Infrastruktur-Anforderungen von AI gemeinsam gelöst werden, kann das echte Versprechen offener AI für alle verwirklicht werden

Meinung von GN⁺

Durch offene Netzwerktechnologien, die mehrere GPU- und NIC-Anbieter abdecken, lassen sich Vendor-Lock-ins überwinden sowie Skalierbarkeit und Flexibilität von AI-Trainingsclustern erhöhen
Die Zusammenarbeit von Meta und Microsoft kann eine wichtige Rolle dabei spielen, Innovationen bei offener AI-Infrastruktur zu beschleunigen. Auf Basis ihrer langjährigen über OCP aufgebauten Partnerschaft ist zu erwarten, dass beide Unternehmen die Entwicklung neuer Standards und Lösungen weiter vorantreiben
Metas starke Unterstützung für Open Source AI ist ermutigend. Open Source ist der Weg, das Potenzial von AI zu demokratisieren und AI-Chancen in der gesamten Gesellschaft auszuweiten
Beim Aufbau einer offenen AI-Infrastruktur sollten auch Transparenz, Erklärbarkeit und ethische Überlegungen mitbehandelt werden. Ebenso wichtig wie technischer Fortschritt ist der Aufbau gesellschaftlichen Vertrauens in AI
Damit AI-Hardware- und Software-Ökosysteme gemeinsam wachsen können, ist neben branchenweiter Zusammenarbeit auch die Beteiligung verschiedener Stakeholder wie Wissenschaft und Politik unerlässlich. Es bleibt zu hoffen, dass OCP dafür zur zentralen Plattform wird

1 Kommentare

GN⁺ 2024-10-18

Hacker-News-Kommentare

Es gibt die Ansicht, den Wettbewerb zwischen OpenAI und Meta AI als Plattformwettbewerb wie macOS vs. Windows oder iOS vs. Android zu sehen
- Es wird beobachtet, dass Meta dazu neigt, seine Plattform zu öffnen, um Marktanteile zu gewinnen
- Es wird die Frage aufgeworfen, ob Meta die Plattform weiterhin offen halten würde, falls das Unternehmen gewinnt
Zuckerberg und Facebook stehen zwar stark in der Kritik, investieren aber viel in Engineering und Open Source
Meta hat zum Training des Modells Llama 3.1 405B mehr als 16.000 NVIDIA-H100-GPUs eingesetzt, was auf enorme Investitionen hindeutet
- Es wird erwähnt, dass die Meta-Aktie nach der Veröffentlichung des Open-Source-Modells deutlich gestiegen ist
Es gibt die Ansicht, dass Metas Open-Source-LLM für viele Nutzer attraktiv sein wird
- OpenAI und Anthropic könnten möglicherweise anfangen, über offene Modelle zu sprechen
Es wird darüber spekuliert, ob Meta, Microsoft und OpenAI bei offenen Chipdesigns zusammenarbeiten könnten, um mit NVIDIA zu konkurrieren
Es wird erwähnt, dass Meta KI-Rechenzentren neben Energieerzeugungsstandorten wie Fusionskraftwerken bauen könnte
- Unter Berufung auf Yann LeCun wird erklärt, dass die Nutzung nachhaltigen, kostengünstigen Stroms ein Vorteil sei
Es wird die Frage gestellt, ob Meta nach OpenAI nun auch NVIDIA ins Visier nimmt
Es wird erwähnt, dass das Konzept von "Open" inzwischen zu einem Meme geworden ist

Metas Open-AI-Hardware-Vision

Meta stellt auf dem Open Compute Project (OCP) Global Summit 2024 seine neuesten AI-Hardware-Designs vor

Metas Innovationen bei AI-Modellen und Fortschritte der Infrastruktur

Die Bedeutung von Networking und Bandbreite für den Aufbau von AI-Clustern

Sicherung der AI-Skalierbarkeit durch Open Hardware

Einführung der Open-Architecture „Catalina“ für AI-Infrastruktur

Unterstützung von AMD-Beschleunigern auf der Grand-Teton-Plattform

Open Disaggregated Scheduled Fabric (DSF)

Zusammenarbeit von Meta und Microsoft zur Förderung offener Innovation

Die offene Zukunft der AI-Infrastruktur

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare