Meta stellt auf dem Open Compute Project (OCP) Global Summit 2024 seine neuesten AI-Hardware-Designs vor
- Präsentation innovativer Technologien wie einer neuen AI-Plattform, modernster Open-Rack-Designs, fortschrittlicher Netzwerk-Fabrics und Komponenten
- Durch das Teilen der Designs sollen Zusammenarbeit gefördert und Innovationen beschleunigt werden
Metas Innovationen bei AI-Modellen und Fortschritte der Infrastruktur
- Meta optimiert und verbessert seit Jahren Funktionen wie Feed- und Werbesysteme durch Innovationen bei AI-Modellen
- Mit der Entwicklung und Veröffentlichung neuer, fortschrittlicher AI-Modelle konzentriert sich das Unternehmen auch auf den Ausbau der Infrastruktur zur Unterstützung neuer AI-Workloads
- So wurden für das Training des Modells Llama 3.1 405B umfangreiche Optimierungen über den gesamten Training-Stack hinweg vorgenommen, sodass es auf mehr als 16.000 NVIDIA-H100-GPUs betrieben werden konnte
- Im Laufe des Jahres 2023 wurde der Trainings-Cluster schnell von 1K auf 16K GPUs skaliert; derzeit werden Modelle auf einem 24K-GPU-Cluster trainiert
- Es wird erwartet, dass die für AI-Training benötigte Rechenleistung auch künftig stark zunimmt
Die Bedeutung von Networking und Bandbreite für den Aufbau von AI-Clustern
- Neben GPUs spielen auch Networking und Bandbreite eine entscheidende Rolle, um die Cluster-Performance sicherzustellen
- Metas Systeme bestehen aus HPC-Computing-Systemen und einem High-Bandwidth-Computing-Netzwerk, das GPUs und domänenspezifische Beschleuniger verbindet
- Künftig wird ein Anstieg der Injection-Bandbreite pro Beschleuniger auf das Niveau von Terabytes pro Sekunde erwartet, also mehr als das Zehnfache heutiger Netzwerke
- Um dies zu unterstützen, wird eine hochperformante, mehrschichtige, nicht blockierende Netzwerk-Fabric benötigt, damit das Potenzial von AI-Clustern voll ausgeschöpft werden kann
Sicherung der AI-Skalierbarkeit durch Open Hardware
- Um AI in diesem Tempo zu skalieren, sind Open-Hardware-Lösungen erforderlich
- Die Entwicklung neuer Architekturen, Netzwerk-Fabrics und Systemdesigns auf Basis des Prinzips der Offenheit ist am effizientesten und wirkungsvollsten
- Durch Investitionen in Open Hardware lässt sich das volle Potenzial von AI ausschöpfen und kontinuierliche Innovation im AI-Bereich vorantreiben
Einführung der Open-Architecture „Catalina“ für AI-Infrastruktur
- Meta kündigte der OCP-Community die geplante Einführung von Catalina an, einem High-Performance-Rack für AI-Workloads
- Catalina basiert auf einer Rack-Scale-Lösung der NVIDIA-Blackwell-Plattform und legt den Schwerpunkt auf Modularität und Flexibilität
- Es wurde zur Unterstützung des neuesten NVIDIA-GB200-Grace-Blackwell-Superchips entwickelt und erfüllt damit die wachsenden Anforderungen moderner AI-Infrastruktur
- Aufgrund des steigenden Strombedarfs von GPUs müssen Open-Rack-Lösungen höhere Leistungsanforderungen unterstützen
- Mit Catalina führt Meta das Orv3 High-Power Rack (HPR) ein, das bis zu 140 kW unterstützen kann
- Die Lösung ist vollständig flüssigkeitsgekühlt und besteht aus verschiedenen Komponenten
- Das modulare Design von Catalina ermöglicht es, Racks an spezifische AI-Workloads anzupassen
Unterstützung von AMD-Beschleunigern auf der Grand-Teton-Plattform
- Grand Teton ist Metas AI-Plattform der nächsten Generation und wurde so konzipiert, dass sie sowohl die Anforderungen speicherbandbreitengebundener als auch rechengebundener Workloads unterstützt
- Die Grand-Teton-Plattform wurde nun um die Unterstützung für AMD Instinct MI300X erweitert, und Meta plant, diese neue Version an OCP zu spenden
- Wie die vorherige Version zeichnet sich Grand Teton durch ein einzelnes monolithisches Systemdesign aus, in dem Stromversorgung, Steuerung, Computing und Fabric-Schnittstellen vollständig integriert sind
- Neben der Unterstützung verschiedener Beschleunigerdesigns einschließlich AMD Instinct MI300X bietet sie größere Rechenkapazität, erweiterten Speicher und höhere Netzwerkbandbreite
Open Disaggregated Scheduled Fabric (DSF)
- Um die Performance von AI-Trainingsclustern weiter zu verbessern, wird die Entwicklung eines offenen, herstellerneutralen Networking-Backends eine wichtige Rolle spielen
- Durch die Entkopplung des Netzwerks kann gemeinsam mit Anbietern aus der gesamten Branche an innovativen, skalierbaren, flexiblen und effizienten Systemen gearbeitet werden
- Metas neue DSF für AI-Cluster der nächsten Generation bietet mehrere Vorteile gegenüber bestehenden Switches
- DSF basiert auf dem offenen OCP-SAI-Standard und Metas eigenem Netzwerkbetriebssystem FBOSS
- Unterstützt werden offene und standardisierte Ethernet-basierte RoCE-Schnittstellen für Endpunkte und Beschleuniger über mehrere GPUs und NICs verschiedener Anbieter hinweg, darunter NVIDIA, Broadcom und AMD
- Zusätzlich zu DSF hat Meta einen neuen 51T-Fabric-Switch auf Basis von Broadcom- und Cisco-ASICs entwickelt und bereitgestellt und teilt zudem ein neues NIC-Modul namens FBNIC, das den ersten selbst entwickelten Netzwerk-ASIC von Meta enthält
Zusammenarbeit von Meta und Microsoft zur Förderung offener Innovation
- Meta und Microsoft verbindet innerhalb von OCP eine langjährige Partnerschaft, die 2018 mit der Entwicklung der Switch Abstraction Interface (SAI) für Rechenzentren begann
- Beide Unternehmen haben zu wichtigen Initiativen wie dem Open Accelerator Module (OAM)-Standard und der SSD-Standardisierung beigetragen
- Derzeit konzentriert sich die Zusammenarbeit der beiden Unternehmen auf ein neues disaggregiertes Power Rack namens Mount Diablo
- Mount Diablo ist eine hochmoderne Lösung mit skalierbaren 400VDC-Einheiten, die Effizienz und Skalierbarkeit verbessern und die AI-Infrastruktur deutlich voranbringen
Die offene Zukunft der AI-Infrastruktur
- Meta bekennt sich zu Open Source AI und ist überzeugt, dass Open Source die Vorteile und Chancen von AI in die Hände von Menschen auf der ganzen Welt bringen wird
- Ohne Zusammenarbeit wird AI ihr Potenzial nicht entfalten können
- Zur Förderung von Modellinnovationen, zur Sicherstellung von Portabilität und zur Verbesserung der Transparenz in der AI-Entwicklung sind Open-Software-Frameworks erforderlich
- Offene und standardisierte Modelle sollten priorisiert werden, um kollektive Expertise zu nutzen, AI zugänglicher zu machen und Verzerrungen in Systemen zu minimieren
- Auch offene AI-Hardware-Systeme sind nötig, um die für AI-Fortschritte erforderliche hochperformante, kosteneffiziente und anpassungsfähige Infrastruktur bereitzustellen
- Alle, die zur künftigen Entwicklung von AI-Hardware-Systemen beitragen möchten, werden ermutigt, sich an der OCP-Community zu beteiligen
- Wenn die Infrastruktur-Anforderungen von AI gemeinsam gelöst werden, kann das echte Versprechen offener AI für alle verwirklicht werden
Meinung von GN⁺
- Durch offene Netzwerktechnologien, die mehrere GPU- und NIC-Anbieter abdecken, lassen sich Vendor-Lock-ins überwinden sowie Skalierbarkeit und Flexibilität von AI-Trainingsclustern erhöhen
- Die Zusammenarbeit von Meta und Microsoft kann eine wichtige Rolle dabei spielen, Innovationen bei offener AI-Infrastruktur zu beschleunigen. Auf Basis ihrer langjährigen über OCP aufgebauten Partnerschaft ist zu erwarten, dass beide Unternehmen die Entwicklung neuer Standards und Lösungen weiter vorantreiben
- Metas starke Unterstützung für Open Source AI ist ermutigend. Open Source ist der Weg, das Potenzial von AI zu demokratisieren und AI-Chancen in der gesamten Gesellschaft auszuweiten
- Beim Aufbau einer offenen AI-Infrastruktur sollten auch Transparenz, Erklärbarkeit und ethische Überlegungen mitbehandelt werden. Ebenso wichtig wie technischer Fortschritt ist der Aufbau gesellschaftlichen Vertrauens in AI
- Damit AI-Hardware- und Software-Ökosysteme gemeinsam wachsen können, ist neben branchenweiter Zusammenarbeit auch die Beteiligung verschiedener Stakeholder wie Wissenschaft und Politik unerlässlich. Es bleibt zu hoffen, dass OCP dafür zur zentralen Plattform wird
1 Kommentare
Hacker-News-Kommentare
Es gibt die Ansicht, den Wettbewerb zwischen OpenAI und Meta AI als Plattformwettbewerb wie macOS vs. Windows oder iOS vs. Android zu sehen
Zuckerberg und Facebook stehen zwar stark in der Kritik, investieren aber viel in Engineering und Open Source
Meta hat zum Training des Modells Llama 3.1 405B mehr als 16.000 NVIDIA-H100-GPUs eingesetzt, was auf enorme Investitionen hindeutet
Es gibt die Ansicht, dass Metas Open-Source-LLM für viele Nutzer attraktiv sein wird
Es wird darüber spekuliert, ob Meta, Microsoft und OpenAI bei offenen Chipdesigns zusammenarbeiten könnten, um mit NVIDIA zu konkurrieren
Es wird erwähnt, dass Meta KI-Rechenzentren neben Energieerzeugungsstandorten wie Fusionskraftwerken bauen könnte
Es wird die Frage gestellt, ob Meta nach OpenAI nun auch NVIDIA ins Visier nimmt
Es wird erwähnt, dass das Konzept von "Open" inzwischen zu einem Meme geworden ist