6 Punkte von GN⁺ 2024-10-18 | 1 Kommentare | Auf WhatsApp teilen

Meta stellt auf dem Open Compute Project (OCP) Global Summit 2024 seine neuesten AI-Hardware-Designs vor

  • Präsentation innovativer Technologien wie einer neuen AI-Plattform, modernster Open-Rack-Designs, fortschrittlicher Netzwerk-Fabrics und Komponenten
  • Durch das Teilen der Designs sollen Zusammenarbeit gefördert und Innovationen beschleunigt werden

Metas Innovationen bei AI-Modellen und Fortschritte der Infrastruktur

  • Meta optimiert und verbessert seit Jahren Funktionen wie Feed- und Werbesysteme durch Innovationen bei AI-Modellen
  • Mit der Entwicklung und Veröffentlichung neuer, fortschrittlicher AI-Modelle konzentriert sich das Unternehmen auch auf den Ausbau der Infrastruktur zur Unterstützung neuer AI-Workloads
  • So wurden für das Training des Modells Llama 3.1 405B umfangreiche Optimierungen über den gesamten Training-Stack hinweg vorgenommen, sodass es auf mehr als 16.000 NVIDIA-H100-GPUs betrieben werden konnte
  • Im Laufe des Jahres 2023 wurde der Trainings-Cluster schnell von 1K auf 16K GPUs skaliert; derzeit werden Modelle auf einem 24K-GPU-Cluster trainiert
  • Es wird erwartet, dass die für AI-Training benötigte Rechenleistung auch künftig stark zunimmt

Die Bedeutung von Networking und Bandbreite für den Aufbau von AI-Clustern

  • Neben GPUs spielen auch Networking und Bandbreite eine entscheidende Rolle, um die Cluster-Performance sicherzustellen
  • Metas Systeme bestehen aus HPC-Computing-Systemen und einem High-Bandwidth-Computing-Netzwerk, das GPUs und domänenspezifische Beschleuniger verbindet
  • Künftig wird ein Anstieg der Injection-Bandbreite pro Beschleuniger auf das Niveau von Terabytes pro Sekunde erwartet, also mehr als das Zehnfache heutiger Netzwerke
  • Um dies zu unterstützen, wird eine hochperformante, mehrschichtige, nicht blockierende Netzwerk-Fabric benötigt, damit das Potenzial von AI-Clustern voll ausgeschöpft werden kann

Sicherung der AI-Skalierbarkeit durch Open Hardware

  • Um AI in diesem Tempo zu skalieren, sind Open-Hardware-Lösungen erforderlich
  • Die Entwicklung neuer Architekturen, Netzwerk-Fabrics und Systemdesigns auf Basis des Prinzips der Offenheit ist am effizientesten und wirkungsvollsten
  • Durch Investitionen in Open Hardware lässt sich das volle Potenzial von AI ausschöpfen und kontinuierliche Innovation im AI-Bereich vorantreiben

Einführung der Open-Architecture „Catalina“ für AI-Infrastruktur

  • Meta kündigte der OCP-Community die geplante Einführung von Catalina an, einem High-Performance-Rack für AI-Workloads
  • Catalina basiert auf einer Rack-Scale-Lösung der NVIDIA-Blackwell-Plattform und legt den Schwerpunkt auf Modularität und Flexibilität
  • Es wurde zur Unterstützung des neuesten NVIDIA-GB200-Grace-Blackwell-Superchips entwickelt und erfüllt damit die wachsenden Anforderungen moderner AI-Infrastruktur
  • Aufgrund des steigenden Strombedarfs von GPUs müssen Open-Rack-Lösungen höhere Leistungsanforderungen unterstützen
  • Mit Catalina führt Meta das Orv3 High-Power Rack (HPR) ein, das bis zu 140 kW unterstützen kann
  • Die Lösung ist vollständig flüssigkeitsgekühlt und besteht aus verschiedenen Komponenten
  • Das modulare Design von Catalina ermöglicht es, Racks an spezifische AI-Workloads anzupassen

Unterstützung von AMD-Beschleunigern auf der Grand-Teton-Plattform

  • Grand Teton ist Metas AI-Plattform der nächsten Generation und wurde so konzipiert, dass sie sowohl die Anforderungen speicherbandbreitengebundener als auch rechengebundener Workloads unterstützt
  • Die Grand-Teton-Plattform wurde nun um die Unterstützung für AMD Instinct MI300X erweitert, und Meta plant, diese neue Version an OCP zu spenden
  • Wie die vorherige Version zeichnet sich Grand Teton durch ein einzelnes monolithisches Systemdesign aus, in dem Stromversorgung, Steuerung, Computing und Fabric-Schnittstellen vollständig integriert sind
  • Neben der Unterstützung verschiedener Beschleunigerdesigns einschließlich AMD Instinct MI300X bietet sie größere Rechenkapazität, erweiterten Speicher und höhere Netzwerkbandbreite

Open Disaggregated Scheduled Fabric (DSF)

  • Um die Performance von AI-Trainingsclustern weiter zu verbessern, wird die Entwicklung eines offenen, herstellerneutralen Networking-Backends eine wichtige Rolle spielen
  • Durch die Entkopplung des Netzwerks kann gemeinsam mit Anbietern aus der gesamten Branche an innovativen, skalierbaren, flexiblen und effizienten Systemen gearbeitet werden
  • Metas neue DSF für AI-Cluster der nächsten Generation bietet mehrere Vorteile gegenüber bestehenden Switches
  • DSF basiert auf dem offenen OCP-SAI-Standard und Metas eigenem Netzwerkbetriebssystem FBOSS
  • Unterstützt werden offene und standardisierte Ethernet-basierte RoCE-Schnittstellen für Endpunkte und Beschleuniger über mehrere GPUs und NICs verschiedener Anbieter hinweg, darunter NVIDIA, Broadcom und AMD
  • Zusätzlich zu DSF hat Meta einen neuen 51T-Fabric-Switch auf Basis von Broadcom- und Cisco-ASICs entwickelt und bereitgestellt und teilt zudem ein neues NIC-Modul namens FBNIC, das den ersten selbst entwickelten Netzwerk-ASIC von Meta enthält

Zusammenarbeit von Meta und Microsoft zur Förderung offener Innovation

  • Meta und Microsoft verbindet innerhalb von OCP eine langjährige Partnerschaft, die 2018 mit der Entwicklung der Switch Abstraction Interface (SAI) für Rechenzentren begann
  • Beide Unternehmen haben zu wichtigen Initiativen wie dem Open Accelerator Module (OAM)-Standard und der SSD-Standardisierung beigetragen
  • Derzeit konzentriert sich die Zusammenarbeit der beiden Unternehmen auf ein neues disaggregiertes Power Rack namens Mount Diablo
  • Mount Diablo ist eine hochmoderne Lösung mit skalierbaren 400VDC-Einheiten, die Effizienz und Skalierbarkeit verbessern und die AI-Infrastruktur deutlich voranbringen

Die offene Zukunft der AI-Infrastruktur

  • Meta bekennt sich zu Open Source AI und ist überzeugt, dass Open Source die Vorteile und Chancen von AI in die Hände von Menschen auf der ganzen Welt bringen wird
  • Ohne Zusammenarbeit wird AI ihr Potenzial nicht entfalten können
  • Zur Förderung von Modellinnovationen, zur Sicherstellung von Portabilität und zur Verbesserung der Transparenz in der AI-Entwicklung sind Open-Software-Frameworks erforderlich
  • Offene und standardisierte Modelle sollten priorisiert werden, um kollektive Expertise zu nutzen, AI zugänglicher zu machen und Verzerrungen in Systemen zu minimieren
  • Auch offene AI-Hardware-Systeme sind nötig, um die für AI-Fortschritte erforderliche hochperformante, kosteneffiziente und anpassungsfähige Infrastruktur bereitzustellen
  • Alle, die zur künftigen Entwicklung von AI-Hardware-Systemen beitragen möchten, werden ermutigt, sich an der OCP-Community zu beteiligen
  • Wenn die Infrastruktur-Anforderungen von AI gemeinsam gelöst werden, kann das echte Versprechen offener AI für alle verwirklicht werden

Meinung von GN⁺

  • Durch offene Netzwerktechnologien, die mehrere GPU- und NIC-Anbieter abdecken, lassen sich Vendor-Lock-ins überwinden sowie Skalierbarkeit und Flexibilität von AI-Trainingsclustern erhöhen
  • Die Zusammenarbeit von Meta und Microsoft kann eine wichtige Rolle dabei spielen, Innovationen bei offener AI-Infrastruktur zu beschleunigen. Auf Basis ihrer langjährigen über OCP aufgebauten Partnerschaft ist zu erwarten, dass beide Unternehmen die Entwicklung neuer Standards und Lösungen weiter vorantreiben
  • Metas starke Unterstützung für Open Source AI ist ermutigend. Open Source ist der Weg, das Potenzial von AI zu demokratisieren und AI-Chancen in der gesamten Gesellschaft auszuweiten
  • Beim Aufbau einer offenen AI-Infrastruktur sollten auch Transparenz, Erklärbarkeit und ethische Überlegungen mitbehandelt werden. Ebenso wichtig wie technischer Fortschritt ist der Aufbau gesellschaftlichen Vertrauens in AI
  • Damit AI-Hardware- und Software-Ökosysteme gemeinsam wachsen können, ist neben branchenweiter Zusammenarbeit auch die Beteiligung verschiedener Stakeholder wie Wissenschaft und Politik unerlässlich. Es bleibt zu hoffen, dass OCP dafür zur zentralen Plattform wird

1 Kommentare

 
GN⁺ 2024-10-18
Hacker-News-Kommentare
  • Es gibt die Ansicht, den Wettbewerb zwischen OpenAI und Meta AI als Plattformwettbewerb wie macOS vs. Windows oder iOS vs. Android zu sehen

    • Es wird beobachtet, dass Meta dazu neigt, seine Plattform zu öffnen, um Marktanteile zu gewinnen
    • Es wird die Frage aufgeworfen, ob Meta die Plattform weiterhin offen halten würde, falls das Unternehmen gewinnt
  • Zuckerberg und Facebook stehen zwar stark in der Kritik, investieren aber viel in Engineering und Open Source

  • Meta hat zum Training des Modells Llama 3.1 405B mehr als 16.000 NVIDIA-H100-GPUs eingesetzt, was auf enorme Investitionen hindeutet

    • Es wird erwähnt, dass die Meta-Aktie nach der Veröffentlichung des Open-Source-Modells deutlich gestiegen ist
  • Es gibt die Ansicht, dass Metas Open-Source-LLM für viele Nutzer attraktiv sein wird

    • OpenAI und Anthropic könnten möglicherweise anfangen, über offene Modelle zu sprechen
  • Es wird darüber spekuliert, ob Meta, Microsoft und OpenAI bei offenen Chipdesigns zusammenarbeiten könnten, um mit NVIDIA zu konkurrieren

  • Es wird erwähnt, dass Meta KI-Rechenzentren neben Energieerzeugungsstandorten wie Fusionskraftwerken bauen könnte

    • Unter Berufung auf Yann LeCun wird erklärt, dass die Nutzung nachhaltigen, kostengünstigen Stroms ein Vorteil sei
  • Es wird die Frage gestellt, ob Meta nach OpenAI nun auch NVIDIA ins Visier nimmt

  • Es wird erwähnt, dass das Konzept von "Open" inzwischen zu einem Meme geworden ist