Aufbau von Metas GenAI-Infrastruktur

(engineering.fb.com)

4 Punkte von GN⁺ 2024-03-13 | 1 Kommentare | Auf WhatsApp teilen

Meta hat im Rahmen einer großen Investition in die Zukunft der KI zwei Cluster mit jeweils 24.576 GPUs vorgestellt
- Details zu Hardware, Netzwerk, Storage, Design, Performance und Software wurden geteilt
- Dieses Cluster-Design wurde für das Training von Llama 3 verwendet
Meta bekennt sich zu Open Compute und Open Source
- Auf Basis von Grand Teton, OpenRack und PyTorch werden solche Cluster aufgebaut und offene Innovationen branchenweit weiter vorangetrieben
Diese Ankündigung ist ein Schritt in einer ambitionierten Infrastruktur-Roadmap
- Ziel ist es, den Ausbau der Infrastruktur fortzusetzen, einschließlich 350.000 NVIDIA H100 GPUs als Teil eines Portfolios mit einer Rechenleistung, die bis Ende 2024 fast 600.000 H100 entspricht

Einblicke in Metas große KI-Cluster

Metas langfristige Vision ist es, eine künstliche allgemeine Intelligenz (AGI) zu schaffen, die offen und verantwortungsvoll entwickelt wird, damit alle davon profitieren können
Fortschritte auf dem Weg zu AGI führen zu neuen Produkten, neuen KI-Funktionen in Apps und neuen KI-zentrierten Computing-Geräten
Meta hat eine lange Geschichte beim Aufbau von KI-Infrastruktur und veröffentlichte 2022 erstmals Details zu seinem Research SuperCluster (RSC) für KI-Forschung mit 16.000 NVIDIA A100 GPUs

Interne Struktur

Die neuen KI-Cluster basieren auf den Erfolgen und Erkenntnissen aus dem RSC
Mit Fokus auf die Erfahrung und Produktivität von Forschern und Entwicklern unterstützen sie durch die Effizienz eines Hochleistungs-Netzwerk-Fabrics und zentrale Storage-Entscheidungen größere und komplexere Modelle

Netzwerk

Meta verarbeitet täglich Dutzende Billionen Ausführungen von KI-Modellen
Um Services in großem Maßstab bereitzustellen, ist eine hochentwickelte und flexible Infrastruktur erforderlich
Meta entwirft eigene Hardware, Software und Netzwerk-Fabrics maßgeschneidert, um die Erfahrung von KI-Forschern zu optimieren und einen effizienten Betrieb der Rechenzentren sicherzustellen

Computing

Die beiden Cluster wurden mit Grand Teton aufgebaut, Metas intern entwickelter offener GPU-Hardware-Plattform
Grand Teton integriert Stromversorgung, Steuerung, Compute- und Fabric-Schnittstellen in einem einzigen Chassis und verbessert dadurch die Gesamtleistung, Signalintegrität und thermische Leistung

Storage

Beim KI-Training spielt Storage eine entscheidende Rolle, ist aber einer der am wenigsten erwähnten Aspekte
Eine Version von Metas verteilter Storage-Lösung „Tectonic“ wurde für Flash-Medien optimiert
- Über eine selbst entwickelte FUSE-(Linux Filesystem in Userspace)-API werden die Daten- und Checkpointing-Anforderungen der KI-Cluster erfüllt
- Tausende GPUs können Checkpoints synchronisiert speichern und laden, zugleich wird flexibler Storage im Exabyte-Maßstab mit hohem Durchsatz für das Laden von Daten bereitgestellt
Gemeinsam mit Hammerspace wurde eine Bereitstellung für ein paralleles Network File System (NFS) mitentwickelt

Performance

Beim Aufbau großer KI-Cluster ist es ein wichtiges Prinzip, sowohl Performance als auch Benutzerfreundlichkeit zu maximieren
Der beste Weg, die Grenzen von KI-Systemen zu verschieben und zugleich die Skalierbarkeit eines Designs zu testen, besteht darin, das System einfach zu bauen, zu optimieren und in der Praxis zu testen
Meta testet die Skalierbarkeit seiner Designs, indem es Systeme baut, optimiert und praktisch erprobt
Das grundlegende KI-Framework PyTorch, das KI-Workloads unterstützt, wird kontinuierlich weiterentwickelt, damit es für GPU-Trainings mit Zehntausenden oder sogar Hunderttausenden GPUs bereit ist

Engagement für offene KI-Innovation

Meta hält an seinem Engagement für offene Innovation bei KI-Software und -Hardware fest
Als Gründungsmitglied des OCP unterstützt das Unternehmen weiterhin offene Hardware-Innovationen und stellt der OCP-Community Designs wie Grand Teton und Open Rack zur Verfügung
Zudem ist Meta der größte und wichtigste Beitragsleister zu PyTorch, dem KI-Software-Framework, das große Teile der Branche unterstützt
Open-Source-Hardware und -Software werden als wichtige Werkzeuge angesehen, die bei der Lösung großer Probleme helfen

Die Zukunft von Metas KI-Infrastruktur

Diese beiden Designs für KI-Trainingscluster sind Teil einer größeren Roadmap für die Zukunft der KI
Meta plant, den Ausbau seiner Infrastruktur fortzusetzen, einschließlich 350.000 NVIDIA H100 als Teil eines Portfolios mit einer Rechenleistung, die bis Ende 2024 600.000 H100 entspricht

Meinung von GN⁺

Der von Meta angekündigte 24k-GPU-Cluster markiert einen wichtigen Fortschritt für KI-Forschung und -Entwicklung und stellt insbesondere die starke Rechenleistung bereit, die für das Training großer KI-Modelle notwendig ist
Eine solche Infrastruktur schafft die Grundlage dafür, dass Forscher innovativere KI-Lösungen entwickeln können, da Komplexität und Größe von KI-Modellen weiter zunehmen
Metas Engagement für Open Source und Open Compute kann Innovationen in der gesamten Branche fördern und anderen Organisationen helfen, diese Technologien für die Entwicklung eigener KI-Lösungen zu nutzen
Allerdings müssen bei solchen Großclustern auch die Umweltauswirkungen des enormen Energieverbrauchs berücksichtigt werden, was ein wichtiger Aspekt der Nachhaltigkeit sein kann
Diese Ankündigung von Meta bietet spannende Einblicke in die Zukunft der KI-Technologie und die Gelegenheit, tiefer über die Auswirkungen des KI-Fortschritts auf Gesellschaft und Industrie nachzudenken

1 Kommentare

GN⁺ 2024-03-13

Hacker-News-Kommentare

Erwähnung von float8 und Anstieg der FLOPs
- float8 wurde erwähnt, wodurch sich die FLOPs verdoppeln.
- xformers unterstützt jetzt 2:4-Sparsity, wodurch sich die FLOPs zusätzlich verdoppeln könnten.
- Llama3 könnte im MLP float8 und 2:4-Sparsity verwenden und damit auf das Vierfache der H100-float16-FLOPs kommen.
- PyTorch unterstützt fp8 experimentell, aber aufgrund von Präzisionsproblemen ist es weiterhin kompliziert, Attention in float8 auszuführen.
- Vermutlich könnte Attention in float16, RoPE/Layernorms in float16/float32 und alles andere in float8 verarbeitet werden.
Vergleich zwischen der Dotcom-Ära und der KI-Ära
- Jemand, der die Dotcom-Ära erlebt hat, fühlt sich von der KI-Ära etwas entmutigt, weil das Training von Modellen enorme Kapitalausgaben erfordert.
- In der frühen Dotcom-Ära konnte praktisch jeder mit relativ geringen Infrastrukturkosten eine E-Commerce-Website starten.
- Heute scheint es, als könnten nur große Unternehmen wie Meta, Google, Microsoft und OpenAI KI-Modelle aufbauen.
Beziehung zwischen Rechenleistung und Engineering-Zeit
- Es besteht Interesse an der Frage, ob Facebook bei einer Verzehnfachung der Rechenleistung den gesamten Stack neu entwerfen müsste und wie es bei einer Verhundertfachung aussähe.
- Es stellt sich die Frage, ob jede Neugestaltung nur eine einfache Änderung oder eine deutlich komplexere Aufgabe wäre.
- Da das technische Verständnis der internen Cluster-Struktur eher oberflächlich ist, besteht Neugier auf die Einschätzung von Personen mit entsprechender Erfahrung.
Interesse an der Arbeit zur Pipeline-Optimierung
- Es wird gefragt, wie jemand anfangen kann, der an Arbeiten zur Pipeline-Optimierung mitwirken möchte.
- Es besteht Neugier, ob ein Machine-Learning-Wissenschaftler mit C/C++- und Infrastrukturwissen bei Bedarf tiefer ins System hinabsteigt oder ob ein CUDA-/SIMD-Experte aufsteigt und dann an Machine-Learning-Aufgaben arbeitet.
Metas Engineering-Fähigkeiten
- Meta zeigt im Engineering trotz negativer äußerer Einflüsse starke Leistungen.
- Es stellt sich die Frage, wie Meta plant, diese Engineering-Fähigkeiten zu monetarisieren.
Historische Perspektive auf Engineering und Infrastruktur
- Erwähnt werden das DLRM-Paper sowie Facebooks frühe disaggregierte Racks und SDN.
- Bereits 2018 wurden SSDs und DRAM an anderen Stellen im Rack platziert, während große neuronale Netze für Empfehlungssysteme und Ranking verwendet wurden.
- Erwähnt werden ein Klickvorhersagemodell und die Überraschung über die HOGWILD-Trainingsmethode mit Intel AVX-2.
- Es wird betont, dass Meta bei Infrastrukturdesign und SKU-Design weiterhin zur Spitzengruppe gehört.
Mögliche Konkurrenzfähigkeit von Meta bei KI-Workloads
- Es besteht Neugier, ob Meta im Bereich KI-Workloads mit AWS, MSFT und GOOG konkurrieren könnte.
Kosten der H100-GPUs
- Es wird geschätzt, wie viel Meta für H100-GPUs bezahlt.
- Wenn 350.000 NVIDIA H100 für jeweils $10k gekauft würden, lägen die Gesamtkosten bei $3.5b.
Metas offene Haltung zu KI-Innovationen
- Es wird wahrgenommen, dass Meta eine offene Haltung gegenüber KI-Innovationen zeigt.
Metas langfristige Vision und AGI
- Metas langfristige Vision besteht darin, Artificial General Intelligence (AGI) zu entwickeln.

Aufbau von Metas GenAI-Infrastruktur

Einblicke in Metas große KI-Cluster

Interne Struktur

Netzwerk

Computing

Storage

Performance

Engagement für offene KI-Innovation

Die Zukunft von Metas KI-Infrastruktur

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare