- Meta hat im Rahmen einer großen Investition in die Zukunft der KI zwei Cluster mit jeweils 24.576 GPUs vorgestellt
- Details zu Hardware, Netzwerk, Storage, Design, Performance und Software wurden geteilt
- Dieses Cluster-Design wurde für das Training von Llama 3 verwendet
- Meta bekennt sich zu Open Compute und Open Source
- Auf Basis von Grand Teton, OpenRack und PyTorch werden solche Cluster aufgebaut und offene Innovationen branchenweit weiter vorangetrieben
- Diese Ankündigung ist ein Schritt in einer ambitionierten Infrastruktur-Roadmap
- Ziel ist es, den Ausbau der Infrastruktur fortzusetzen, einschließlich 350.000 NVIDIA H100 GPUs als Teil eines Portfolios mit einer Rechenleistung, die bis Ende 2024 fast 600.000 H100 entspricht
Einblicke in Metas große KI-Cluster
- Metas langfristige Vision ist es, eine künstliche allgemeine Intelligenz (AGI) zu schaffen, die offen und verantwortungsvoll entwickelt wird, damit alle davon profitieren können
- Fortschritte auf dem Weg zu AGI führen zu neuen Produkten, neuen KI-Funktionen in Apps und neuen KI-zentrierten Computing-Geräten
- Meta hat eine lange Geschichte beim Aufbau von KI-Infrastruktur und veröffentlichte 2022 erstmals Details zu seinem Research SuperCluster (RSC) für KI-Forschung mit 16.000 NVIDIA A100 GPUs
Interne Struktur
- Die neuen KI-Cluster basieren auf den Erfolgen und Erkenntnissen aus dem RSC
- Mit Fokus auf die Erfahrung und Produktivität von Forschern und Entwicklern unterstützen sie durch die Effizienz eines Hochleistungs-Netzwerk-Fabrics und zentrale Storage-Entscheidungen größere und komplexere Modelle
Netzwerk
- Meta verarbeitet täglich Dutzende Billionen Ausführungen von KI-Modellen
- Um Services in großem Maßstab bereitzustellen, ist eine hochentwickelte und flexible Infrastruktur erforderlich
- Meta entwirft eigene Hardware, Software und Netzwerk-Fabrics maßgeschneidert, um die Erfahrung von KI-Forschern zu optimieren und einen effizienten Betrieb der Rechenzentren sicherzustellen
Computing
- Die beiden Cluster wurden mit Grand Teton aufgebaut, Metas intern entwickelter offener GPU-Hardware-Plattform
- Grand Teton integriert Stromversorgung, Steuerung, Compute- und Fabric-Schnittstellen in einem einzigen Chassis und verbessert dadurch die Gesamtleistung, Signalintegrität und thermische Leistung
Storage
- Beim KI-Training spielt Storage eine entscheidende Rolle, ist aber einer der am wenigsten erwähnten Aspekte
- Eine Version von Metas verteilter Storage-Lösung „Tectonic“ wurde für Flash-Medien optimiert
- Über eine selbst entwickelte FUSE-(Linux Filesystem in Userspace)-API werden die Daten- und Checkpointing-Anforderungen der KI-Cluster erfüllt
- Tausende GPUs können Checkpoints synchronisiert speichern und laden, zugleich wird flexibler Storage im Exabyte-Maßstab mit hohem Durchsatz für das Laden von Daten bereitgestellt
- Gemeinsam mit Hammerspace wurde eine Bereitstellung für ein paralleles Network File System (NFS) mitentwickelt
Performance
- Beim Aufbau großer KI-Cluster ist es ein wichtiges Prinzip, sowohl Performance als auch Benutzerfreundlichkeit zu maximieren
- Der beste Weg, die Grenzen von KI-Systemen zu verschieben und zugleich die Skalierbarkeit eines Designs zu testen, besteht darin, das System einfach zu bauen, zu optimieren und in der Praxis zu testen
- Meta testet die Skalierbarkeit seiner Designs, indem es Systeme baut, optimiert und praktisch erprobt
- Das grundlegende KI-Framework PyTorch, das KI-Workloads unterstützt, wird kontinuierlich weiterentwickelt, damit es für GPU-Trainings mit Zehntausenden oder sogar Hunderttausenden GPUs bereit ist
Engagement für offene KI-Innovation
- Meta hält an seinem Engagement für offene Innovation bei KI-Software und -Hardware fest
- Als Gründungsmitglied des OCP unterstützt das Unternehmen weiterhin offene Hardware-Innovationen und stellt der OCP-Community Designs wie Grand Teton und Open Rack zur Verfügung
- Zudem ist Meta der größte und wichtigste Beitragsleister zu PyTorch, dem KI-Software-Framework, das große Teile der Branche unterstützt
- Open-Source-Hardware und -Software werden als wichtige Werkzeuge angesehen, die bei der Lösung großer Probleme helfen
Die Zukunft von Metas KI-Infrastruktur
- Diese beiden Designs für KI-Trainingscluster sind Teil einer größeren Roadmap für die Zukunft der KI
- Meta plant, den Ausbau seiner Infrastruktur fortzusetzen, einschließlich 350.000 NVIDIA H100 als Teil eines Portfolios mit einer Rechenleistung, die bis Ende 2024 600.000 H100 entspricht
Meinung von GN⁺
- Der von Meta angekündigte 24k-GPU-Cluster markiert einen wichtigen Fortschritt für KI-Forschung und -Entwicklung und stellt insbesondere die starke Rechenleistung bereit, die für das Training großer KI-Modelle notwendig ist
- Eine solche Infrastruktur schafft die Grundlage dafür, dass Forscher innovativere KI-Lösungen entwickeln können, da Komplexität und Größe von KI-Modellen weiter zunehmen
- Metas Engagement für Open Source und Open Compute kann Innovationen in der gesamten Branche fördern und anderen Organisationen helfen, diese Technologien für die Entwicklung eigener KI-Lösungen zu nutzen
- Allerdings müssen bei solchen Großclustern auch die Umweltauswirkungen des enormen Energieverbrauchs berücksichtigt werden, was ein wichtiger Aspekt der Nachhaltigkeit sein kann
- Diese Ankündigung von Meta bietet spannende Einblicke in die Zukunft der KI-Technologie und die Gelegenheit, tiefer über die Auswirkungen des KI-Fortschritts auf Gesellschaft und Industrie nachzudenken
1 Kommentare
Hacker-News-Kommentare
Erwähnung von float8 und Anstieg der FLOPs
Vergleich zwischen der Dotcom-Ära und der KI-Ära
Beziehung zwischen Rechenleistung und Engineering-Zeit
Interesse an der Arbeit zur Pipeline-Optimierung
Metas Engineering-Fähigkeiten
Historische Perspektive auf Engineering und Infrastruktur
Mögliche Konkurrenzfähigkeit von Meta bei KI-Workloads
Kosten der H100-GPUs
Metas offene Haltung zu KI-Innovationen
Metas langfristige Vision und AGI