- Meta benötigt für das Training großer Sprachmodelle (LLMs) enorme Rechenkapazitäten
- Beim traditionellen Training von AI-Modellen wurden viele Modelle trainiert, dafür waren aber vergleichsweise wenige GPUs nötig
- Mit dem Aufkommen von generativer AI (GenAI) ist die Zahl der Jobs gesunken, dafür werden nun sehr große Jobs benötigt
Herausforderungen beim Training großer Modelle
- Hardware-Zuverlässigkeit: Um Unterbrechungen des Trainings durch Hardware-Ausfälle zu minimieren, sind strenge Tests und Qualitätskontrollen erforderlich.
- Schnelle Wiederherstellung bei Ausfällen: Tritt ein Hardware-Ausfall auf, muss die Wiederherstellung schnell erfolgen. Dafür müssen der Overhead beim Rescheduling reduziert und das Training zügig neu initialisiert werden.
- Effiziente Sicherung des Trainingszustands: Im Fehlerfall muss der Trainingszustand effizient gespeichert und wiederhergestellt werden können.
- Optimale Konnektivität zwischen GPUs: Beim Training großer Modelle ist die Datenübertragung zwischen GPUs entscheidend. Dafür sind eine Hochgeschwindigkeits-Netzwerkinfrastruktur und effiziente Protokolle zur Datenübertragung notwendig.
Es ist wichtig, alle Ebenen des Infrastruktur-Stacks zu verbessern
Trainingssoftware
- Forschende werden dabei unterstützt, Open Source wie PyTorch zu nutzen, um schnell von der Forschung in die Produktion zu wechseln.
- Es werden neue Algorithmen und Techniken für das großskalige Training entwickelt und neue Software-Tools sowie Frameworks integriert.
Scheduling
- Zur Optimierung der Ressourcen werden komplexe Algorithmen eingesetzt, die Ressourcen je nach Bedarf der Jobs zuweisen und dynamisch planen.
Hardware
- Für das Training großer Modelle ist Hochleistungs-Hardware erforderlich.
- Bestehende Hardware wurde optimiert, und die Grand-Teton-Plattform mit NVIDIA-H100-GPUs wurde angepasst, um die TDP der GPUs auf 700 W zu erhöhen und auf HBM3 umzusteigen.
Platzierung im Rechenzentrum
- GPUs und Systeme werden im Rechenzentrum optimal platziert, um Ressourcen wie Strom, Kühlung und Networking zu optimieren.
- Für maximale Compute-Dichte werden so viele GPU-Racks wie möglich aufgestellt.
Zuverlässigkeit
- Um Ausfallzeiten bei Hardware-Defekten zu minimieren, werden Erkennungs- und Wiederherstellungspläne erstellt.
- Häufig auftretende Fehlermodi: GPU wird nicht erkannt, DRAM- und SRAM-UCEs, Probleme mit Hardware-Netzwerkkabeln.
Netzwerk
- Für das Training großer Modelle sind eine Hochgeschwindigkeits-Netzwerkinfrastruktur und effiziente Protokolle zur Datenübertragung erforderlich.
- Es wurden zwei Netzwerk-Cluster auf Basis von RoCE und InfiniBand aufgebaut, aus deren Betriebserfahrung gelernt wird.
Storage
- Für die Speicherung großer Datenmengen wird in Storage-Technologien mit hoher Kapazität und hoher Geschwindigkeit investiert, außerdem werden neue Datenspeicherlösungen für bestimmte Workloads entwickelt.
Ausblick
- Künftig sollen Hunderttausende GPUs eingesetzt werden, um mehr Daten zu verarbeiten sowie größere Distanzen und Latenzen zu bewältigen.
- Neue Hardware-Technologien und GPU-Architekturen sollen übernommen und die Infrastruktur weiterentwickelt werden.
- Meta will sich in der sich wandelnden AI-Landschaft bewegen und daran arbeiten, die Grenzen des Möglichen weiter zu verschieben.
1 Kommentare
Hacker-News-Kommentare
engineering.fb.comist.