Metas Methoden zum Training großer Sprachmodelle

(engineering.fb.com)

6 Punkte von GN⁺ 2024-06-13 | 1 Kommentare | Auf WhatsApp teilen

Meta benötigt für das Training großer Sprachmodelle (LLMs) enorme Rechenkapazitäten
Beim traditionellen Training von AI-Modellen wurden viele Modelle trainiert, dafür waren aber vergleichsweise wenige GPUs nötig
Mit dem Aufkommen von generativer AI (GenAI) ist die Zahl der Jobs gesunken, dafür werden nun sehr große Jobs benötigt

Hardware-Zuverlässigkeit: Um Unterbrechungen des Trainings durch Hardware-Ausfälle zu minimieren, sind strenge Tests und Qualitätskontrollen erforderlich.
Schnelle Wiederherstellung bei Ausfällen: Tritt ein Hardware-Ausfall auf, muss die Wiederherstellung schnell erfolgen. Dafür müssen der Overhead beim Rescheduling reduziert und das Training zügig neu initialisiert werden.
Effiziente Sicherung des Trainingszustands: Im Fehlerfall muss der Trainingszustand effizient gespeichert und wiederhergestellt werden können.
Optimale Konnektivität zwischen GPUs: Beim Training großer Modelle ist die Datenübertragung zwischen GPUs entscheidend. Dafür sind eine Hochgeschwindigkeits-Netzwerkinfrastruktur und effiziente Protokolle zur Datenübertragung notwendig.

Forschende werden dabei unterstützt, Open Source wie PyTorch zu nutzen, um schnell von der Forschung in die Produktion zu wechseln.
Es werden neue Algorithmen und Techniken für das großskalige Training entwickelt und neue Software-Tools sowie Frameworks integriert.

Zur Optimierung der Ressourcen werden komplexe Algorithmen eingesetzt, die Ressourcen je nach Bedarf der Jobs zuweisen und dynamisch planen.

Für das Training großer Modelle ist Hochleistungs-Hardware erforderlich.
Bestehende Hardware wurde optimiert, und die Grand-Teton-Plattform mit NVIDIA-H100-GPUs wurde angepasst, um die TDP der GPUs auf 700 W zu erhöhen und auf HBM3 umzusteigen.

GPUs und Systeme werden im Rechenzentrum optimal platziert, um Ressourcen wie Strom, Kühlung und Networking zu optimieren.
Für maximale Compute-Dichte werden so viele GPU-Racks wie möglich aufgestellt.

Um Ausfallzeiten bei Hardware-Defekten zu minimieren, werden Erkennungs- und Wiederherstellungspläne erstellt.
Häufig auftretende Fehlermodi: GPU wird nicht erkannt, DRAM- und SRAM-UCEs, Probleme mit Hardware-Netzwerkkabeln.

Für das Training großer Modelle sind eine Hochgeschwindigkeits-Netzwerkinfrastruktur und effiziente Protokolle zur Datenübertragung erforderlich.
Es wurden zwei Netzwerk-Cluster auf Basis von RoCE und InfiniBand aufgebaut, aus deren Betriebserfahrung gelernt wird.

Für die Speicherung großer Datenmengen wird in Storage-Technologien mit hoher Kapazität und hoher Geschwindigkeit investiert, außerdem werden neue Datenspeicherlösungen für bestimmte Workloads entwickelt.

Künftig sollen Hunderttausende GPUs eingesetzt werden, um mehr Daten zu verarbeiten sowie größere Distanzen und Latenzen zu bewältigen.
Neue Hardware-Technologien und GPU-Architekturen sollen übernommen und die Infrastruktur weiterentwickelt werden.
Meta will sich in der sich wandelnden AI-Landschaft bewegen und daran arbeiten, die Grenzen des Möglichen weiter zu verschieben.

1 Kommentare

GN⁺ 2024-06-13

GPU-Verbindungsproblem: Es wird ein Problem erwähnt, bei dem GPUs auf dem PCIe-Bus nicht erkannt wurden.
Kühlinfrastruktur: Die mechanische und thermische Auslegung musste geändert werden, während die bestehende luftgekühlte Umgebung beibehalten wurde.
Zeitliche Einschränkungen: Zeitliche Einschränkungen wirkten sich auf die Gesamtqualität des Modells aus.
Metas Suchfunktion: Es wurde die Meinung geäußert, Meta hätte lieber die Suchfunktion verbessern sollen, anstatt ein neues LLM zu trainieren.
Methoden der Datenerfassung: Es besteht Neugier, wie Meta Daten sammelt und aufbereitet, insbesondere wie PII (personenbezogene Informationen) bereinigt wird.
Kostenproblem: Es wird erwähnt, dass LLMs für Anwendungen außerhalb der Cloud wegen der Kosten unrealistisch sein könnten.
Cluster-Aufbau: Der Versuch, zwei 24k-Cluster aufzubauen, um Betriebserfahrung zu sammeln, wird als beeindruckend angesehen.
Job-Scheduling: Es fehlen konkrete Informationen dazu, wie Jobs in großen Maschinen-Arrays geplant werden.
Monetarisierung: Es ist nicht klar, wie Meta durch den großflächigen Einsatz von LLMs Geld verdienen will.
Googles AI-Vorsprung: Es wird die Meinung geäußert, dass Google durch Custom Silicon im AI-Bereich im Vorteil ist.
Domainname: Es ist interessant, dass Metas Domain weiterhin engineering.fb.com ist.