6 Punkte von GN⁺ 2024-06-13 | 1 Kommentare | Auf WhatsApp teilen
  • Meta benötigt für das Training großer Sprachmodelle (LLMs) enorme Rechenkapazitäten
  • Beim traditionellen Training von AI-Modellen wurden viele Modelle trainiert, dafür waren aber vergleichsweise wenige GPUs nötig
  • Mit dem Aufkommen von generativer AI (GenAI) ist die Zahl der Jobs gesunken, dafür werden nun sehr große Jobs benötigt

Herausforderungen beim Training großer Modelle

  • Hardware-Zuverlässigkeit: Um Unterbrechungen des Trainings durch Hardware-Ausfälle zu minimieren, sind strenge Tests und Qualitätskontrollen erforderlich.
  • Schnelle Wiederherstellung bei Ausfällen: Tritt ein Hardware-Ausfall auf, muss die Wiederherstellung schnell erfolgen. Dafür müssen der Overhead beim Rescheduling reduziert und das Training zügig neu initialisiert werden.
  • Effiziente Sicherung des Trainingszustands: Im Fehlerfall muss der Trainingszustand effizient gespeichert und wiederhergestellt werden können.
  • Optimale Konnektivität zwischen GPUs: Beim Training großer Modelle ist die Datenübertragung zwischen GPUs entscheidend. Dafür sind eine Hochgeschwindigkeits-Netzwerkinfrastruktur und effiziente Protokolle zur Datenübertragung notwendig.

Es ist wichtig, alle Ebenen des Infrastruktur-Stacks zu verbessern

Trainingssoftware

  • Forschende werden dabei unterstützt, Open Source wie PyTorch zu nutzen, um schnell von der Forschung in die Produktion zu wechseln.
  • Es werden neue Algorithmen und Techniken für das großskalige Training entwickelt und neue Software-Tools sowie Frameworks integriert.

Scheduling

  • Zur Optimierung der Ressourcen werden komplexe Algorithmen eingesetzt, die Ressourcen je nach Bedarf der Jobs zuweisen und dynamisch planen.

Hardware

  • Für das Training großer Modelle ist Hochleistungs-Hardware erforderlich.
  • Bestehende Hardware wurde optimiert, und die Grand-Teton-Plattform mit NVIDIA-H100-GPUs wurde angepasst, um die TDP der GPUs auf 700 W zu erhöhen und auf HBM3 umzusteigen.

Platzierung im Rechenzentrum

  • GPUs und Systeme werden im Rechenzentrum optimal platziert, um Ressourcen wie Strom, Kühlung und Networking zu optimieren.
  • Für maximale Compute-Dichte werden so viele GPU-Racks wie möglich aufgestellt.

Zuverlässigkeit

  • Um Ausfallzeiten bei Hardware-Defekten zu minimieren, werden Erkennungs- und Wiederherstellungspläne erstellt.
  • Häufig auftretende Fehlermodi: GPU wird nicht erkannt, DRAM- und SRAM-UCEs, Probleme mit Hardware-Netzwerkkabeln.

Netzwerk

  • Für das Training großer Modelle sind eine Hochgeschwindigkeits-Netzwerkinfrastruktur und effiziente Protokolle zur Datenübertragung erforderlich.
  • Es wurden zwei Netzwerk-Cluster auf Basis von RoCE und InfiniBand aufgebaut, aus deren Betriebserfahrung gelernt wird.

Storage

  • Für die Speicherung großer Datenmengen wird in Storage-Technologien mit hoher Kapazität und hoher Geschwindigkeit investiert, außerdem werden neue Datenspeicherlösungen für bestimmte Workloads entwickelt.

Ausblick

  • Künftig sollen Hunderttausende GPUs eingesetzt werden, um mehr Daten zu verarbeiten sowie größere Distanzen und Latenzen zu bewältigen.
  • Neue Hardware-Technologien und GPU-Architekturen sollen übernommen und die Infrastruktur weiterentwickelt werden.
  • Meta will sich in der sich wandelnden AI-Landschaft bewegen und daran arbeiten, die Grenzen des Möglichen weiter zu verschieben.

1 Kommentare

 
GN⁺ 2024-06-13
Hacker-News-Kommentare
  • GPU-Verbindungsproblem: Es wird ein Problem erwähnt, bei dem GPUs auf dem PCIe-Bus nicht erkannt wurden.
  • Kühlinfrastruktur: Die mechanische und thermische Auslegung musste geändert werden, während die bestehende luftgekühlte Umgebung beibehalten wurde.
  • Zeitliche Einschränkungen: Zeitliche Einschränkungen wirkten sich auf die Gesamtqualität des Modells aus.
  • Metas Suchfunktion: Es wurde die Meinung geäußert, Meta hätte lieber die Suchfunktion verbessern sollen, anstatt ein neues LLM zu trainieren.
  • Methoden der Datenerfassung: Es besteht Neugier, wie Meta Daten sammelt und aufbereitet, insbesondere wie PII (personenbezogene Informationen) bereinigt wird.
  • Kostenproblem: Es wird erwähnt, dass LLMs für Anwendungen außerhalb der Cloud wegen der Kosten unrealistisch sein könnten.
  • Cluster-Aufbau: Der Versuch, zwei 24k-Cluster aufzubauen, um Betriebserfahrung zu sammeln, wird als beeindruckend angesehen.
  • Job-Scheduling: Es fehlen konkrete Informationen dazu, wie Jobs in großen Maschinen-Arrays geplant werden.
  • Monetarisierung: Es ist nicht klar, wie Meta durch den großflächigen Einsatz von LLMs Geld verdienen will.
  • Googles AI-Vorsprung: Es wird die Meinung geäußert, dass Google durch Custom Silicon im AI-Bereich im Vorteil ist.
  • Domainname: Es ist interessant, dass Metas Domain weiterhin engineering.fb.com ist.