Andrej Karpathys Einschätzung zu Meta Llama 3

xguru · 2024-04-19T09:17:00+09:00

Es wurden 8B- und 70B-Modelle veröffentlicht (sowohl Basismodelle als auch feinabgestimmte Modelle). Sie zeigen in ihrer jeweiligen Modellklasse eine starke Leistung. Das 400B-Modell befindet sich noch im Training, nähert sich aber bereits dem Bereich von GPT-4 an (z. B. MMLU 84.8 vs. GPT-4 mit 86.5) Tokenizer Die Anzahl der Tokens wurde von 32K (Llama 2) auf 128K (Llama 3) vervierfacht Mit mehr Tokens lässt sich die Sequenzlänge stärker komprimieren. Es werden 15 % weniger Tokens angegeben, bei gleichzeitig verbesserter Downstream-Performance Architektur In Llama 2 nutzten nur die großen Modelle Grouped Query Attention (GQA), jetzt verwenden alle Modelle GQA, einschließlich des kleinsten 8B-Modells GQA ist ein Schema zur gemeinsamen Nutzung von Parametern für die Schlüssel/Werte der Attention und reduziert die Größe des KV-Cache während der Inferenz Das ist eine gute und sehr begrüßenswerte Änderung, die die Komplexität verringert und Optimierungen erleichtert Sequenzlänge Die maximale Token-Anzahl des Kontextfensters wurde von 4096 (Llama 2) bzw. 2048 (Llama 1) auf 8192 erhöht Diese Erhöhung ist willkommen, fällt aber im Vergleich zum aktuellen Standard (z. B. GPT-4 mit 128K) deutlich klein aus Viele hatten sich in dieser Dimension vermutlich mehr erwartet. Vielleicht ist später per Finetuning mehr möglich (?) Trainingsdaten Llama 2 wurde mit 2T Tokens trainiert, bei Llama 3 wurde das auf einen Trainingsdatensatz von 15T erhöht Es wurde viel Aufmerksamkeit auf Datenqualität, viermal mehr Code-Tokens und 5 % nicht-englische Tokens in mehr als 30 Sprachen gelegt 5 % sind im Vergleich zum Verhältnis non-en:en ziemlich wenig, daher ist dieses Modell überwiegend ein englisches Modell. Aber mehr als 0 ist schon ziemlich gut Skalierungsgesetze 15T ist ein extrem großer Datensatz für das Training eines „kleinen“ Modells wie 8B Parametern, und das ist etwas Neues und sehr Begrüßenswertes, das normalerweise nicht gemacht wird Um ein 8B-Modell am Chinchilla-„compute optimal“-Punkt zu trainieren, müsste man ungefähr ~200B Tokens verwenden Wenn es nur um das beste „bang-for-the-buck“ bei der Modellleistung geht, wäre das ausreichend Meta hat diesen Punkt jedoch um etwa das 75-Fache überschritten, was ungewöhnlich ist, was ich persönlich aber sehr begrüße Davon profitieren wir alle mit sehr leistungsfähigen Modellen, die zugleich sehr klein, leicht zu handhaben und einfach zu inferieren sind Meta erwähnt, dass die Modelle selbst an diesem Punkt im üblichen Sinn noch nicht „konvergiert“ zu haben scheinen Das heißt, die LLMs, mit denen wir immer arbeiten, werden vermutlich 100- bis 1000-mal kürzer trainiert, als es bis in die Nähe eines Konvergenzpunkts nötig wäre Ich hoffe, dass sich der Trend fortsetzt, noch länger trainierte und deutlich kleinere Modelle zu veröffentlichen System Es wird erwähnt, dass Llama 3 auf 16K GPUs mit einem beobachteten Durchsatz von 400 TFLOPS trainiert wurde Es wird nicht ausdrücklich gesagt, aber ich nehme an, dass es sich um H100 fp16 handelt, die in NVIDIAs Marketingmaterial mit 1.979 TFLOPS angegeben werden Aber wir wissen alle, dass ihr kleines Sternchen (*with sparsity) viel Arbeit leistet, und man diese Zahl für reale TFLOPS durch 2 teilen muss, um auf ~990 zu kommen (Warum wird Sparsity überhaupt als FLOPS mitgerechnet?) Wie auch immer: 400/990 ~= 40 % Auslastung, was bei so vielen GPUs ziemlich ordentlich ist! Um das in diesem Maßstab zu erreichen, braucht es eine Menge wirklich solider Engineering-Arbeit Zusammenfassung Llama 3 wirkt wie ein sehr leistungsfähiger Modell-Release und ist sehr willkommen Es bleibt den Grundlagen treu, investiert viel Zeit in solide System- und Datenarbeit und lotet die Grenzen lang trainierter Modelle aus Auch das 400B-Modell ist sehr spannend und könnte das erste Open-Source-Release auf GPT-4-Niveau werden Ich denke, viele werden nach längeren Kontextfenstern verlangen

(twitter.com/karpathy)

16 Punkte von xguru 2024-04-19 | Noch keine Kommentare. | Auf WhatsApp teilen

Es wurden 8B- und 70B-Modelle veröffentlicht (sowohl Basismodelle als auch feinabgestimmte Modelle). Sie zeigen in ihrer jeweiligen Modellklasse eine starke Leistung.
Das 400B-Modell befindet sich noch im Training, nähert sich aber bereits dem Bereich von GPT-4 an (z. B. MMLU 84.8 vs. GPT-4 mit 86.5)

Tokenizer

Die Anzahl der Tokens wurde von 32K (Llama 2) auf 128K (Llama 3) vervierfacht
Mit mehr Tokens lässt sich die Sequenzlänge stärker komprimieren. Es werden 15 % weniger Tokens angegeben, bei gleichzeitig verbesserter Downstream-Performance

Architektur

In Llama 2 nutzten nur die großen Modelle Grouped Query Attention (GQA), jetzt verwenden alle Modelle GQA, einschließlich des kleinsten 8B-Modells
GQA ist ein Schema zur gemeinsamen Nutzung von Parametern für die Schlüssel/Werte der Attention und reduziert die Größe des KV-Cache während der Inferenz
Das ist eine gute und sehr begrüßenswerte Änderung, die die Komplexität verringert und Optimierungen erleichtert

Sequenzlänge

Die maximale Token-Anzahl des Kontextfensters wurde von 4096 (Llama 2) bzw. 2048 (Llama 1) auf 8192 erhöht
Diese Erhöhung ist willkommen, fällt aber im Vergleich zum aktuellen Standard (z. B. GPT-4 mit 128K) deutlich klein aus
Viele hatten sich in dieser Dimension vermutlich mehr erwartet. Vielleicht ist später per Finetuning mehr möglich (?)

Trainingsdaten

Llama 2 wurde mit 2T Tokens trainiert, bei Llama 3 wurde das auf einen Trainingsdatensatz von 15T erhöht
Es wurde viel Aufmerksamkeit auf Datenqualität, viermal mehr Code-Tokens und 5 % nicht-englische Tokens in mehr als 30 Sprachen gelegt
5 % sind im Vergleich zum Verhältnis non-en:en ziemlich wenig, daher ist dieses Modell überwiegend ein englisches Modell. Aber mehr als 0 ist schon ziemlich gut

Skalierungsgesetze

15T ist ein extrem großer Datensatz für das Training eines „kleinen“ Modells wie 8B Parametern, und das ist etwas Neues und sehr Begrüßenswertes, das normalerweise nicht gemacht wird
Um ein 8B-Modell am Chinchilla-„compute optimal“-Punkt zu trainieren, müsste man ungefähr ~200B Tokens verwenden
Wenn es nur um das beste „bang-for-the-buck“ bei der Modellleistung geht, wäre das ausreichend
Meta hat diesen Punkt jedoch um etwa das 75-Fache überschritten, was ungewöhnlich ist, was ich persönlich aber sehr begrüße
Davon profitieren wir alle mit sehr leistungsfähigen Modellen, die zugleich sehr klein, leicht zu handhaben und einfach zu inferieren sind
Meta erwähnt, dass die Modelle selbst an diesem Punkt im üblichen Sinn noch nicht „konvergiert“ zu haben scheinen
Das heißt, die LLMs, mit denen wir immer arbeiten, werden vermutlich 100- bis 1000-mal kürzer trainiert, als es bis in die Nähe eines Konvergenzpunkts nötig wäre
Ich hoffe, dass sich der Trend fortsetzt, noch länger trainierte und deutlich kleinere Modelle zu veröffentlichen

System

Es wird erwähnt, dass Llama 3 auf 16K GPUs mit einem beobachteten Durchsatz von 400 TFLOPS trainiert wurde
Es wird nicht ausdrücklich gesagt, aber ich nehme an, dass es sich um H100 fp16 handelt, die in NVIDIAs Marketingmaterial mit 1.979 TFLOPS angegeben werden
Aber wir wissen alle, dass ihr kleines Sternchen (*with sparsity) viel Arbeit leistet, und man diese Zahl für reale TFLOPS durch 2 teilen muss, um auf ~990 zu kommen
(Warum wird Sparsity überhaupt als FLOPS mitgerechnet?)
Wie auch immer: 400/990 ~= 40 % Auslastung, was bei so vielen GPUs ziemlich ordentlich ist!
Um das in diesem Maßstab zu erreichen, braucht es eine Menge wirklich solider Engineering-Arbeit

Zusammenfassung

Llama 3 wirkt wie ein sehr leistungsfähiger Modell-Release und ist sehr willkommen
Es bleibt den Grundlagen treu, investiert viel Zeit in solide System- und Datenarbeit und lotet die Grenzen lang trainierter Modelle aus
Auch das 400B-Modell ist sehr spannend und könnte das erste Open-Source-Release auf GPT-4-Niveau werden
Ich denke, viele werden nach längeren Kontextfenstern verlangen