Meta stellt Llama 3 vor

xguru · 2024-04-19T08:26:25+09:00

Die ersten beiden Modelle von Llama 3 werden veröffentlicht (vortrainierte sowie per Instruction-Finetuning angepasste 8B- und 70B-Modelle) Sie zeigen in einer breiten Palette von Branchen-Benchmarks eine Performance auf dem neuesten Stand der Technik und bieten neue Fähigkeiten wie verbessertes Reasoning Ziel ist es, die besten offenen Modelle auf dem Niveau der derzeit besten proprietären Modelle zu entwickeln. Entwickler-Feedback soll einfließen, und Releases sollen schnell und häufig erfolgen Einführung neuer Trust-&-Safety-Tools wie Llama Guard 2, Code Shield und CyberSec Eval 2 In den kommenden Monaten sollen neue Funktionen, längere Kontextfenster, zusätzliche Modellgrößen und verbesserte Performance folgen; außerdem soll ein Llama-3-Forschungspapier veröffentlicht werden Bald verfügbar bei AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake und weiteren; außerdem Unterstützung auf Hardware-Plattformen von AMD, AWS, Dell, Intel, NVIDIA, Qualcomm und weiteren Meta AI, aufgebaut auf der Llama-3-Technologie, gehört nun zu den weltweit führenden AI-Assistenten und kann die Intelligenz der Nutzer erweitern und ihre Belastung verringern Performance von Llama 3 Die Llama-3-Modelle mit 8B und 70B Parametern stellen gegenüber Llama 2 einen großen Sprung dar und erreichen einen neuen Spitzenwert für LLMs dieser Größenklasse Dank Verbesserungen beim Pre-Training und Post-Training sind die vortrainierten und per Instruction-Finetuning angepassten Modelle die derzeit besten Modelle in den Größenklassen 8B und 70B Parameter Verbesserungen im Post-Training-Verfahren senken die Rate falscher Ablehnungen deutlich, verbessern die Ausrichtung und erhöhen die Vielfalt der Modellantworten Auch Fähigkeiten wie Reasoning, Code-Generierung und das Befolgen von Anweisungen wurden stark verbessert, wodurch Llama 3 besser steuerbar wird (Steerable) Bei der Entwicklung von Llama 3 wurde nicht nur die Modellleistung in Standard-Benchmarks betrachtet, sondern auch die Optimierung für reale Szenarien angestrebt Dafür wurde ein neues hochwertiges menschliches Evaluierungsset mit 1.800 Prompts entwickelt, das 12 zentrale Anwendungsfälle abdeckt Dieses Evaluierungsset zeigt, dass das 70B-Instruct-Modell in realen Szenarien im Vergleich zu konkurrierenden Modellen ähnlicher Größe eine starke Performance liefert Auch das vortrainierte Modell erreicht in dieser Größenklasse einen neuen State of the Art für LLMs Man ist überzeugt, dass für die Entwicklung hervorragender Sprachmodelle Innovation, Skalierung und die Optimierung auf Einfachheit entscheidend sind Über das gesamte Llama-3-Projekt hinweg wurde diese Designphilosophie mit Fokus auf vier Kernelemente umgesetzt: Modellarchitektur, Pre-Training-Daten, Skalierung des Pre-Trainings und Instruction-Finetuning Modellarchitektur Für Llama 3 wurde eine vergleichsweise standardmäßige Decoder-only-Transformer-Architektur gewählt Im Vergleich zu Llama 2 gibt es einige wichtige Verbesserungen Llama 3 verwendet einen Tokenizer mit einem Vokabular von 128K Tokens, der Sprache deutlich effizienter kodiert und die Modellleistung erheblich verbessert Zur Verbesserung der Inferenz-Effizienz der Llama-3-Modelle wird Grouped Query Attention (GQA) sowohl bei 8B als auch bei 70B eingesetzt Das Modell wurde mit Sequenzen von 8.192 Tokens trainiert, wobei eine Maskierung sicherstellt, dass Self-Attention nicht über Dokumentgrenzen hinausgeht Trainingsdaten Für das Training der besten Sprachmodelle ist die Kuratierung großer, hochwertiger Trainingsdatensätze von größter Bedeutung Llama 3 wurde mit mehr als 15T Tokens vortrainiert, die aus öffentlich verfügbaren Quellen gesammelt wurden Der Trainingsdatensatz ist siebenmal größer als der für Llama 2 verwendete und enthält viermal mehr Code Zur Vorbereitung auf künftige mehrsprachige Anwendungsfälle bestehen mehr als 5 % des Llama-3-Pre-Training-Datensatzes aus hochwertigen nicht-englischen Daten, die mehr als 30 Sprachen abdecken Skalierung des Pre-Trainings Um die Pre-Training-Daten in den Llama-3-Modellen effektiv zu nutzen, wurde erheblicher Aufwand in die Skalierung des Pre-Trainings investiert Insbesondere wurde eine Reihe detaillierter Skalierungsgesetze für die Bewertung auf Downstream-Benchmarks entwickelt Diese Skalierungsgesetze ermöglichen fundierte Entscheidungen darüber, wie der optimale Datenmix gewählt und das Trainings-Compute bestmöglich genutzt werden kann Instruction-Finetuning Um das Potenzial der vortrainierten Modelle für Chat-Anwendungsfälle voll auszuschöpfen, gab es auch Innovationen beim Ansatz für das Instruction-Tuning Der Ansatz für das Post-Training kombiniert Supervised Fine-Tuning (SFT), Rejection Sampling, Proximal Policy Optimization (PPO) und Direct Policy Optimization (DPO) Die Qualität der in SFT verwendeten Prompts und die für PPO und DPO genutzten Präferenz-Rankings haben übergroßen Einfluss auf die Performance der ausgerichteten Modelle Mit Llama 3 entwickeln Metas Vision ist es, Entwicklern zu ermöglichen, Llama 3 anzupassen, um relevante Anwendungsfälle zu unterstützen, Best Practices leicht zu übernehmen und das offene Ökosystem zu verbessern Mit dieser Veröffentlichung werden neue Trust-&-Safety-Tools eingeführt, darunter aktualisierte Komponenten zusammen mit Llama Guard 2 und Cybersec Eval 2 sowie Code Shield, ein Guardrail zur Inferenzzeit, das von LLMs erzeugten unsicheren Code herausfiltert Llama 3 wurde außerdem zusammen mit torchtune entwickelt, einer neuen PyTorch-nativen Bibliothek, mit der sich LLMs einfach erstellen, feinjustieren und erproben lassen Systemweiter Ansatz für verantwortungsvolle Entwicklung und Bereitstellung Die Llama-3-Modelle wurden so entwickelt, dass sie maximal hilfreich sind und zugleich einen branchenführenden Ansatz für verantwortungsvolle Bereitstellung gewährleisten Dafür wurde ein neuer systemweiter Ansatz für die verantwortungsvolle Entwicklung und Bereitstellung von Llama eingeführt Die Llama-Modelle werden als grundlegende Bausteine eines Systems betrachtet, das Entwickler im Hinblick auf ihre jeweils eigenen Endziele entwerfen Instruction-Finetuning spielt eine wichtige Rolle, um die Sicherheit des Modells zu gewährleisten Die per Instruction-Finetuning angepassten Modelle werden durch interne und externe Maßnahmen einem Red Teaming unterzogen Diese Maßnahmen sind iterativ und werden genutzt, um die Sicherheits-Feinabstimmung der veröffentlichten Modelle zu verbessern Die Llama-Guard-Modelle bilden die Grundlage für die Sicherheit von Prompts und Antworten und ermöglichen es, je nach Anforderungen der Anwendung leicht neue Klassifizierungen zu erstellen Das neue Llama Guard 2 verwendet die kürzlich veröffentlichte MLCommons-Taxonomie zur Unterstützung von Industriestandards CyberSecEval 2 erweitert die vorherige Version um Messungen zur Neigung von LLMs, Code-Interpreter auszunutzen, zu offensiven Cybersecurity-Fähigkeiten und zur Anfälligkeit für Prompt-Injection-Angriffe Code Shield unterstützt die Filterung unsicheren, von LLMs erzeugten Codes zur Inferenzzeit und mindert damit Risiken im Zusammenhang mit unsicheren Code-Vorschlägen, dem Missbrauch von Code-Interpretern und der Ausführung sicherheitsrelevanter Befehle Breite Bereitstellung von Llama 3 Llama 3 wird bald auf wichtigen Plattformen wie Cloud-Anbietern und Modell-API-Anbietern verfügbar sein Benchmarks zufolge erzeugt der Tokenizer im Vergleich zu Llama 2 bis zu 15 % weniger Tokens und verbessert damit die Token-Effizienz Außerdem wurde Grouped Query Attention (GQA) auch zu Llama 3 8B hinzugefügt Ausblick für Llama 3 Die Modelle Llama 3 8B und 70B sind nur der Anfang des Veröffentlichungsplans für Llama 3 In den kommenden Monaten sollen mehrere Modelle mit neuen Funktionen erscheinen, darunter Multimodalität, mehrsprachige Dialogfähigkeiten, deutlich längere Kontextfenster und insgesamt stärkere Fähigkeiten Nach Abschluss des Llama-3-Trainings soll außerdem ein detailliertes Forschungspapier veröffentlicht werden

(ai.meta.com)

22 Punkte von xguru 2024-04-19 | 2 Kommentare | Auf WhatsApp teilen

Die ersten beiden Modelle von Llama 3 werden veröffentlicht (vortrainierte sowie per Instruction-Finetuning angepasste 8B- und 70B-Modelle)
Sie zeigen in einer breiten Palette von Branchen-Benchmarks eine Performance auf dem neuesten Stand der Technik und bieten neue Fähigkeiten wie verbessertes Reasoning
Ziel ist es, die besten offenen Modelle auf dem Niveau der derzeit besten proprietären Modelle zu entwickeln. Entwickler-Feedback soll einfließen, und Releases sollen schnell und häufig erfolgen
Einführung neuer Trust-&-Safety-Tools wie Llama Guard 2, Code Shield und CyberSec Eval 2
In den kommenden Monaten sollen neue Funktionen, längere Kontextfenster, zusätzliche Modellgrößen und verbesserte Performance folgen; außerdem soll ein Llama-3-Forschungspapier veröffentlicht werden
Bald verfügbar bei AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake und weiteren; außerdem Unterstützung auf Hardware-Plattformen von AMD, AWS, Dell, Intel, NVIDIA, Qualcomm und weiteren
Meta AI, aufgebaut auf der Llama-3-Technologie, gehört nun zu den weltweit führenden AI-Assistenten und kann die Intelligenz der Nutzer erweitern und ihre Belastung verringern

Performance von Llama 3

Die Llama-3-Modelle mit 8B und 70B Parametern stellen gegenüber Llama 2 einen großen Sprung dar und erreichen einen neuen Spitzenwert für LLMs dieser Größenklasse
Dank Verbesserungen beim Pre-Training und Post-Training sind die vortrainierten und per Instruction-Finetuning angepassten Modelle die derzeit besten Modelle in den Größenklassen 8B und 70B Parameter
Verbesserungen im Post-Training-Verfahren senken die Rate falscher Ablehnungen deutlich, verbessern die Ausrichtung und erhöhen die Vielfalt der Modellantworten
Auch Fähigkeiten wie Reasoning, Code-Generierung und das Befolgen von Anweisungen wurden stark verbessert, wodurch Llama 3 besser steuerbar wird (Steerable)
Bei der Entwicklung von Llama 3 wurde nicht nur die Modellleistung in Standard-Benchmarks betrachtet, sondern auch die Optimierung für reale Szenarien angestrebt
Dafür wurde ein neues hochwertiges menschliches Evaluierungsset mit 1.800 Prompts entwickelt, das 12 zentrale Anwendungsfälle abdeckt
Dieses Evaluierungsset zeigt, dass das 70B-Instruct-Modell in realen Szenarien im Vergleich zu konkurrierenden Modellen ähnlicher Größe eine starke Performance liefert
Auch das vortrainierte Modell erreicht in dieser Größenklasse einen neuen State of the Art für LLMs
Man ist überzeugt, dass für die Entwicklung hervorragender Sprachmodelle Innovation, Skalierung und die Optimierung auf Einfachheit entscheidend sind
Über das gesamte Llama-3-Projekt hinweg wurde diese Designphilosophie mit Fokus auf vier Kernelemente umgesetzt: Modellarchitektur, Pre-Training-Daten, Skalierung des Pre-Trainings und Instruction-Finetuning

Modellarchitektur

Für Llama 3 wurde eine vergleichsweise standardmäßige Decoder-only-Transformer-Architektur gewählt
Im Vergleich zu Llama 2 gibt es einige wichtige Verbesserungen
- Llama 3 verwendet einen Tokenizer mit einem Vokabular von 128K Tokens, der Sprache deutlich effizienter kodiert und die Modellleistung erheblich verbessert
- Zur Verbesserung der Inferenz-Effizienz der Llama-3-Modelle wird Grouped Query Attention (GQA) sowohl bei 8B als auch bei 70B eingesetzt
- Das Modell wurde mit Sequenzen von 8.192 Tokens trainiert, wobei eine Maskierung sicherstellt, dass Self-Attention nicht über Dokumentgrenzen hinausgeht

Trainingsdaten

Für das Training der besten Sprachmodelle ist die Kuratierung großer, hochwertiger Trainingsdatensätze von größter Bedeutung
Llama 3 wurde mit mehr als 15T Tokens vortrainiert, die aus öffentlich verfügbaren Quellen gesammelt wurden
Der Trainingsdatensatz ist siebenmal größer als der für Llama 2 verwendete und enthält viermal mehr Code
Zur Vorbereitung auf künftige mehrsprachige Anwendungsfälle bestehen mehr als 5 % des Llama-3-Pre-Training-Datensatzes aus hochwertigen nicht-englischen Daten, die mehr als 30 Sprachen abdecken

Skalierung des Pre-Trainings

Um die Pre-Training-Daten in den Llama-3-Modellen effektiv zu nutzen, wurde erheblicher Aufwand in die Skalierung des Pre-Trainings investiert
Insbesondere wurde eine Reihe detaillierter Skalierungsgesetze für die Bewertung auf Downstream-Benchmarks entwickelt
Diese Skalierungsgesetze ermöglichen fundierte Entscheidungen darüber, wie der optimale Datenmix gewählt und das Trainings-Compute bestmöglich genutzt werden kann

Instruction-Finetuning

Um das Potenzial der vortrainierten Modelle für Chat-Anwendungsfälle voll auszuschöpfen, gab es auch Innovationen beim Ansatz für das Instruction-Tuning
Der Ansatz für das Post-Training kombiniert Supervised Fine-Tuning (SFT), Rejection Sampling, Proximal Policy Optimization (PPO) und Direct Policy Optimization (DPO)
Die Qualität der in SFT verwendeten Prompts und die für PPO und DPO genutzten Präferenz-Rankings haben übergroßen Einfluss auf die Performance der ausgerichteten Modelle

Mit Llama 3 entwickeln

Metas Vision ist es, Entwicklern zu ermöglichen, Llama 3 anzupassen, um relevante Anwendungsfälle zu unterstützen, Best Practices leicht zu übernehmen und das offene Ökosystem zu verbessern
Mit dieser Veröffentlichung werden neue Trust-&-Safety-Tools eingeführt, darunter aktualisierte Komponenten zusammen mit Llama Guard 2 und Cybersec Eval 2 sowie Code Shield, ein Guardrail zur Inferenzzeit, das von LLMs erzeugten unsicheren Code herausfiltert
Llama 3 wurde außerdem zusammen mit torchtune entwickelt, einer neuen PyTorch-nativen Bibliothek, mit der sich LLMs einfach erstellen, feinjustieren und erproben lassen

Systemweiter Ansatz für verantwortungsvolle Entwicklung und Bereitstellung

Die Llama-3-Modelle wurden so entwickelt, dass sie maximal hilfreich sind und zugleich einen branchenführenden Ansatz für verantwortungsvolle Bereitstellung gewährleisten
Dafür wurde ein neuer systemweiter Ansatz für die verantwortungsvolle Entwicklung und Bereitstellung von Llama eingeführt
Die Llama-Modelle werden als grundlegende Bausteine eines Systems betrachtet, das Entwickler im Hinblick auf ihre jeweils eigenen Endziele entwerfen
Instruction-Finetuning spielt eine wichtige Rolle, um die Sicherheit des Modells zu gewährleisten
Die per Instruction-Finetuning angepassten Modelle werden durch interne und externe Maßnahmen einem Red Teaming unterzogen
Diese Maßnahmen sind iterativ und werden genutzt, um die Sicherheits-Feinabstimmung der veröffentlichten Modelle zu verbessern
Die Llama-Guard-Modelle bilden die Grundlage für die Sicherheit von Prompts und Antworten und ermöglichen es, je nach Anforderungen der Anwendung leicht neue Klassifizierungen zu erstellen
Das neue Llama Guard 2 verwendet die kürzlich veröffentlichte MLCommons-Taxonomie zur Unterstützung von Industriestandards
CyberSecEval 2 erweitert die vorherige Version um Messungen zur Neigung von LLMs, Code-Interpreter auszunutzen, zu offensiven Cybersecurity-Fähigkeiten und zur Anfälligkeit für Prompt-Injection-Angriffe
Code Shield unterstützt die Filterung unsicheren, von LLMs erzeugten Codes zur Inferenzzeit und mindert damit Risiken im Zusammenhang mit unsicheren Code-Vorschlägen, dem Missbrauch von Code-Interpretern und der Ausführung sicherheitsrelevanter Befehle

Breite Bereitstellung von Llama 3

Llama 3 wird bald auf wichtigen Plattformen wie Cloud-Anbietern und Modell-API-Anbietern verfügbar sein
Benchmarks zufolge erzeugt der Tokenizer im Vergleich zu Llama 2 bis zu 15 % weniger Tokens und verbessert damit die Token-Effizienz
Außerdem wurde Grouped Query Attention (GQA) auch zu Llama 3 8B hinzugefügt

Ausblick für Llama 3

Die Modelle Llama 3 8B und 70B sind nur der Anfang des Veröffentlichungsplans für Llama 3
In den kommenden Monaten sollen mehrere Modelle mit neuen Funktionen erscheinen, darunter Multimodalität, mehrsprachige Dialogfähigkeiten, deutlich längere Kontextfenster und insgesamt stärkere Fähigkeiten
Nach Abschluss des Llama-3-Trainings soll außerdem ein detailliertes Forschungspapier veröffentlicht werden

2 Kommentare

dormis 2024-04-19

Andere Clouds kenne ich erst mal nicht, aber in Azure AI Studio ist Llama-3 zusammen mit Mixtral 8x22B bereits verfügbar (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct).

xguru 2024-04-19

Offizielle Website: https://llama.meta.com/llama3/
Andrej Karpathys Einschätzung zu Meta Llama 3