- Die ersten beiden Modelle von Llama 3 werden veröffentlicht (vortrainierte sowie per Instruction-Finetuning angepasste 8B- und 70B-Modelle)
- Sie zeigen in einer breiten Palette von Branchen-Benchmarks eine Performance auf dem neuesten Stand der Technik und bieten neue Fähigkeiten wie verbessertes Reasoning
- Ziel ist es, die besten offenen Modelle auf dem Niveau der derzeit besten proprietären Modelle zu entwickeln. Entwickler-Feedback soll einfließen, und Releases sollen schnell und häufig erfolgen
- Einführung neuer Trust-&-Safety-Tools wie Llama Guard 2, Code Shield und CyberSec Eval 2
- In den kommenden Monaten sollen neue Funktionen, längere Kontextfenster, zusätzliche Modellgrößen und verbesserte Performance folgen; außerdem soll ein Llama-3-Forschungspapier veröffentlicht werden
- Bald verfügbar bei AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake und weiteren; außerdem Unterstützung auf Hardware-Plattformen von AMD, AWS, Dell, Intel, NVIDIA, Qualcomm und weiteren
- Meta AI, aufgebaut auf der Llama-3-Technologie, gehört nun zu den weltweit führenden AI-Assistenten und kann die Intelligenz der Nutzer erweitern und ihre Belastung verringern
Performance von Llama 3
- Die Llama-3-Modelle mit 8B und 70B Parametern stellen gegenüber Llama 2 einen großen Sprung dar und erreichen einen neuen Spitzenwert für LLMs dieser Größenklasse
- Dank Verbesserungen beim Pre-Training und Post-Training sind die vortrainierten und per Instruction-Finetuning angepassten Modelle die derzeit besten Modelle in den Größenklassen 8B und 70B Parameter
- Verbesserungen im Post-Training-Verfahren senken die Rate falscher Ablehnungen deutlich, verbessern die Ausrichtung und erhöhen die Vielfalt der Modellantworten
- Auch Fähigkeiten wie Reasoning, Code-Generierung und das Befolgen von Anweisungen wurden stark verbessert, wodurch Llama 3 besser steuerbar wird (
Steerable)
- Bei der Entwicklung von Llama 3 wurde nicht nur die Modellleistung in Standard-Benchmarks betrachtet, sondern auch die Optimierung für reale Szenarien angestrebt
- Dafür wurde ein neues hochwertiges menschliches Evaluierungsset mit 1.800 Prompts entwickelt, das 12 zentrale Anwendungsfälle abdeckt
- Dieses Evaluierungsset zeigt, dass das 70B-Instruct-Modell in realen Szenarien im Vergleich zu konkurrierenden Modellen ähnlicher Größe eine starke Performance liefert
- Auch das vortrainierte Modell erreicht in dieser Größenklasse einen neuen State of the Art für LLMs
- Man ist überzeugt, dass für die Entwicklung hervorragender Sprachmodelle Innovation, Skalierung und die Optimierung auf Einfachheit entscheidend sind
- Über das gesamte Llama-3-Projekt hinweg wurde diese Designphilosophie mit Fokus auf vier Kernelemente umgesetzt: Modellarchitektur, Pre-Training-Daten, Skalierung des Pre-Trainings und Instruction-Finetuning
Modellarchitektur
- Für Llama 3 wurde eine vergleichsweise standardmäßige Decoder-only-Transformer-Architektur gewählt
- Im Vergleich zu Llama 2 gibt es einige wichtige Verbesserungen
- Llama 3 verwendet einen Tokenizer mit einem Vokabular von 128K Tokens, der Sprache deutlich effizienter kodiert und die Modellleistung erheblich verbessert
- Zur Verbesserung der Inferenz-Effizienz der Llama-3-Modelle wird Grouped Query Attention (GQA) sowohl bei 8B als auch bei 70B eingesetzt
- Das Modell wurde mit Sequenzen von 8.192 Tokens trainiert, wobei eine Maskierung sicherstellt, dass Self-Attention nicht über Dokumentgrenzen hinausgeht
Trainingsdaten
- Für das Training der besten Sprachmodelle ist die Kuratierung großer, hochwertiger Trainingsdatensätze von größter Bedeutung
- Llama 3 wurde mit mehr als 15T Tokens vortrainiert, die aus öffentlich verfügbaren Quellen gesammelt wurden
- Der Trainingsdatensatz ist siebenmal größer als der für Llama 2 verwendete und enthält viermal mehr Code
- Zur Vorbereitung auf künftige mehrsprachige Anwendungsfälle bestehen mehr als 5 % des Llama-3-Pre-Training-Datensatzes aus hochwertigen nicht-englischen Daten, die mehr als 30 Sprachen abdecken
Skalierung des Pre-Trainings
- Um die Pre-Training-Daten in den Llama-3-Modellen effektiv zu nutzen, wurde erheblicher Aufwand in die Skalierung des Pre-Trainings investiert
- Insbesondere wurde eine Reihe detaillierter Skalierungsgesetze für die Bewertung auf Downstream-Benchmarks entwickelt
- Diese Skalierungsgesetze ermöglichen fundierte Entscheidungen darüber, wie der optimale Datenmix gewählt und das Trainings-Compute bestmöglich genutzt werden kann
Instruction-Finetuning
- Um das Potenzial der vortrainierten Modelle für Chat-Anwendungsfälle voll auszuschöpfen, gab es auch Innovationen beim Ansatz für das Instruction-Tuning
- Der Ansatz für das Post-Training kombiniert Supervised Fine-Tuning (SFT), Rejection Sampling, Proximal Policy Optimization (PPO) und Direct Policy Optimization (DPO)
- Die Qualität der in SFT verwendeten Prompts und die für PPO und DPO genutzten Präferenz-Rankings haben übergroßen Einfluss auf die Performance der ausgerichteten Modelle
Mit Llama 3 entwickeln
- Metas Vision ist es, Entwicklern zu ermöglichen, Llama 3 anzupassen, um relevante Anwendungsfälle zu unterstützen, Best Practices leicht zu übernehmen und das offene Ökosystem zu verbessern
- Mit dieser Veröffentlichung werden neue Trust-&-Safety-Tools eingeführt, darunter aktualisierte Komponenten zusammen mit Llama Guard 2 und Cybersec Eval 2 sowie Code Shield, ein Guardrail zur Inferenzzeit, das von LLMs erzeugten unsicheren Code herausfiltert
- Llama 3 wurde außerdem zusammen mit
torchtune entwickelt, einer neuen PyTorch-nativen Bibliothek, mit der sich LLMs einfach erstellen, feinjustieren und erproben lassen
Systemweiter Ansatz für verantwortungsvolle Entwicklung und Bereitstellung
- Die Llama-3-Modelle wurden so entwickelt, dass sie maximal hilfreich sind und zugleich einen branchenführenden Ansatz für verantwortungsvolle Bereitstellung gewährleisten
- Dafür wurde ein neuer systemweiter Ansatz für die verantwortungsvolle Entwicklung und Bereitstellung von Llama eingeführt
- Die Llama-Modelle werden als grundlegende Bausteine eines Systems betrachtet, das Entwickler im Hinblick auf ihre jeweils eigenen Endziele entwerfen
- Instruction-Finetuning spielt eine wichtige Rolle, um die Sicherheit des Modells zu gewährleisten
- Die per Instruction-Finetuning angepassten Modelle werden durch interne und externe Maßnahmen einem Red Teaming unterzogen
- Diese Maßnahmen sind iterativ und werden genutzt, um die Sicherheits-Feinabstimmung der veröffentlichten Modelle zu verbessern
- Die Llama-Guard-Modelle bilden die Grundlage für die Sicherheit von Prompts und Antworten und ermöglichen es, je nach Anforderungen der Anwendung leicht neue Klassifizierungen zu erstellen
- Das neue Llama Guard 2 verwendet die kürzlich veröffentlichte MLCommons-Taxonomie zur Unterstützung von Industriestandards
- CyberSecEval 2 erweitert die vorherige Version um Messungen zur Neigung von LLMs, Code-Interpreter auszunutzen, zu offensiven Cybersecurity-Fähigkeiten und zur Anfälligkeit für Prompt-Injection-Angriffe
- Code Shield unterstützt die Filterung unsicheren, von LLMs erzeugten Codes zur Inferenzzeit und mindert damit Risiken im Zusammenhang mit unsicheren Code-Vorschlägen, dem Missbrauch von Code-Interpretern und der Ausführung sicherheitsrelevanter Befehle
Breite Bereitstellung von Llama 3
- Llama 3 wird bald auf wichtigen Plattformen wie Cloud-Anbietern und Modell-API-Anbietern verfügbar sein
- Benchmarks zufolge erzeugt der Tokenizer im Vergleich zu Llama 2 bis zu 15 % weniger Tokens und verbessert damit die Token-Effizienz
- Außerdem wurde Grouped Query Attention (GQA) auch zu Llama 3 8B hinzugefügt
Ausblick für Llama 3
- Die Modelle Llama 3 8B und 70B sind nur der Anfang des Veröffentlichungsplans für Llama 3
- In den kommenden Monaten sollen mehrere Modelle mit neuen Funktionen erscheinen, darunter Multimodalität, mehrsprachige Dialogfähigkeiten, deutlich längere Kontextfenster und insgesamt stärkere Fähigkeiten
- Nach Abschluss des Llama-3-Trainings soll außerdem ein detailliertes Forschungspapier veröffentlicht werden
2 Kommentare
Andere Clouds kenne ich erst mal nicht, aber in Azure AI Studio ist Llama-3 zusammen mit Mixtral 8x22B bereits verfügbar (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct).