22 Punkte von xguru 2024-04-19 | 2 Kommentare | Auf WhatsApp teilen
  • Die ersten beiden Modelle von Llama 3 werden veröffentlicht (vortrainierte sowie per Instruction-Finetuning angepasste 8B- und 70B-Modelle)
  • Sie zeigen in einer breiten Palette von Branchen-Benchmarks eine Performance auf dem neuesten Stand der Technik und bieten neue Fähigkeiten wie verbessertes Reasoning
  • Ziel ist es, die besten offenen Modelle auf dem Niveau der derzeit besten proprietären Modelle zu entwickeln. Entwickler-Feedback soll einfließen, und Releases sollen schnell und häufig erfolgen
  • Einführung neuer Trust-&-Safety-Tools wie Llama Guard 2, Code Shield und CyberSec Eval 2
  • In den kommenden Monaten sollen neue Funktionen, längere Kontextfenster, zusätzliche Modellgrößen und verbesserte Performance folgen; außerdem soll ein Llama-3-Forschungspapier veröffentlicht werden
  • Bald verfügbar bei AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake und weiteren; außerdem Unterstützung auf Hardware-Plattformen von AMD, AWS, Dell, Intel, NVIDIA, Qualcomm und weiteren
  • Meta AI, aufgebaut auf der Llama-3-Technologie, gehört nun zu den weltweit führenden AI-Assistenten und kann die Intelligenz der Nutzer erweitern und ihre Belastung verringern

Performance von Llama 3

  • Die Llama-3-Modelle mit 8B und 70B Parametern stellen gegenüber Llama 2 einen großen Sprung dar und erreichen einen neuen Spitzenwert für LLMs dieser Größenklasse
  • Dank Verbesserungen beim Pre-Training und Post-Training sind die vortrainierten und per Instruction-Finetuning angepassten Modelle die derzeit besten Modelle in den Größenklassen 8B und 70B Parameter
  • Verbesserungen im Post-Training-Verfahren senken die Rate falscher Ablehnungen deutlich, verbessern die Ausrichtung und erhöhen die Vielfalt der Modellantworten
  • Auch Fähigkeiten wie Reasoning, Code-Generierung und das Befolgen von Anweisungen wurden stark verbessert, wodurch Llama 3 besser steuerbar wird (Steerable)
  • Bei der Entwicklung von Llama 3 wurde nicht nur die Modellleistung in Standard-Benchmarks betrachtet, sondern auch die Optimierung für reale Szenarien angestrebt
  • Dafür wurde ein neues hochwertiges menschliches Evaluierungsset mit 1.800 Prompts entwickelt, das 12 zentrale Anwendungsfälle abdeckt
  • Dieses Evaluierungsset zeigt, dass das 70B-Instruct-Modell in realen Szenarien im Vergleich zu konkurrierenden Modellen ähnlicher Größe eine starke Performance liefert
  • Auch das vortrainierte Modell erreicht in dieser Größenklasse einen neuen State of the Art für LLMs
  • Man ist überzeugt, dass für die Entwicklung hervorragender Sprachmodelle Innovation, Skalierung und die Optimierung auf Einfachheit entscheidend sind
  • Über das gesamte Llama-3-Projekt hinweg wurde diese Designphilosophie mit Fokus auf vier Kernelemente umgesetzt: Modellarchitektur, Pre-Training-Daten, Skalierung des Pre-Trainings und Instruction-Finetuning

Modellarchitektur

  • Für Llama 3 wurde eine vergleichsweise standardmäßige Decoder-only-Transformer-Architektur gewählt
  • Im Vergleich zu Llama 2 gibt es einige wichtige Verbesserungen
    • Llama 3 verwendet einen Tokenizer mit einem Vokabular von 128K Tokens, der Sprache deutlich effizienter kodiert und die Modellleistung erheblich verbessert
    • Zur Verbesserung der Inferenz-Effizienz der Llama-3-Modelle wird Grouped Query Attention (GQA) sowohl bei 8B als auch bei 70B eingesetzt
    • Das Modell wurde mit Sequenzen von 8.192 Tokens trainiert, wobei eine Maskierung sicherstellt, dass Self-Attention nicht über Dokumentgrenzen hinausgeht

Trainingsdaten

  • Für das Training der besten Sprachmodelle ist die Kuratierung großer, hochwertiger Trainingsdatensätze von größter Bedeutung
  • Llama 3 wurde mit mehr als 15T Tokens vortrainiert, die aus öffentlich verfügbaren Quellen gesammelt wurden
  • Der Trainingsdatensatz ist siebenmal größer als der für Llama 2 verwendete und enthält viermal mehr Code
  • Zur Vorbereitung auf künftige mehrsprachige Anwendungsfälle bestehen mehr als 5 % des Llama-3-Pre-Training-Datensatzes aus hochwertigen nicht-englischen Daten, die mehr als 30 Sprachen abdecken

Skalierung des Pre-Trainings

  • Um die Pre-Training-Daten in den Llama-3-Modellen effektiv zu nutzen, wurde erheblicher Aufwand in die Skalierung des Pre-Trainings investiert
  • Insbesondere wurde eine Reihe detaillierter Skalierungsgesetze für die Bewertung auf Downstream-Benchmarks entwickelt
  • Diese Skalierungsgesetze ermöglichen fundierte Entscheidungen darüber, wie der optimale Datenmix gewählt und das Trainings-Compute bestmöglich genutzt werden kann

Instruction-Finetuning

  • Um das Potenzial der vortrainierten Modelle für Chat-Anwendungsfälle voll auszuschöpfen, gab es auch Innovationen beim Ansatz für das Instruction-Tuning
  • Der Ansatz für das Post-Training kombiniert Supervised Fine-Tuning (SFT), Rejection Sampling, Proximal Policy Optimization (PPO) und Direct Policy Optimization (DPO)
  • Die Qualität der in SFT verwendeten Prompts und die für PPO und DPO genutzten Präferenz-Rankings haben übergroßen Einfluss auf die Performance der ausgerichteten Modelle

Mit Llama 3 entwickeln

  • Metas Vision ist es, Entwicklern zu ermöglichen, Llama 3 anzupassen, um relevante Anwendungsfälle zu unterstützen, Best Practices leicht zu übernehmen und das offene Ökosystem zu verbessern
  • Mit dieser Veröffentlichung werden neue Trust-&-Safety-Tools eingeführt, darunter aktualisierte Komponenten zusammen mit Llama Guard 2 und Cybersec Eval 2 sowie Code Shield, ein Guardrail zur Inferenzzeit, das von LLMs erzeugten unsicheren Code herausfiltert
  • Llama 3 wurde außerdem zusammen mit torchtune entwickelt, einer neuen PyTorch-nativen Bibliothek, mit der sich LLMs einfach erstellen, feinjustieren und erproben lassen

Systemweiter Ansatz für verantwortungsvolle Entwicklung und Bereitstellung

  • Die Llama-3-Modelle wurden so entwickelt, dass sie maximal hilfreich sind und zugleich einen branchenführenden Ansatz für verantwortungsvolle Bereitstellung gewährleisten
  • Dafür wurde ein neuer systemweiter Ansatz für die verantwortungsvolle Entwicklung und Bereitstellung von Llama eingeführt
  • Die Llama-Modelle werden als grundlegende Bausteine eines Systems betrachtet, das Entwickler im Hinblick auf ihre jeweils eigenen Endziele entwerfen
  • Instruction-Finetuning spielt eine wichtige Rolle, um die Sicherheit des Modells zu gewährleisten
  • Die per Instruction-Finetuning angepassten Modelle werden durch interne und externe Maßnahmen einem Red Teaming unterzogen
  • Diese Maßnahmen sind iterativ und werden genutzt, um die Sicherheits-Feinabstimmung der veröffentlichten Modelle zu verbessern
  • Die Llama-Guard-Modelle bilden die Grundlage für die Sicherheit von Prompts und Antworten und ermöglichen es, je nach Anforderungen der Anwendung leicht neue Klassifizierungen zu erstellen
  • Das neue Llama Guard 2 verwendet die kürzlich veröffentlichte MLCommons-Taxonomie zur Unterstützung von Industriestandards
  • CyberSecEval 2 erweitert die vorherige Version um Messungen zur Neigung von LLMs, Code-Interpreter auszunutzen, zu offensiven Cybersecurity-Fähigkeiten und zur Anfälligkeit für Prompt-Injection-Angriffe
  • Code Shield unterstützt die Filterung unsicheren, von LLMs erzeugten Codes zur Inferenzzeit und mindert damit Risiken im Zusammenhang mit unsicheren Code-Vorschlägen, dem Missbrauch von Code-Interpretern und der Ausführung sicherheitsrelevanter Befehle

Breite Bereitstellung von Llama 3

  • Llama 3 wird bald auf wichtigen Plattformen wie Cloud-Anbietern und Modell-API-Anbietern verfügbar sein
  • Benchmarks zufolge erzeugt der Tokenizer im Vergleich zu Llama 2 bis zu 15 % weniger Tokens und verbessert damit die Token-Effizienz
  • Außerdem wurde Grouped Query Attention (GQA) auch zu Llama 3 8B hinzugefügt

Ausblick für Llama 3

  • Die Modelle Llama 3 8B und 70B sind nur der Anfang des Veröffentlichungsplans für Llama 3
  • In den kommenden Monaten sollen mehrere Modelle mit neuen Funktionen erscheinen, darunter Multimodalität, mehrsprachige Dialogfähigkeiten, deutlich längere Kontextfenster und insgesamt stärkere Fähigkeiten
  • Nach Abschluss des Llama-3-Trainings soll außerdem ein detailliertes Forschungspapier veröffentlicht werden

2 Kommentare

 
dormis 2024-04-19

Andere Clouds kenne ich erst mal nicht, aber in Azure AI Studio ist Llama-3 zusammen mit Mixtral 8x22B bereits verfügbar (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct).