Meta veröffentlicht das Sprachmodell Llama 3
(llama.meta.com)- Metas Llama-Seite stellt die Llama-Modellfamilie als Open-Source-KI vor, die auf einfache Bereitstellung, Kosteneffizienz, Leistung und Skalierung auf große Nutzerzahlen ausgelegt ist, und behandelt sowohl Llama 4 als auch die Llama-3-Reihe
- Llama 4 Maverick und Llama 4 Scout sind native multimodale Modelle auf Basis von Early Fusion, die Text- und Vision-Token gemeinsam vortrainieren; beide werben mit einem Kontext von 10M Token
- Die Llama-3-Reihe ist in 3.1, 3.2 und 3.3 unterteilt und bietet je nach Größe und Einsatzzweck — Text, Edge und Multimodalität — Optionen wie 8B, 70B, 405B, 1B, 3B, 11B, 90B und 70B
- Die Leistungsvergleiche umfassen MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi, MTOB und weitere; Llama 4 Maverick erreicht MMLU Pro 80,5, Scout 74,3
- In den Fällen von Stoque und Shopify werden Einführungsergebnisse wie 50 % weniger wiederholte Supportanfragen, 11 % höhere interne Zufriedenheit, 76 % höherer Token-Durchsatz und 33 % geringere Compute-Kosten durch JSON-Ausgaben genannt
Llama-Modellfamilie und Optionen nach Version
- Llama ist eine Modellfamilie, mit der sich Lösungen nach den eigenen Anforderungen aufbauen lassen; sie zielt auf einfache Bereitstellung, Kosteneffizienz, Leistung und Skalierung auf Milliarden Nutzer ab
- Die wichtigsten Schwerpunkte der neuesten Llama-Modelle sind native Multimodalität, fortgeschrittenes Reasoning und lange Kontextfenster
- Modellkarten und Prompt-Formate sind unter Model overview zu finden
-
Llama 4: native Multimodalität und 10M-Kontext
- Llama 4 ist eine Familie nativer multimodaler Modelle, die per Early Fusion unbeschriftete Text- und Vision-Daten gemeinsam vortrainiert
- Llama 4 Maverick unterstützt das Verstehen von Bildern und Text und verarbeitet mit einem Kontext von 10M Token Aufgaben in langen Formaten
- Memory, Personalisierung und multimodale Anwendungen sind die wichtigsten Einsatzbereiche
- Llama 4 Scout ist ein Modell für Text- und visuelle Intelligenz und hebt die Effizienz auf einer einzelnen H100-GPU sowie ein 10M-Kontextfenster hervor
- Als wichtiger Anwendungsfall für Scout wird die Analyse langer Dokumente genannt
- Details bietet die Llama-4-Modelldokumentation
-
Llama 3: Modellfamilie nach Größe und Einsatzzweck
- Llama 3 ist eine Open-Source-KI-Modellfamilie, die Fine-Tuning, Distillation und Bereitstellung überall ermöglicht
- Llama 3.3 ist ein mehrsprachiges Open-Source-LLM, das als 70B-Modell verfügbar ist; es soll Leistung und Qualität auf dem Niveau von 405B zu geringeren Kosten bieten
- Es ist auf textbasierte Anwendungsfälle wie die Erzeugung synthetischer Daten ausgerichtet; Details gibt es in der Llama-3.3-Modelldokumentation
- Llama 3.2 ist eine flexible und kosteneffiziente Modellfamilie für Edge-Anwendungen
- 1B und 3B sind leichtgewichtig und kosteneffizient, sodass sie überall laufen können
- 11B und 90B sind multimodale Modelle, die hochauflösende Bilder auswerten und Text ausgeben können
- Details bietet die Llama-3.2-Modelldokumentation
- Llama 3.1 ist ein offenes Foundation Model für Flexibilität und Kontrolle und ist in den Größen 8B, 70B und 405B verfügbar
- Es umfasst Fähigkeiten in Allgemeinwissen, Anpassbarkeit, Mathematik, Tool-Nutzung und mehrsprachiger Übersetzung und wird für Textzusammenfassung, mehrsprachige Agenten und Coding eingesetzt
- Details sind in der Llama-3.1-Modelldokumentation verfügbar
Leistungskennzahlen und reale Einführungsergebnisse
-
Llama-4-Benchmarks und Bewertungsbedingungen
- Die Fähigkeiten von Llama 4 werden als native Multimodalität, langer Kontext und Image Grounding zusammengefasst
- Alle Llama-4-Modelle nutzen Early Fusion, um große Mengen unbeschrifteter Text- und Vision-Token gemeinsam vortrainieren zu können
- Die Benchmarks vergleichen Llama 4 Maverick und Llama 4 Scout
- Reasoning: MMLU Pro liegt bei Maverick bei 80,5 und bei Scout bei 74,3; GPQA Diamond bei Maverick bei 69,8 und bei Scout bei 57,2
- Coding: LiveCodeBench liegt bei Maverick bei 43,4 und bei Scout bei 32,8
- Multimodale Bilder: MMMU liegt bei Maverick bei 73,4 und bei Scout bei 69,4, ChartQA bei Maverick bei 90,0 und bei Scout bei 88,8, DocVQA bei beiden bei 94,4
- Mehrsprachigkeit: MMLU Multi liegt bei Maverick bei 84,6 und bei Scout bei 74,3
- Langer Kontext: MTOB Half Book liegt bei Maverick bei 54,0 / 46,4 und bei Scout bei 42,2 / 36,6; MTOB Full Book bei Maverick bei 50,8 / 46,7 und bei Scout bei 39,7 / 36,3
- Effizienz: Die Kosten pro 1M Token werden für beide mit $0.19–$0.49 angegeben
- Laut Methodik und Anmerkungen sind die Llama-Ergebnisse 0-Shot-Bewertungen bei Temperature 0 und verwenden weder Majority Voting noch paralleles Test-Time-Compute
- Bei Benchmarks mit hoher Varianz wie GPQA Diamond und LiveCodeBench werden mehrere Generierungsergebnisse gemittelt, um die Unsicherheit zu reduzieren
- Da spezialisierte Bewertungen für langen Kontext bei allgemeinen Modellen traditionell nicht berichtet werden, werden interne Ausführungsergebnisse geteilt
- Die Kosten von $0.19/Mtok für Llama 4 Maverick sind eine 3:1-Blended-Schätzung unter der Annahme verteilter Inferenz; auf einem einzelnen Host werden voraussichtlich $0.30–$0.49/Mtok möglich sein
-
Anwendungsfälle von Stoque und Shopify
- Stoque hat seine interne Intelligence mit Llama umgestellt, damit Teams Insights schneller finden, Reibung reduzieren und in großem Maßstab effizienter arbeiten können
- Wiederholte Supportanfragen gingen um 50 % zurück, und der Abschluss von Verwaltungs- und Supportaufgaben stieg um 30 %
- Die Zufriedenheit interner Nutzer stieg um 11 %
- Shopify nutzt Llama für die Erstellung von Produktseiten, die Lokalisierung von Inhalten und die Automatisierung des Supports
- Gegenüber dem vorherigen Modell ist der Token-Durchsatz um 76 % höher, und bei der Intent-Erkennung wird eine Macro-F1-Genauigkeit von 97,7 % erreicht
- Durch JSON-Ausgaben werden die Compute-Kosten um 33 % reduziert
- Schutzmechanismen für generative KI identifizieren und mindern potenzielle Risiken proaktiv durch Schutz auf Systemebene und helfen Entwicklern, generative KI verantwortungsvoller bereitzustellen
1 Kommentare
Meinungen auf Hacker News
Nützliche Links: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
Meta hat auch eine Konsole veröffentlicht: https://www.meta.ai/
Außerdem wurde die Integration von Meta AI in die gesamte Meta-Produktpalette angekündigt: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
Da allerdings kein Vergleich mit GPT-4-Turbo oder Claude Opus enthalten ist, scheint es noch ein gutes Stück von den Frontier-Modellen entfernt zu sein; man muss sehen, wie es in der LLM Arena abschneidet.
Große Unterschiede dürften wahrscheinlich nur bei sehr schwierigen Reasoning-Benchmarks auftreten. Da Llama offene Gewichte hat, wird es im Gegensatz zu Opus viele Fine-Tunings und LoRAs geben.
Wenn Staaten und Großunternehmen statt viel Geld in GPUs zum Trainieren eigener Modelle zu stecken Llama-3/Llama-4 nutzen, könnte das die Wachstumserwartungen für GPUs dämpfen; OpenAI hätte ein schwächeres Argument für eine Finanzierung über 100 Milliarden Dollar, und Googles KI-Vorsprung würde unschärfer. AMD und Intel könnten sich darauf konzentrieren, KI-Inferenzchips zu entwickeln, statt Nvidias Trainings-GPUs einzuholen.
Die größten Modelle mit über 400B Parametern befinden sich demnach noch im Training; in den kommenden Monaten sollen mehrere Modelle mit Multimodalität, mehrsprachiger Konversation, deutlich längeren Kontextfenstern und insgesamt stärkeren Fähigkeiten veröffentlicht werden.
Öffentliche Benchmarks sind als grobe Indikatoren nützlich, aber Entwickler sollten Custom Benchmarks ausführen, die auf ihren eigenen Use Case zugeschnitten sind.
Replicate hat schnell eine Llama-3-API bereitgestellt https://replicate.com/blog/run-llama-3-with-an-api, und mit promptfoo https://github.com/typpo/promptfoo lassen sich Llama 3, Mixtral, GPT, Claude usw. vergleichen. Beispielsweise kann man Replicates
meta/meta-llama-3-8b-instruct,meta/meta-llama-3-70b-instruct, OpenAIsgpt-4-turbo, Anthropicsclaude-3-opus-20240229usw. mit denselben Prompts evaluieren.Ich teste noch, aber bei einem Satz zufälliger Programmierfragen wirkt Llama 3 8B ziemlich gut. Auch ollama unterstützt jetzt Llama 3 8B, sodass lokale Evaluierungen mit
ollama:chat:llama3einfach sind.Ein guter Test ist einfach, prüft aber die tatsächliche Anwendung, etwa das Lösen einer quadratischen Gleichung für zufällige a, b, c. Es ist ein Algorithmus, den wohl alle Modelle kennen, und trotzdem machen sie Fehler; danach tun sie manchmal so, als hätten sie verifiziert, und wiederholen die falsche Antwort. Auch LLAMA 3 behauptete nach mehreren Hinweisen auf Fehler, es habe „die korrekte Lösung gefunden und auf mehrere Arten verifiziert“, aber die tatsächliche Lösung war wie am Anfang falsch, und es gab auch keinen Verifizierungsversuch.
assistantangehängt wurde, aber jetzt sollte es funktionieren.Es lässt sich mit
ollama run llama3ausführen; verschiedene quantisierte Versionen sowie das Text-/70B-Modell werden ebenfalls gerade hochgeladen.Llama 3 70B ist auf der bekannten LMSYS-Chatbot-Arena-Rangliste auf Platz 5 eingestiegen, gleichauf mit Claude 2 Sonnet, Bard (Gemini Pro) und Command R+ sowie vor Claude 2 Haiku und früheren GPT-4-Versionen.
Die Unsicherheit der Werte ist noch groß, daher wird man die genaue Platzierung erst mit der Zeit sehen, und sie kann sich noch ändern. Llama 3 8B liegt auf Platz 12, gleichauf mit Claude 1, Mixtral 8x22B und Qwen-1.5-72B. Die aktuelle Rangliste ist unter https://arena.lmsys.org/ verfügbar.
Auf der rein englischen Rangliste ist es noch beeindruckender, weil Llama 3 70B zusammen mit GPT-4 und Claude Opus in der Spitzengruppe bleibt. Das könnte auch daran liegen, dass das Safety-Tuning weniger stark ist als zuvor und dadurch weniger Prompts abgelehnt werden, aber praktisch ist es trotzdem eine nützliche Verbesserung. Bei diesem Tempo dürfte das 400B-Modell praktisch dominieren.
Ich habe es chinesischen Rap erzeugen lassen; das Ergebnis war ziemlich ordentlich, aber direkt nach Abschluss wurde die Antwort gelöscht und durch den Hinweis ersetzt, dass es Chinesisch noch nicht verstehe, aber daran arbeite und eine Nachricht senden werde, sobald Gespräche auf Chinesisch möglich sind.
Bei anderen Sprachen ist es genauso: Nicht-englische Generierung funktioniert, aber am Ende wird die Antwort entfernt und durch denselben Hinweis ersetzt.
Im Blog stehen viele gute Details: https://ai.meta.com/blog/meta-llama-3/
Auch eine 400B-Version soll kommen, und es sieht so aus, als würde sie deutlich besser werden als GPT-4 und Claude Opus. Dezentralisierung und offene Software sind im Aufwind
Natürlich handelt es sich beim Benchmark um einen Zwischen-Checkpoint, und das Training läuft noch weiter
Man sollte Benchmarks nicht blind vertrauen, aber es gibt keine Behauptung, dass es GPT-4 oder Opus übertrifft. Da es ein Zwischen-Checkpoint ist, besteht die Möglichkeit, dass es künftig vorbeizieht
Und Open Source ist es auch nicht
Ich bin Zuck, Yann und dem Meta-Team wirklich dankbar, dass sie einen offenen Ansatz gewählt haben und Modellgewichte, Tokenizer, Informationen zu Trainingsdaten usw. teilen
Sie sind der größte Treiber der Explosion offener Forschung, die es über Projekte wie llama.cpp ermöglicht hat, auf Consumer-Hardware lokal ziemlich gute Modelle auszuführen und Zensur oder Kontrolle zu umgehen
Nicht, dass ich Anfragen stellen will, die von OpenAI oder Anthropic blockiert würden, aber ich mag es nicht, wenn so mächtige Technologie hinter Mauern liegt und Gatekeeper kontrollieren, wie sie genutzt wird. Es gibt viele Menschen und Unternehmen, die an Offenheit glauben, aber wenn jemand mit Hunderten Milliarden Dollar Kapital, nachhaltigem Cashflow und GPUs im Wert von Milliarden Dollar so handelt, ist der Einfluss viel größer. Zuck hätte diesen Weg nicht wählen müssen, und wenn ein professioneller HBS-/McKinsey-Manager Facebook führen würde, wäre es sehr wahrscheinlich nicht so offen geblieben. Wir alle profitieren enorm davon, dass sie die Kronjuwelen nicht unter dem Vorwand von KI-Sicherheitsrisiken hinter einer zentralisierten API versteckt haben
Das ist die Strategie, über die Joel Spolsky früher gesprochen hat; wobei nicht ganz klar ist, welche Komplemente zu KI-Modellen Meta genau verkaufen kann. Trotzdem wirkt es eindeutig wie eine strategische Entscheidung in irgendeiner Form
An Zuck gibt es vieles zu kritisieren, aber fehlende Ernsthaftigkeit gegenüber der Mission gehört nicht dazu
Es freut mich zu sehen, dass Meta hier die Fackel weiterträgt, und ich hoffe, dass das so bleibt
Da es keinen direkten Vergleich mit GPT-4 im kostenpflichtigen ChatGPT Plus gab, habe ich die Zahlen abgeglichen
Für Llama 3 8B / Llama 3 70B / GPT-4 liegen die Werte bei MMLU bei 68.4 / 82.0 / 86.5, bei GPQA bei 34.2 / 39.5 / 49.1, bei MATH bei 30.0 / 50.4 / 72.2, bei HumanEval bei 62.2 / 81.7 / 87.6 und bei DROP bei 58.4 / 79.7 / 85.4
Das kostenlose ChatGPT, das die meisten nutzen, basiert auf GPT-3.5, das deutlich schwächer ist als GPT-4. Umfassende Evaluierungswerte für das neueste GPT-3.5 konnte ich nicht finden, aber Llama 3 70B dürfte es locker schlagen, und 8B dürfte ihm wohl nahekommen. Dass man ein Modell dieser Größenordnung lokal ausführen und verändern kann, ist sehr spannend. Die GPT-4-Werte beziehen sich auf
gpt-4-turbo-2024-04-09 (chatgpt)aus https://github.com/openai/simple-evalsFür Llama 3 400B Base / Instruct sind es bei MMLU 84.8 / 86.1, bei GPQA - / 48.0, bei MATH - / 57.8, bei HumanEval - / 84.1 und bei DROP 83.5 / -
Falls jemand es zum Programmieren in der IDE ausprobieren möchte: Ich habe Llama 3 70B zum Coding-Assistenten https://www.double.bot hinzugefügt
Es gibt auch ein Zuck-Interview: https://twitter.com/dwarkesh_sp/status/1780990840179187715
Damals habe er sicherheitshalber die doppelte Menge des benötigten Bedarfs beschafft, und dadurch wurde Meta zufällig zu einem der wenigen Unternehmen mit genug GPU-Kapazität, um LLMs dieser Größenordnung zu trainieren
In der Model Card gibt es Benchmark-Ergebnisse im Vergleich zu anderen Llama-Modellen, einschließlich Llama 2: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
Die Leistungssteigerung von Llama 3 gegenüber Llama 2 ist dramatisch und beeindruckend. Das gilt selbst im Vergleich zu Llama 2 13B, und dass das Kontextfenster auf 8k verdoppelt wurde, dürfte viele neue Möglichkeiten eröffnen.
Trotzdem sind die veröffentlichten Leistungskennzahlen beeindruckend, und es ist lobenswert, dass Meta diese Modelle veröffentlicht hat.