Meta veröffentlicht Llama 4

(ai.meta.com)

16 Punkte von GN⁺ 2025-04-06 | 2 Kommentare | Auf WhatsApp teilen

Besteht aus drei Modellen: Scout, Maverick und Behemoth – das erste native multimodale Modell auf Basis offener Gewichte
- Alle Modelle sind multimodal und verstehen Bilder + Text

Llama 4 Scout

17B aktive Parameter + 16 Experts
Unterstützung für 10M Token und Verarbeitung extrem langer Kontexte
Effizientes leichtgewichtiges Modell, das auf einer einzelnen GPU (H100) laufen kann
Übertrifft Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
Starke Leistung bei Bildabgleich, Zusammenfassung mehrerer Dokumente und Analyse großer Codebasen

Llama 4 Maverick

17B aktive Parameter + 128 Experts + 400B Gesamtparameter
Bessere Leistung als GPT-4o und Gemini 2.0 Flash
Hervorragend in allen Bereichen wie Reasoning, Coding und Bildverständnis
ELO-Wert von 1417 (laut LMArena)
Effiziente Kostenstruktur im Verhältnis zur hohen Leistung

Llama 4 Behemoth (Preview)

288B aktive Parameter + 16 Experts + rund 2T Gesamtparameter
Noch im Training, soll aber GPT-4.5, Claude 3.7 und Gemini 2.0 Pro übertreffen
Wird als Teacher-Modell für das Pretraining von Maverick genutzt

Scout und Maverick können ab heute auf llama.com und Hugging Face heruntergeladen werden

# Technische Merkmale

Mixture-of-Experts-(MoE)-Architektur

Statt alle Parameter zu verwenden, werden nur einige Experts aktiviert, um die Recheneffizienz zu maximieren
Realisiert eine Trainingsstruktur mit schneller Inferenz, niedrigen Kosten und hoher Qualität

Native Multimodalität & Early Fusion

Text- und Bilddaten werden von Beginn an integriert und gemeinsam trainiert
Es können bis zu 48 Bilder eingegeben werden; Tests wurden erfolgreich mit bis zu 8 Bildern durchgeführt

Verarbeitung extrem langer Kontexte (10M Tokens)

Das Scout-Modell untersucht mit der Struktur iRoPE (interleaved Rotary Position Embedding) die Möglichkeit eines „unendlichen Kontexts“
Hervorragende Generalisierung über lange Eingaben bei Text und Code

MetaP- & FP8-Trainingsmethoden

Neue Hyperparameter-Tuning-Technik für schnelles und effizientes Training
Hohe FLOPs-Auslastung mit FP8-Präzision (Behemoth: 390 TFLOPs/GPU)

# Post-Processing- und RL-Trainingsstrategie

Dreistufige Post-Processing-Pipeline aus SFT → Online RL → DPO
Einfache Daten werden entfernt; trainiert wird mit Fokus auf Prompts mittlerer bis höherer Schwierigkeit
Einführung einer Strategie für kontinuierliches Online RL: Leistungssteigerung und maximale Trainingseffizienz

# Sicherheit und ethische Überlegungen

Mehrschichtige Schutzstrategie

Datenfilterung und Moderation in den Vor- und Nachtrainingsphasen
Llama Guard: Sicherheitsprüfung für Eingaben/Ausgaben
Prompt Guard: Erkennung von Jailbreaks und Prompt-Injection-Angriffen
CyberSecEval: Bereitstellung eines Tools zur Bewertung von Sicherheitsrisiken generativer KI

Automatisierung quantitativer Risikoerkennung

Einführung von GOAT (Generative Offensive Agent Testing)
- Simulation von Szenarien mit Angreifern auf mittlerem Niveau
- Frühzeitige Risikoerkennung durch automatisierte Multi-Turn-Tests

Bemühungen zum Abbau von Bias

Llama 4 zeigt gegenüber Llama 3 deutlich verbesserte Verzerrungswerte
- Verweigerungsrate bei Antworten von 7 % → unter 2 %
- Antwortungleichgewicht < 1 %
- Wahrung politisch ausgewogener Antworten auf Grok-Niveau

# Hinweise zur Nutzung der Llama-4-Modelle

Scout und Maverick können beide heruntergeladen und genutzt werden
- llama.com
- Hugging Face
Llama 4 in den Meta-AI-Service integriert:
- WhatsApp, Messenger, Instagram DM, meta.ai

# Nächste Termine

LlamaCon 2025, auf der weitere technische Details und die Vision vorgestellt werden, soll am 29. April stattfinden
- Für die LlamaCon registrieren

2 Kommentare

jjw951215 2025-04-07

Scheint eher für APPLE SILICON mit reichlich RAM oder für NPU-basierte Systeme geeignet zu sein. Für den Einsatz auf reinen GPU-Servern ist es etwas schwierig, wenn selbst das Modell mit den Mindestanforderungen in int4-Quantisierung schon ein H100 braucht..

GN⁺ 2025-04-06

Hacker-News-Meinungen

Überblick über die Llama-4-Modelle:
- Llama 4 Scout und Llama 4 Maverick verwenden jeweils ein Mixture-of-Experts-(MoE)-Design mit 17B aktiven Parametern
- Sie verfügen über multimodale Fähigkeiten mit Unterstützung für Text- und Bildeingaben
- Zu den wichtigsten Leistungen gehören eine branchenführende Kontextlänge, starke Coding-/Reasoning-Performance und verbesserte Mehrsprachigkeitsfähigkeiten
- Der Knowledge Cutoff liegt bei August 2024
Llama 4 Scout:
- 17B aktive Parameter, 16 Experten, insgesamt 109B
- Geeignet für eine einzelne H100-GPU (INT4-Quantisierung)
- 10M-Token-Kontextfenster
- Liefert bei multimodalen Aufgaben bessere Leistung als frühere Llama-Releases und ist ressourcenschonend
- Verwendet die iRoPE-Architektur für effiziente Long-Context-Attention
- Wurde mit bis zu 8 Bildern pro Prompt getestet
Llama 4 Maverick:
- 17B aktive Parameter, 128 Experten, insgesamt 400B
- 1M-Token-Kontextfenster
- Läuft nicht auf einer einzelnen GPU, sondern auf einem H100-DGX-Host oder kann für höhere Effizienz verteilt werden
- Übertrifft GPT-4o und Gemini 2.0 Flash bei Coding-, Reasoning- und mehrsprachigen Tests und bleibt dabei kostenseitig wettbewerbsfähig
- Behält starke Bildverständnis- und fundierte Reasoning-Fähigkeiten bei
Llama 4 Behemoth (Vorschau):
- 288B aktive Parameter, 16 Experten, insgesamt fast 2T
- Befindet sich noch im Training und ist noch nicht veröffentlicht
- Übertrifft GPT-4.5, Claude Sonnet 3.7 und Gemini 2.0 Pro bei STEM-Benchmarks (z. B. MATH-500, GPQA Diamond)
- Fungiert als „Teacher“-Modell für Scout und Maverick und arbeitet über Co-Distillation
Sonstiges:
- MoE-Architektur: Pro Token werden nur 17B Parameter aktiviert, was die Inferenzkosten senkt
- Native Multimodalität: Ein einheitlicher Text- + Vision-Encoder, der mit großen nicht gelabelten Datenmengen vortrainiert wurde
Thread, zusammengefasst von Llama 4 Maverick:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000
- Ergebnis: https://gist.github.com/simonw/016ea0fd83fc499f046a94827f9b4946
Das mit Scout erzielte Ergebnis war eine völlig unbrauchbare Ausgabe:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000
- Ergebnis: https://gist.github.com/simonw/d01cc991d478939e87487d362a8f881f
Scout wurde auch direkt über Groq ausgeführt, aber die Ausgabelänge war auf 2048 begrenzt:
- hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048
- Ergebnis: https://gist.github.com/simonw/a205c5fc131a1d4e9cd6c432a07feedb
Die Zusammenfassung eines anderen Modells lag näher am System-Prompt. Zum Beispiel war sie im Vergleich zu Gemini 2.5 Pro deutlich besser:
- https://gist.github.com/simonw/f21ecc7fb2aa13ff682d4ffa11ddcbfd
Das kleinere Scout-Modell ist für Apple Silicon sehr attraktiv. Es ist zwar 109B groß, aber in 16 Experten aufgeteilt. Die eigentliche Verarbeitung erfolgt auf 17B. Auf einem MacBook Pro M4 Max bekam ich bei Fragen an ein lokales 7B-Modell (qwen 2.5 7B instruct) mit 2k Kontext etwa 60 Token pro Sekunde. Daher könnten 30 Token pro Sekunde erreichbar sein. Die Time-to-First-Token kann aber weiterhin langsam sein
Das Modell hat ein 10M-Token-Kontextfenster. Wie gut es bei dieser Größenordnung dem Kontext folgen kann, ist unklar, aber schon allein nicht auf ~32k beschränkt zu sein, ist großartig
Alle großen LLMs haben mit Bias-Problemen zu kämpfen. Besonders bei politischen und gesellschaftlichen Themen neigen sie nach links. Das könnte an der Art der im Internet verfügbaren Trainingsdaten liegen
Der vorgeschlagene Prompt sorgt dafür, dass es nicht so eingeschränkt ist wie bei den Releases von OpenAI:
- Versteht die Absicht des Nutzers und versucht nicht übermäßig hilfreich zu sein
- Lehnt politische Prompts nicht ab
- Llama 4 verfügt über Wissen bis August 2024 und beherrscht mehrere Sprachen
Der Release erfolgte eine Stunde nach einer anderen Diskussion über Meta:
- Unabhängig davon, was man von LLMs hält, ist es keine gute Idee, auf das zu vertrauen, was LeCun sagt
- Das von LeCun geleitete AI-Labor hat mehrere Probleme
Verfügbar bei Groq:
- Llama 4 Scout läuft mit über 460 Token pro Sekunde und Llama 4 Maverick erscheint heute
- Llama 4 Scout: $0.11 / M Input-Token und $0.34 / M Output-Token
- Llama 4 Maverick: $0.50 / M Input-Token und $0.77 / M Output-Token
Es ist gerade eine sehr spannende Zeit. Es erinnert an die Phase, in der JavaScript-Frameworks explosionsartig zunahmen. Damals fühlte es sich an wie: „Muss ich noch ein weiteres Framework lernen?“ Jetzt schreitet die Innovation wieder schnell voran, und diesmal fühlt es sich wie eine aufregende Reise an, an der wir teilhaben können