- Besteht aus drei Modellen: Scout, Maverick und Behemoth – das erste native multimodale Modell auf Basis offener Gewichte
- Alle Modelle sind multimodal und verstehen Bilder + Text
Llama 4 Scout
- 17B aktive Parameter + 16 Experts
- Unterstützung für 10M Token und Verarbeitung extrem langer Kontexte
- Effizientes leichtgewichtiges Modell, das auf einer einzelnen GPU (H100) laufen kann
- Übertrifft Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
- Starke Leistung bei Bildabgleich, Zusammenfassung mehrerer Dokumente und Analyse großer Codebasen
Llama 4 Maverick
- 17B aktive Parameter + 128 Experts + 400B Gesamtparameter
- Bessere Leistung als GPT-4o und Gemini 2.0 Flash
- Hervorragend in allen Bereichen wie Reasoning, Coding und Bildverständnis
- ELO-Wert von 1417 (laut LMArena)
- Effiziente Kostenstruktur im Verhältnis zur hohen Leistung
Llama 4 Behemoth (Preview)
- 288B aktive Parameter + 16 Experts + rund 2T Gesamtparameter
- Noch im Training, soll aber GPT-4.5, Claude 3.7 und Gemini 2.0 Pro übertreffen
- Wird als Teacher-Modell für das Pretraining von Maverick genutzt
# Technische Merkmale
Mixture-of-Experts-(MoE)-Architektur
- Statt alle Parameter zu verwenden, werden nur einige Experts aktiviert, um die Recheneffizienz zu maximieren
- Realisiert eine Trainingsstruktur mit schneller Inferenz, niedrigen Kosten und hoher Qualität
Native Multimodalität & Early Fusion
- Text- und Bilddaten werden von Beginn an integriert und gemeinsam trainiert
- Es können bis zu 48 Bilder eingegeben werden; Tests wurden erfolgreich mit bis zu 8 Bildern durchgeführt
Verarbeitung extrem langer Kontexte (10M Tokens)
- Das Scout-Modell untersucht mit der Struktur iRoPE (interleaved Rotary Position Embedding) die Möglichkeit eines „unendlichen Kontexts“
- Hervorragende Generalisierung über lange Eingaben bei Text und Code
MetaP- & FP8-Trainingsmethoden
- Neue Hyperparameter-Tuning-Technik für schnelles und effizientes Training
- Hohe FLOPs-Auslastung mit FP8-Präzision (Behemoth: 390 TFLOPs/GPU)
# Post-Processing- und RL-Trainingsstrategie
- Dreistufige Post-Processing-Pipeline aus SFT → Online RL → DPO
- Einfache Daten werden entfernt; trainiert wird mit Fokus auf Prompts mittlerer bis höherer Schwierigkeit
- Einführung einer Strategie für kontinuierliches Online RL: Leistungssteigerung und maximale Trainingseffizienz
# Sicherheit und ethische Überlegungen
Mehrschichtige Schutzstrategie
- Datenfilterung und Moderation in den Vor- und Nachtrainingsphasen
- Llama Guard: Sicherheitsprüfung für Eingaben/Ausgaben
- Prompt Guard: Erkennung von Jailbreaks und Prompt-Injection-Angriffen
- CyberSecEval: Bereitstellung eines Tools zur Bewertung von Sicherheitsrisiken generativer KI
Automatisierung quantitativer Risikoerkennung
- Einführung von GOAT (Generative Offensive Agent Testing)
- Simulation von Szenarien mit Angreifern auf mittlerem Niveau
- Frühzeitige Risikoerkennung durch automatisierte Multi-Turn-Tests
Bemühungen zum Abbau von Bias
- Llama 4 zeigt gegenüber Llama 3 deutlich verbesserte Verzerrungswerte
- Verweigerungsrate bei Antworten von 7 % → unter 2 %
- Antwortungleichgewicht < 1 %
- Wahrung politisch ausgewogener Antworten auf Grok-Niveau
# Hinweise zur Nutzung der Llama-4-Modelle
- Scout und Maverick können beide heruntergeladen und genutzt werden
- Llama 4 in den Meta-AI-Service integriert:
- WhatsApp, Messenger, Instagram DM, meta.ai
# Nächste Termine
- LlamaCon 2025, auf der weitere technische Details und die Vision vorgestellt werden, soll am 29. April stattfinden
2 Kommentare
Scheint eher für APPLE SILICON mit reichlich RAM oder für NPU-basierte Systeme geeignet zu sein. Für den Einsatz auf reinen GPU-Servern ist es etwas schwierig, wenn selbst das Modell mit den Mindestanforderungen in int4-Quantisierung schon ein H100 braucht..
Hacker-News-Meinungen
Überblick über die Llama-4-Modelle:
Llama 4 Scout:
Llama 4 Maverick:
Llama 4 Behemoth (Vorschau):
Sonstiges:
Thread, zusammengefasst von Llama 4 Maverick:
hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000Das mit Scout erzielte Ergebnis war eine völlig unbrauchbare Ausgabe:
hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000Scout wurde auch direkt über Groq ausgeführt, aber die Ausgabelänge war auf 2048 begrenzt:
hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048Die Zusammenfassung eines anderen Modells lag näher am System-Prompt. Zum Beispiel war sie im Vergleich zu Gemini 2.5 Pro deutlich besser:
Das kleinere Scout-Modell ist für Apple Silicon sehr attraktiv. Es ist zwar 109B groß, aber in 16 Experten aufgeteilt. Die eigentliche Verarbeitung erfolgt auf 17B. Auf einem MacBook Pro M4 Max bekam ich bei Fragen an ein lokales 7B-Modell (
qwen 2.5 7B instruct) mit 2k Kontext etwa 60 Token pro Sekunde. Daher könnten 30 Token pro Sekunde erreichbar sein. Die Time-to-First-Token kann aber weiterhin langsam seinDas Modell hat ein 10M-Token-Kontextfenster. Wie gut es bei dieser Größenordnung dem Kontext folgen kann, ist unklar, aber schon allein nicht auf ~32k beschränkt zu sein, ist großartig
Alle großen LLMs haben mit Bias-Problemen zu kämpfen. Besonders bei politischen und gesellschaftlichen Themen neigen sie nach links. Das könnte an der Art der im Internet verfügbaren Trainingsdaten liegen
Der vorgeschlagene Prompt sorgt dafür, dass es nicht so eingeschränkt ist wie bei den Releases von OpenAI:
Der Release erfolgte eine Stunde nach einer anderen Diskussion über Meta:
Verfügbar bei Groq:
Es ist gerade eine sehr spannende Zeit. Es erinnert an die Phase, in der JavaScript-Frameworks explosionsartig zunahmen. Damals fühlte es sich an wie: „Muss ich noch ein weiteres Framework lernen?“ Jetzt schreitet die Innovation wieder schnell voran, und diesmal fühlt es sich wie eine aufregende Reise an, an der wir teilhaben können