16 Punkte von GN⁺ 2025-04-06 | 2 Kommentare | Auf WhatsApp teilen
  • Besteht aus drei Modellen: Scout, Maverick und Behemoth – das erste native multimodale Modell auf Basis offener Gewichte
    • Alle Modelle sind multimodal und verstehen Bilder + Text

Llama 4 Scout

  • 17B aktive Parameter + 16 Experts
  • Unterstützung für 10M Token und Verarbeitung extrem langer Kontexte
  • Effizientes leichtgewichtiges Modell, das auf einer einzelnen GPU (H100) laufen kann
  • Übertrifft Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
  • Starke Leistung bei Bildabgleich, Zusammenfassung mehrerer Dokumente und Analyse großer Codebasen

Llama 4 Maverick

  • 17B aktive Parameter + 128 Experts + 400B Gesamtparameter
  • Bessere Leistung als GPT-4o und Gemini 2.0 Flash
  • Hervorragend in allen Bereichen wie Reasoning, Coding und Bildverständnis
  • ELO-Wert von 1417 (laut LMArena)
  • Effiziente Kostenstruktur im Verhältnis zur hohen Leistung

Llama 4 Behemoth (Preview)

  • 288B aktive Parameter + 16 Experts + rund 2T Gesamtparameter
  • Noch im Training, soll aber GPT-4.5, Claude 3.7 und Gemini 2.0 Pro übertreffen
  • Wird als Teacher-Modell für das Pretraining von Maverick genutzt

# Technische Merkmale

Mixture-of-Experts-(MoE)-Architektur

  • Statt alle Parameter zu verwenden, werden nur einige Experts aktiviert, um die Recheneffizienz zu maximieren
  • Realisiert eine Trainingsstruktur mit schneller Inferenz, niedrigen Kosten und hoher Qualität

Native Multimodalität & Early Fusion

  • Text- und Bilddaten werden von Beginn an integriert und gemeinsam trainiert
  • Es können bis zu 48 Bilder eingegeben werden; Tests wurden erfolgreich mit bis zu 8 Bildern durchgeführt

Verarbeitung extrem langer Kontexte (10M Tokens)

  • Das Scout-Modell untersucht mit der Struktur iRoPE (interleaved Rotary Position Embedding) die Möglichkeit eines „unendlichen Kontexts“
  • Hervorragende Generalisierung über lange Eingaben bei Text und Code

MetaP- & FP8-Trainingsmethoden

  • Neue Hyperparameter-Tuning-Technik für schnelles und effizientes Training
  • Hohe FLOPs-Auslastung mit FP8-Präzision (Behemoth: 390 TFLOPs/GPU)

# Post-Processing- und RL-Trainingsstrategie

  • Dreistufige Post-Processing-Pipeline aus SFT → Online RL → DPO
  • Einfache Daten werden entfernt; trainiert wird mit Fokus auf Prompts mittlerer bis höherer Schwierigkeit
  • Einführung einer Strategie für kontinuierliches Online RL: Leistungssteigerung und maximale Trainingseffizienz

# Sicherheit und ethische Überlegungen

Mehrschichtige Schutzstrategie

  • Datenfilterung und Moderation in den Vor- und Nachtrainingsphasen
  • Llama Guard: Sicherheitsprüfung für Eingaben/Ausgaben
  • Prompt Guard: Erkennung von Jailbreaks und Prompt-Injection-Angriffen
  • CyberSecEval: Bereitstellung eines Tools zur Bewertung von Sicherheitsrisiken generativer KI

Automatisierung quantitativer Risikoerkennung

  • Einführung von GOAT (Generative Offensive Agent Testing)
    • Simulation von Szenarien mit Angreifern auf mittlerem Niveau
    • Frühzeitige Risikoerkennung durch automatisierte Multi-Turn-Tests

Bemühungen zum Abbau von Bias

  • Llama 4 zeigt gegenüber Llama 3 deutlich verbesserte Verzerrungswerte
    • Verweigerungsrate bei Antworten von 7 % → unter 2 %
    • Antwortungleichgewicht < 1 %
    • Wahrung politisch ausgewogener Antworten auf Grok-Niveau

# Hinweise zur Nutzung der Llama-4-Modelle

  • Scout und Maverick können beide heruntergeladen und genutzt werden
  • Llama 4 in den Meta-AI-Service integriert:
    • WhatsApp, Messenger, Instagram DM, meta.ai

# Nächste Termine

2 Kommentare

 
jjw951215 2025-04-07

Scheint eher für APPLE SILICON mit reichlich RAM oder für NPU-basierte Systeme geeignet zu sein. Für den Einsatz auf reinen GPU-Servern ist es etwas schwierig, wenn selbst das Modell mit den Mindestanforderungen in int4-Quantisierung schon ein H100 braucht..

 
GN⁺ 2025-04-06
Hacker-News-Meinungen
  • Überblick über die Llama-4-Modelle:

    • Llama 4 Scout und Llama 4 Maverick verwenden jeweils ein Mixture-of-Experts-(MoE)-Design mit 17B aktiven Parametern
    • Sie verfügen über multimodale Fähigkeiten mit Unterstützung für Text- und Bildeingaben
    • Zu den wichtigsten Leistungen gehören eine branchenführende Kontextlänge, starke Coding-/Reasoning-Performance und verbesserte Mehrsprachigkeitsfähigkeiten
    • Der Knowledge Cutoff liegt bei August 2024
  • Llama 4 Scout:

    • 17B aktive Parameter, 16 Experten, insgesamt 109B
    • Geeignet für eine einzelne H100-GPU (INT4-Quantisierung)
    • 10M-Token-Kontextfenster
    • Liefert bei multimodalen Aufgaben bessere Leistung als frühere Llama-Releases und ist ressourcenschonend
    • Verwendet die iRoPE-Architektur für effiziente Long-Context-Attention
    • Wurde mit bis zu 8 Bildern pro Prompt getestet
  • Llama 4 Maverick:

    • 17B aktive Parameter, 128 Experten, insgesamt 400B
    • 1M-Token-Kontextfenster
    • Läuft nicht auf einer einzelnen GPU, sondern auf einem H100-DGX-Host oder kann für höhere Effizienz verteilt werden
    • Übertrifft GPT-4o und Gemini 2.0 Flash bei Coding-, Reasoning- und mehrsprachigen Tests und bleibt dabei kostenseitig wettbewerbsfähig
    • Behält starke Bildverständnis- und fundierte Reasoning-Fähigkeiten bei
  • Llama 4 Behemoth (Vorschau):

    • 288B aktive Parameter, 16 Experten, insgesamt fast 2T
    • Befindet sich noch im Training und ist noch nicht veröffentlicht
    • Übertrifft GPT-4.5, Claude Sonnet 3.7 und Gemini 2.0 Pro bei STEM-Benchmarks (z. B. MATH-500, GPQA Diamond)
    • Fungiert als „Teacher“-Modell für Scout und Maverick und arbeitet über Co-Distillation
  • Sonstiges:

    • MoE-Architektur: Pro Token werden nur 17B Parameter aktiviert, was die Inferenzkosten senkt
    • Native Multimodalität: Ein einheitlicher Text- + Vision-Encoder, der mit großen nicht gelabelten Datenmengen vortrainiert wurde
  • Thread, zusammengefasst von Llama 4 Maverick:

  • Das mit Scout erzielte Ergebnis war eine völlig unbrauchbare Ausgabe:

  • Scout wurde auch direkt über Groq ausgeführt, aber die Ausgabelänge war auf 2048 begrenzt:

  • Die Zusammenfassung eines anderen Modells lag näher am System-Prompt. Zum Beispiel war sie im Vergleich zu Gemini 2.5 Pro deutlich besser:

  • Das kleinere Scout-Modell ist für Apple Silicon sehr attraktiv. Es ist zwar 109B groß, aber in 16 Experten aufgeteilt. Die eigentliche Verarbeitung erfolgt auf 17B. Auf einem MacBook Pro M4 Max bekam ich bei Fragen an ein lokales 7B-Modell (qwen 2.5 7B instruct) mit 2k Kontext etwa 60 Token pro Sekunde. Daher könnten 30 Token pro Sekunde erreichbar sein. Die Time-to-First-Token kann aber weiterhin langsam sein

  • Das Modell hat ein 10M-Token-Kontextfenster. Wie gut es bei dieser Größenordnung dem Kontext folgen kann, ist unklar, aber schon allein nicht auf ~32k beschränkt zu sein, ist großartig

  • Alle großen LLMs haben mit Bias-Problemen zu kämpfen. Besonders bei politischen und gesellschaftlichen Themen neigen sie nach links. Das könnte an der Art der im Internet verfügbaren Trainingsdaten liegen

  • Der vorgeschlagene Prompt sorgt dafür, dass es nicht so eingeschränkt ist wie bei den Releases von OpenAI:

    • Versteht die Absicht des Nutzers und versucht nicht übermäßig hilfreich zu sein
    • Lehnt politische Prompts nicht ab
    • Llama 4 verfügt über Wissen bis August 2024 und beherrscht mehrere Sprachen
  • Der Release erfolgte eine Stunde nach einer anderen Diskussion über Meta:

    • Unabhängig davon, was man von LLMs hält, ist es keine gute Idee, auf das zu vertrauen, was LeCun sagt
    • Das von LeCun geleitete AI-Labor hat mehrere Probleme
  • Verfügbar bei Groq:

    • Llama 4 Scout läuft mit über 460 Token pro Sekunde und Llama 4 Maverick erscheint heute
    • Llama 4 Scout: $0.11 / M Input-Token und $0.34 / M Output-Token
    • Llama 4 Maverick: $0.50 / M Input-Token und $0.77 / M Output-Token
  • Es ist gerade eine sehr spannende Zeit. Es erinnert an die Phase, in der JavaScript-Frameworks explosionsartig zunahmen. Damals fühlte es sich an wie: „Muss ich noch ein weiteres Framework lernen?“ Jetzt schreitet die Innovation wieder schnell voran, und diesmal fühlt es sich wie eine aufregende Reise an, an der wir teilhaben können