- Meta hat zwei neue Llama-4-Modelle vorgestellt: das kleine Modell Scout und das mittelgroße Modell Maverick
- Meta behauptet, dass Maverick besser abschneidet als GPT-4o und Gemini 2.0 Flash
- Maverick belegte auf der AI-Modell-Vergleichsplattform LMArena den 2. Platz
- Der veröffentlichte ELO-Wert liegt bei 1417 Punkten, höher als bei GPT-4o und leicht niedriger als bei Gemini 2.5 Pro
- Ein hoher ELO-Wert bedeutet, dass das Modell in Vergleichsbewertungen mit anderen Modellen häufiger gewinnt
Vorwürfe der Benchmark-Manipulation
- AI-Forscher entdeckten Auffälligkeiten in den Meta-Dokumenten
- Die in LMArena verwendete Version von Maverick unterscheidet sich von der öffentlich veröffentlichten Version
- Meta erklärte, für LMArena eine dialogoptimierte experimentelle Version verwendet zu haben
- Diese Version ist ein experimentelles Modell mit Fokus auf „conversationality“
Reaktionen von Community und Plattform
- LMArena erklärte offiziell, dass Metas Auslegung der Richtlinien nicht den Erwartungen entspreche
- Meta kennzeichnete die experimentelle Version nicht eindeutig, weshalb LMArena eine Änderung der Leaderboard-Richtlinien ankündigte
- Dies ist eine Maßnahme, um künftig faire und reproduzierbare Bewertungen sicherzustellen
Metas Erklärung
- Meta-Sprecherin Ashley Gabriel erklärte in einer E-Mail-Stellungnahme, dass verschiedene experimentelle Versionen getestet würden
- Sie erwähnte: „Llama-4-Maverick-03-26-Experimental“ sei ein für Dialoge optimiertes experimentelles Modell, das auch auf LMArena starke Ergebnisse gezeigt habe
2 Kommentare
Natürlich darf bei Benchmarks die Manipulation mal wieder nicht fehlen.
Hacker-News-Meinungen
meta.ai). Ich nutze regelmäßig die Webversionen von GPT 4o, Deepseek, Grok und Google Gemeni 2.5.