Meta: Kontroverse um manipulierte AI-Benchmarks

(theverge.com)

4 Punkte von GN⁺ 2025-04-09 | 2 Kommentare | Auf WhatsApp teilen

Meta hat zwei neue Llama-4-Modelle vorgestellt: das kleine Modell Scout und das mittelgroße Modell Maverick
Meta behauptet, dass Maverick besser abschneidet als GPT-4o und Gemini 2.0 Flash
Maverick belegte auf der AI-Modell-Vergleichsplattform LMArena den 2. Platz
Der veröffentlichte ELO-Wert liegt bei 1417 Punkten, höher als bei GPT-4o und leicht niedriger als bei Gemini 2.5 Pro
Ein hoher ELO-Wert bedeutet, dass das Modell in Vergleichsbewertungen mit anderen Modellen häufiger gewinnt

Vorwürfe der Benchmark-Manipulation

AI-Forscher entdeckten Auffälligkeiten in den Meta-Dokumenten
Die in LMArena verwendete Version von Maverick unterscheidet sich von der öffentlich veröffentlichten Version
Meta erklärte, für LMArena eine dialogoptimierte experimentelle Version verwendet zu haben
Diese Version ist ein experimentelles Modell mit Fokus auf „conversationality“

Reaktionen von Community und Plattform

LMArena erklärte offiziell, dass Metas Auslegung der Richtlinien nicht den Erwartungen entspreche
Meta kennzeichnete die experimentelle Version nicht eindeutig, weshalb LMArena eine Änderung der Leaderboard-Richtlinien ankündigte
Dies ist eine Maßnahme, um künftig faire und reproduzierbare Bewertungen sicherzustellen

Metas Erklärung

Meta-Sprecherin Ashley Gabriel erklärte in einer E-Mail-Stellungnahme, dass verschiedene experimentelle Versionen getestet würden
Sie erwähnte: „Llama-4-Maverick-03-26-Experimental“ sei ein für Dialoge optimiertes experimentelles Modell, das auch auf LMArena starke Ergebnisse gezeigt habe

2 Kommentare

ndrgrd 2025-04-10

Natürlich darf bei Benchmarks die Manipulation mal wieder nicht fehlen.

GN⁺ 2025-04-09

Hacker-News-Meinungen

Die Veröffentlichung von Llama 4 wirkt wie ein großer Fehlschlag für Meta. Die Leistung des Modells ist nicht gut. Die gesamte Berichterstattung ist negativ.
- Das entspricht zwar den Erwartungen, aber ich frage mich, was Meta als Nächstes tun wird. Aktuell scheint das Unternehmen hinter anderen Open-Source-Modellen zurückzuliegen, und die ambitionierte Wette auf MoEs scheint nicht aufgegangen zu sein.
- Ich frage mich, ob Zuck die Veröffentlichung durchgedrückt hat. Er muss gewusst haben, dass es noch nicht bereit war.
Ich bin schockiert, dass Unternehmen, die urheberrechtlich geschütztes Material gestohlen haben, sich schon wieder unethisch verhalten.
Meta wurde zum ersten Mal erwischt.
Am aufschlussreichsten ist es, sich die von LMArena veröffentlichten Beispiel-Battles (H2H) anzusehen. Die Modellausgaben von Meta sind viel zu weitschweifig und geschwätzig. Wenn man die Bewertungen sieht, ist es nur logisch, dass Leute die LMArena-Rangliste ignorieren.
Ist LMArena jetzt nutzlos geworden?
- Ich dachte, ein Aspekt sei, dass zwei Modelle mit derselben vom Nutzer eingegebenen Anfrage ausgeführt werden. Das sollte sich doch nicht manipulieren lassen.
- Ich verstehe nicht, was „Gesprächsoptimierung“ bedeuten soll. Ich sehe nicht, welchen Vorteil das für LMArena bringen soll.
Meta schadet sich selbst mit einer miserablen öffentlichen AI, die Leute ausprobieren können (meta.ai). Ich nutze regelmäßig die Webversionen von GPT 4o, Deepseek, Grok und Google Gemeni 2.5.
- Meta ist immer am schlechtesten, deshalb kümmere ich mich inzwischen nicht mehr darum.
Niemand wird überrascht sein. Außerdem wirkt hier wieder Goodharts Gesetz.
Die Spitze des Leaderboards ist voller experimenteller Modelle mit geschlossenen Gewichten.
Ich glaube, das wurde so entworfen, dass es dem Prompting-Nutzer stärker schmeichelt oder ihm mehr nach dem Mund redet. Falls das stimmt, wäre ich besorgt über die Leute, die den Vergleich vornehmen.

Meta: Kontroverse um manipulierte AI-Benchmarks

Vorwürfe der Benchmark-Manipulation

Reaktionen von Community und Plattform

Metas Erklärung

Verwandte Beiträge

2 Kommentare

Hacker-News-Meinungen