4 Punkte von GN⁺ 2025-04-09 | 2 Kommentare | Auf WhatsApp teilen
  • Meta hat zwei neue Llama-4-Modelle vorgestellt: das kleine Modell Scout und das mittelgroße Modell Maverick
  • Meta behauptet, dass Maverick besser abschneidet als GPT-4o und Gemini 2.0 Flash
  • Maverick belegte auf der AI-Modell-Vergleichsplattform LMArena den 2. Platz
  • Der veröffentlichte ELO-Wert liegt bei 1417 Punkten, höher als bei GPT-4o und leicht niedriger als bei Gemini 2.5 Pro
  • Ein hoher ELO-Wert bedeutet, dass das Modell in Vergleichsbewertungen mit anderen Modellen häufiger gewinnt

Vorwürfe der Benchmark-Manipulation

  • AI-Forscher entdeckten Auffälligkeiten in den Meta-Dokumenten
  • Die in LMArena verwendete Version von Maverick unterscheidet sich von der öffentlich veröffentlichten Version
  • Meta erklärte, für LMArena eine dialogoptimierte experimentelle Version verwendet zu haben
  • Diese Version ist ein experimentelles Modell mit Fokus auf „conversationality“

Reaktionen von Community und Plattform

  • LMArena erklärte offiziell, dass Metas Auslegung der Richtlinien nicht den Erwartungen entspreche
  • Meta kennzeichnete die experimentelle Version nicht eindeutig, weshalb LMArena eine Änderung der Leaderboard-Richtlinien ankündigte
  • Dies ist eine Maßnahme, um künftig faire und reproduzierbare Bewertungen sicherzustellen

Metas Erklärung

  • Meta-Sprecherin Ashley Gabriel erklärte in einer E-Mail-Stellungnahme, dass verschiedene experimentelle Versionen getestet würden
  • Sie erwähnte: „Llama-4-Maverick-03-26-Experimental“ sei ein für Dialoge optimiertes experimentelles Modell, das auch auf LMArena starke Ergebnisse gezeigt habe

2 Kommentare

 
ndrgrd 2025-04-10

Natürlich darf bei Benchmarks die Manipulation mal wieder nicht fehlen.

 
GN⁺ 2025-04-09
Hacker-News-Meinungen
  • Die Veröffentlichung von Llama 4 wirkt wie ein großer Fehlschlag für Meta. Die Leistung des Modells ist nicht gut. Die gesamte Berichterstattung ist negativ.
    • Das entspricht zwar den Erwartungen, aber ich frage mich, was Meta als Nächstes tun wird. Aktuell scheint das Unternehmen hinter anderen Open-Source-Modellen zurückzuliegen, und die ambitionierte Wette auf MoEs scheint nicht aufgegangen zu sein.
    • Ich frage mich, ob Zuck die Veröffentlichung durchgedrückt hat. Er muss gewusst haben, dass es noch nicht bereit war.
  • Ich bin schockiert, dass Unternehmen, die urheberrechtlich geschütztes Material gestohlen haben, sich schon wieder unethisch verhalten.
  • Meta wurde zum ersten Mal erwischt.
  • Am aufschlussreichsten ist es, sich die von LMArena veröffentlichten Beispiel-Battles (H2H) anzusehen. Die Modellausgaben von Meta sind viel zu weitschweifig und geschwätzig. Wenn man die Bewertungen sieht, ist es nur logisch, dass Leute die LMArena-Rangliste ignorieren.
  • Ist LMArena jetzt nutzlos geworden?
    • Ich dachte, ein Aspekt sei, dass zwei Modelle mit derselben vom Nutzer eingegebenen Anfrage ausgeführt werden. Das sollte sich doch nicht manipulieren lassen.
    • Ich verstehe nicht, was „Gesprächsoptimierung“ bedeuten soll. Ich sehe nicht, welchen Vorteil das für LMArena bringen soll.
  • Meta schadet sich selbst mit einer miserablen öffentlichen AI, die Leute ausprobieren können (meta.ai). Ich nutze regelmäßig die Webversionen von GPT 4o, Deepseek, Grok und Google Gemeni 2.5.
    • Meta ist immer am schlechtesten, deshalb kümmere ich mich inzwischen nicht mehr darum.
  • Niemand wird überrascht sein. Außerdem wirkt hier wieder Goodharts Gesetz.
  • Die Spitze des Leaderboards ist voller experimenteller Modelle mit geschlossenen Gewichten.
  • Ich glaube, das wurde so entworfen, dass es dem Prompting-Nutzer stärker schmeichelt oder ihm mehr nach dem Mund redet. Falls das stimmt, wäre ich besorgt über die Leute, die den Vergleich vornehmen.