7 Punkte von qwopqwop200 2025-04-06 | Noch keine Kommentare. | Auf WhatsApp teilen

Leaderboard / Code / Datensatz

Menschliche Präferenzen sind einer der wichtigen Indikatoren zur Bewertung der Leistung von LLMs.
Allerdings sind menschliche Präferenzen sehr schwer zu messen und teuer zu erfassen.
Zur Lösung dieses Problems gibt es Ansätze wie MT-Bench und Arena-Hard-Auto, die LLM-as-a-Judge verwenden.
Die bisherigen Benchmarks sind jedoch für Englisch ausgelegt.

Natürlich gibt es auch für Koreanisch gute Benchmarks wie KoMT-Bench, LogicKor und Horangi.

Bestehende Benchmarks basieren jedoch auf MT-Bench, und MT-Bench gilt im Vergleich zu Arena-Hard-Auto als mit geringerer Korrelation zur menschlichen Präferenz und schwächerer Trennschärfe behaftet.

Um dieses Problem zu lösen, basiert ko-arena-hard-auto auf Arena-Hard-Auto und
verwendet 500 schwierige und anspruchsvolle Fragen aus Arena-Hard-Auto, die ins Koreanische übersetzt wurden.
Für die Übersetzung wurden GPT-4o und o1 verwendet, anschließend wurde sie manuell überprüft.

Außerdem unterscheidet es sich in drei wesentlichen Punkten vom bestehenden Arena-Hard-Auto.

  1. Es verwendet einen Judge-System-Prompt, der Code-Mixing und Code-Switching berücksichtigt.
  2. Als Judge-Modelle werden gemini-2.0-flash, gpt-4o-mini und deepseek-chat-v3-0324 verwendet und zu einem Ensemble kombiniert. Das reduziert den Bias zugunsten der eigenen Präferenzen und ermöglicht eine günstigere Leistungsmessung als beim bisherigen Arena-Hard-Auto.
  3. Als Baseline-Modell wird claude-3.7-sonnet verwendet. Angesichts des insgesamt steigenden Leistungsniveaus von LLMs wurde mit claude-3.7-sonnet bewusst ein starkes LLM als Baseline gewählt.

Die Benchmark-Ergebnisse können hier eingesehen werden: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html

Code: https://github.com/qwopqwop200/ko-arena-hard-auto
Datensatz: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1

Noch keine Kommentare.

Noch keine Kommentare.