ko-arena-hard-auto: Ein Benchmark zur Messung der koreanischen Leistung von LLMs
(github.com/qwopqwop200)Leaderboard / Code / Datensatz
Menschliche Präferenzen sind einer der wichtigen Indikatoren zur Bewertung der Leistung von LLMs.
Allerdings sind menschliche Präferenzen sehr schwer zu messen und teuer zu erfassen.
Zur Lösung dieses Problems gibt es Ansätze wie MT-Bench und Arena-Hard-Auto, die LLM-as-a-Judge verwenden.
Die bisherigen Benchmarks sind jedoch für Englisch ausgelegt.
Natürlich gibt es auch für Koreanisch gute Benchmarks wie KoMT-Bench, LogicKor und Horangi.
Bestehende Benchmarks basieren jedoch auf MT-Bench, und MT-Bench gilt im Vergleich zu Arena-Hard-Auto als mit geringerer Korrelation zur menschlichen Präferenz und schwächerer Trennschärfe behaftet.
Um dieses Problem zu lösen, basiert ko-arena-hard-auto auf Arena-Hard-Auto und
verwendet 500 schwierige und anspruchsvolle Fragen aus Arena-Hard-Auto, die ins Koreanische übersetzt wurden.
Für die Übersetzung wurden GPT-4o und o1 verwendet, anschließend wurde sie manuell überprüft.
Außerdem unterscheidet es sich in drei wesentlichen Punkten vom bestehenden Arena-Hard-Auto.
- Es verwendet einen Judge-System-Prompt, der Code-Mixing und Code-Switching berücksichtigt.
- Als Judge-Modelle werden
gemini-2.0-flash,gpt-4o-miniunddeepseek-chat-v3-0324verwendet und zu einem Ensemble kombiniert. Das reduziert den Bias zugunsten der eigenen Präferenzen und ermöglicht eine günstigere Leistungsmessung als beim bisherigen Arena-Hard-Auto. - Als Baseline-Modell wird
claude-3.7-sonnetverwendet. Angesichts des insgesamt steigenden Leistungsniveaus von LLMs wurde mitclaude-3.7-sonnetbewusst ein starkes LLM als Baseline gewählt.
Die Benchmark-Ergebnisse können hier eingesehen werden: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html
Code: https://github.com/qwopqwop200/ko-arena-hard-auto
Datensatz: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1
Noch keine Kommentare.