Leaderboard für den LLM-Benchmark zur koreanischen CSAT-Sprachprüfung veröffentlicht
(github.com/minsing-jin)- In der koreanischen CSAT-Sprachprüfung 2024 erreichte
o1-previewdie Note 1 (88 Punkte, Top 4 %) gpt-4oliegt derzeit auf Platz 1,llama-3.1-405B-instructauf Platz 2 undQwen-2.5-72Bauf Platz 3- Bislang bewegen sich alle Modelle außer
gpt o1-previewnur im Bereich der Noten 3 bis 4 - Daran zeigt sich, dass es für viele Modelle schwierig ist, bei der koreanischen Sprachprüfung Human performance zu erreichen.
- Bislang bewegen sich alle Modelle außer
- Die Leistung von LLMs wird anhand des jedes Jahr neu erscheinenden, hochwertigen Datensatzes der koreanischen CSAT-Sprachprüfung bewertet
- Mit Texten aus verschiedenen Bereichen (Geisteswissenschaften, Gesellschaft, Naturwissenschaften, Technik, Kunst), Literatur sowie Sprechen und Schreiben
- Wie in der echten CSAT werden standardisierte Punktzahlen und ein Notensystem verwendet, um Human performance und die Leistung von LLMs zu vergleichen
- Sie können Benchmarking für Ihr eigenes Hugging Face Fine-Tuning-Modell oder andere Modelle anfragen, die Sie interessieren
Ich habe ein Benchmark-Leaderboard für LLMs zur koreanischen CSAT-Sprachprüfung veröffentlicht!
Dieses Leaderboard misst die koreanischen Sprachfähigkeiten von LLMs auf Basis hochwertiger Aufgaben aus der koreanischen CSAT-Sprachprüfung. Es wendet die Berechnungsmethode der CSAT für standardisierte Punktzahlen und Noten an und bietet so ein Leaderboard, mit dem sich die Leistung von Modellen mit Human performance vergleichen lässt. Es wurde eingerichtet, um diese Informationen mit anderen zu teilen.
Feedback ist jederzeit willkommen!
I.e.)
-
Derzeit fehlen GPU-Ressourcen für die Modellauswertung. Falls jemand eine GPU-Spende ermöglichen kann, wäre ich sehr dankbar!
-
Wegen der API-Kosten konnte
o1-previewnoch nicht getestet werden; sobald die offizielle Version vono1erscheint, ist ein Test geplant.
10 Kommentare
Man nennt die Suneung also CSAT.
Es gibt doch auch Abbildungen in den Koreanisch-Textpassagen – mich würde interessieren, warum das nicht multimodal umgesetzt wurde?
Vielen Dank für Ihr Interesse am Leaderboard!
Der erste Grund waren die Kosten. Als wir damals die CSAT-Daten erstellt haben, wurde GPT-4 Turbo gerade im vergangenen Jahr veröffentlicht, sodass bei der Erstellung von CSAT-Daten für zehn Jahrgänge hohe Kosten anfielen.
Der zweite Grund war, dass wir zur Lösung der CSAT-Aufgaben alle Hinweise einschließlich der Bildinformationen in die Beschreibungen aufnehmen mussten. Bei der Nutzung von Multimodalität gab es jedoch Grenzen, deshalb haben wir die Beschreibungen zu den Bildern selbst verfasst.
Interessant! Beim Blick auf das Leaderboard sind bei mir ein paar Fragen aufgekommen; ich wäre Ihnen dankbar, wenn Sie sie beantworten könnten.
Meine Vermutung ist, dass die benötigte Zeit deutlich unter 80 Minuten liegen dürfte und dass auch bei einer leichten Prüfung die absolute Punktzahl ähnlich ausfallen würde; ich bin aber neugierig, wie es sich tatsächlich verhält.
Vielen Dank für Ihr großes Interesse an der LLM-Benchmark-Leaderboard für den CSAT-Koreanischtest! Um Ihre Fragen zu beantworten:
Zum Beispiel erzielte
gpt-4obei den leichteren CSAT-Prüfungen zwischen 2015 und 2018, in denen die Höchstwerte der Standardpunktzahl im Bereich von 130 lagen, bessere Ergebnisse; auch die Einstufung fiel im Vergleich zu den schwierigeren Prüfungen anderer Jahre besser aus.Bei
meta llama 3.1 70Bhingegen gab es Fälle, in denen das Modell in den CSAT-Prüfungen zwischen 2015 und 2018 trotz niedrigerer Einstufungen und Standardpunktzahlen in der CSAT 2022, bei der der Höchstwert der Standardpunktzahl im Bereich von 149 lag, sogar die Stufe 3 erreichte.Falls Sie noch weitere Fragen haben oder es noch etwas gibt, das ich ergänzen sollte, sagen Sie jederzeit gern Bescheid!
Oh … je nach Modell gibt es also leichte Unterschiede in der Tendenz? Wirkt wirklich fast menschlich. Vielen Dank für die ausführliche Erklärung!
Zu Punkt 1:
Letztlich sind es 45 Multiple-Choice-Fragen mit jeweils 5 Antwortoptionen, daher scheint es so, als ließe sich für 45 Samples (Eingaben) jeweils 1 Token (
1,2,3,4,5) innerhalb von einigen hundert Sekunden lösen.Es ist irgendwie seltsam und zugleich spannend, dass KI jetzt nach den Noten der koreanischen CSAT-Sprachprüfung bewertet wird.
Es ist schon ironisch, dass es sich um einen Koreanisch-Benchmark für die CSAT handelt, das README aber auf Englisch ist.
Nach koreanischem Maßstab gibt es wohl keine derart hochwertigen Open-Source-Benchmark-Daten, haha.