25 Punkte von ironman0722 2024-10-18 | 10 Kommentare | Auf WhatsApp teilen
  • In der koreanischen CSAT-Sprachprüfung 2024 erreichte o1-preview die Note 1 (88 Punkte, Top 4 %)
  • gpt-4o liegt derzeit auf Platz 1, llama-3.1-405B-instruct auf Platz 2 und Qwen-2.5-72B auf Platz 3
    • Bislang bewegen sich alle Modelle außer gpt o1-preview nur im Bereich der Noten 3 bis 4
    • Daran zeigt sich, dass es für viele Modelle schwierig ist, bei der koreanischen Sprachprüfung Human performance zu erreichen.
  • Die Leistung von LLMs wird anhand des jedes Jahr neu erscheinenden, hochwertigen Datensatzes der koreanischen CSAT-Sprachprüfung bewertet
    • Mit Texten aus verschiedenen Bereichen (Geisteswissenschaften, Gesellschaft, Naturwissenschaften, Technik, Kunst), Literatur sowie Sprechen und Schreiben
  • Wie in der echten CSAT werden standardisierte Punktzahlen und ein Notensystem verwendet, um Human performance und die Leistung von LLMs zu vergleichen
  • Sie können Benchmarking für Ihr eigenes Hugging Face Fine-Tuning-Modell oder andere Modelle anfragen, die Sie interessieren

Ich habe ein Benchmark-Leaderboard für LLMs zur koreanischen CSAT-Sprachprüfung veröffentlicht!

Dieses Leaderboard misst die koreanischen Sprachfähigkeiten von LLMs auf Basis hochwertiger Aufgaben aus der koreanischen CSAT-Sprachprüfung. Es wendet die Berechnungsmethode der CSAT für standardisierte Punktzahlen und Noten an und bietet so ein Leaderboard, mit dem sich die Leistung von Modellen mit Human performance vergleichen lässt. Es wurde eingerichtet, um diese Informationen mit anderen zu teilen.

Feedback ist jederzeit willkommen!

I.e.)

  • Derzeit fehlen GPU-Ressourcen für die Modellauswertung. Falls jemand eine GPU-Spende ermöglichen kann, wäre ich sehr dankbar!

  • Wegen der API-Kosten konnte o1-preview noch nicht getestet werden; sobald die offizielle Version von o1 erscheint, ist ein Test geplant.

10 Kommentare

 
roxie 2024-10-24

Man nennt die Suneung also CSAT.

 
doolayer 2024-10-21

Es gibt doch auch Abbildungen in den Koreanisch-Textpassagen – mich würde interessieren, warum das nicht multimodal umgesetzt wurde?

 
ironman0722 2024-10-21

Vielen Dank für Ihr Interesse am Leaderboard!

Der erste Grund waren die Kosten. Als wir damals die CSAT-Daten erstellt haben, wurde GPT-4 Turbo gerade im vergangenen Jahr veröffentlicht, sodass bei der Erstellung von CSAT-Daten für zehn Jahrgänge hohe Kosten anfielen.

Der zweite Grund war, dass wir zur Lösung der CSAT-Aufgaben alle Hinweise einschließlich der Bildinformationen in die Beschreibungen aufnehmen mussten. Bei der Nutzung von Multimodalität gab es jedoch Grenzen, deshalb haben wir die Beschreibungen zu den Bildern selbst verfasst.

 
ilotoki0804 2024-10-18

Interessant! Beim Blick auf das Leaderboard sind bei mir ein paar Fragen aufgekommen; ich wäre Ihnen dankbar, wenn Sie sie beantworten könnten.

  1. Wie lange dauert es bei der Nutzung eines LLM, alle Aufgaben vollständig zu lösen? Beim koreanischen CSAT-Sprachtest gibt es ein Zeitlimit von 80 Minuten (einschließlich des Ausfüllens des OMR-Bogens); deshalb würde mich interessieren, wie lange ein LLM ungefähr für sämtliche Aufgaben benötigt.
  2. Würde auch bei einer leichten Prüfung dieselbe Notenstufe herauskommen? Extrem formuliert: Beim Probetest im September lag die Grenze für Stufe 1 bei 100 Punkten, also war er so leicht, dass man die volle Punktzahl brauchte. Mich würde interessieren, ob man auch bei diesem Probetest eine ähnliche Einstufung erreichen könnte wie bei anderen Probetests.

Meine Vermutung ist, dass die benötigte Zeit deutlich unter 80 Minuten liegen dürfte und dass auch bei einer leichten Prüfung die absolute Punktzahl ähnlich ausfallen würde; ich bin aber neugierig, wie es sich tatsächlich verhält.

 
ironman0722 2024-10-21

Vielen Dank für Ihr großes Interesse an der LLM-Benchmark-Leaderboard für den CSAT-Koreanischtest! Um Ihre Fragen zu beantworten:

  1. Es hat mindestens 10 Minuten und höchstens etwa 25 Minuten gedauert.
  2. Wenn man nur die Ergebnisse betrachtet, scheint es Modelle zu geben, bei denen der Schwierigkeitsgrad der Prüfung einen gewissen Einfluss auf das Lösen der Aufgaben durch das LLM hat, und andere, bei denen das nicht der Fall ist. Daher ist eine Verallgemeinerung wohl schwierig.

Zum Beispiel erzielte gpt-4o bei den leichteren CSAT-Prüfungen zwischen 2015 und 2018, in denen die Höchstwerte der Standardpunktzahl im Bereich von 130 lagen, bessere Ergebnisse; auch die Einstufung fiel im Vergleich zu den schwierigeren Prüfungen anderer Jahre besser aus.
Bei meta llama 3.1 70B hingegen gab es Fälle, in denen das Modell in den CSAT-Prüfungen zwischen 2015 und 2018 trotz niedrigerer Einstufungen und Standardpunktzahlen in der CSAT 2022, bei der der Höchstwert der Standardpunktzahl im Bereich von 149 lag, sogar die Stufe 3 erreichte.

Falls Sie noch weitere Fragen haben oder es noch etwas gibt, das ich ergänzen sollte, sagen Sie jederzeit gern Bescheid!

 
ilotoki0804 2024-10-21

Oh … je nach Modell gibt es also leichte Unterschiede in der Tendenz? Wirkt wirklich fast menschlich. Vielen Dank für die ausführliche Erklärung!

 
doolayer 2024-10-21

Zu Punkt 1:
Letztlich sind es 45 Multiple-Choice-Fragen mit jeweils 5 Antwortoptionen, daher scheint es so, als ließe sich für 45 Samples (Eingaben) jeweils 1 Token (1, 2, 3, 4, 5) innerhalb von einigen hundert Sekunden lösen.

 
savvykang 2024-10-18

Es ist irgendwie seltsam und zugleich spannend, dass KI jetzt nach den Noten der koreanischen CSAT-Sprachprüfung bewertet wird.

 
mammal 2024-10-18

Es ist schon ironisch, dass es sich um einen Koreanisch-Benchmark für die CSAT handelt, das README aber auf Englisch ist.

 
ng0301 2024-10-18

Nach koreanischem Maßstab gibt es wohl keine derart hochwertigen Open-Source-Benchmark-Daten, haha.