- Im Koreanisch-Teil des CSAT 2025 erzielte O1-Preview mit 97 Punkten ein erstaunliches Ergebnis
- Falsche Antwort bei Frage 8 (3 Punkte), einem Sachtext
- Aufgrund eines logischen Fehlers wurde die falsche Antwort 3 gewählt
- Wenn Sie mehr über den Benchmark-Prozess erfahren möchten, lesen Sie bitte auch den Blog, in dem der Versuchsablauf und weitere Inhalte zusammengestellt wurden!
- Ergebnisse der GPT-Modelle im LLM-Benchmark für den Koreanisch-Teil des CSAT 2025
🥇 1st. o1-Preview: 97 Punkte (Stufe 1)
🥈 2nd. o1-mini: 78 Punkte (Stufe 4)
🥉 3rd. gpt-4o: 75 Punkte (Stufe 4): gpt-4o
4th. gpt-4o-mini: 59 Punkte (Stufe 5)
5th. gpt-3.5-turbo: 16 Punkte (Stufe 8)
- Ziel des Leaderboard-Projekts für den CSAT-LLM-Benchmark
- Benchmark-Informationen teilen, mit denen sich Human performance und LLM performance vergleichen lassen
- Ein sorgfältig ausgewählter Benchmark-Datensatz des KICE, der angesehensten Prüfungsinstitution Koreas zur Bewertung koreanischer Sprachkompetenz
- Vermeidung von Data Leakage durch jährlich aktualisierte neue Benchmark-Datensätze für den Koreanisch-Teil des CSAT
- Open-Source-LLMs, die nicht von bestimmten Ländern oder Unternehmen abhängig sind, auf das Niveau der Stufe 1 im koreanischen CSAT zu bringen
- Dieses Projekt wurde von Markr.AI durchgeführt.
- Dieser Benchmark wurde unter Verwendung von AutoRAG Open Source durchgeführt!
- Auf dem Leaderboard wurde ein Tutorial aktualisiert, mit dem sich der Koreanisch-Teil des CSAT 2023 benchmarken lässt!
- Wenn Sie Fragen haben, kontaktieren Sie uns jederzeit!
1 Kommentare
Der Blog-Link wurde wohl abgeschnitten! Ich poste ihn noch einmal in den Kommentaren! https://velog.io/@minsing-jin/…