o1-preview erreicht 97 Punkte im Koreanisch-Teil des CSAT 2025

ironman0722 · 2024-11-19T18:19:43+09:00

Im Koreanisch-Teil des CSAT 2025 erzielte O1-Preview mit 97 Punkten ein erstaunliches Ergebnis Falsche Antwort bei Frage 8 (3 Punkte), einem Sachtext Aufgrund eines logischen Fehlers wurde die falsche Antwort 3 gewählt Wenn Sie mehr über den Benchmark-Prozess erfahren möchten, lesen Sie bitte auch den Blog, in dem der Versuchsablauf und weitere Inhalte zusammengestellt wurden! Ergebnisse der GPT-Modelle im LLM-Benchmark für den Koreanisch-Teil des CSAT 2025 🥇 1st. o1-Preview: 97 Punkte (Stufe 1) 🥈 2nd. o1-mini: 78 Punkte (Stufe 4) 🥉 3rd. gpt-4o: 75 Punkte (Stufe 4): gpt-4o 4th. gpt-4o-mini: 59 Punkte (Stufe 5) 5th. gpt-3.5-turbo: 16 Punkte (Stufe 8) Ziel des Leaderboard-Projekts für den CSAT-LLM-Benchmark Benchmark-Informationen teilen, mit denen sich Human performance und LLM performance vergleichen lassen Ein sorgfältig ausgewählter Benchmark-Datensatz des KICE, der angesehensten Prüfungsinstitution Koreas zur Bewertung koreanischer Sprachkompetenz Vermeidung von Data Leakage durch jährlich aktualisierte neue Benchmark-Datensätze für den Koreanisch-Teil des CSAT Open-Source-LLMs, die nicht von bestimmten Ländern oder Unternehmen abhängig sind, auf das Niveau der Stufe 1 im koreanischen CSAT zu bringen Dieses Projekt wurde von Markr.AI durchgeführt. Dieser Benchmark wurde unter Verwendung von AutoRAG Open Source durchgeführt! Auf dem Leaderboard wurde ein Tutorial aktualisiert, mit dem sich der Koreanisch-Teil des CSAT 2023 benchmarken lässt! Wenn Sie Fragen haben, kontaktieren Sie uns jederzeit!

(velog.io)

5 Punkte von ironman0722 2024-11-19 | 1 Kommentare | Auf WhatsApp teilen

Im Koreanisch-Teil des CSAT 2025 erzielte O1-Preview mit 97 Punkten ein erstaunliches Ergebnis
- Falsche Antwort bei Frage 8 (3 Punkte), einem Sachtext
  - Aufgrund eines logischen Fehlers wurde die falsche Antwort 3 gewählt
Wenn Sie mehr über den Benchmark-Prozess erfahren möchten, lesen Sie bitte auch den Blog, in dem der Versuchsablauf und weitere Inhalte zusammengestellt wurden!
Ergebnisse der GPT-Modelle im LLM-Benchmark für den Koreanisch-Teil des CSAT 2025
🥇 1st. o1-Preview: 97 Punkte (Stufe 1)
🥈 2nd. o1-mini: 78 Punkte (Stufe 4)
🥉 3rd. gpt-4o: 75 Punkte (Stufe 4): gpt-4o
4th. gpt-4o-mini: 59 Punkte (Stufe 5)
5th. gpt-3.5-turbo: 16 Punkte (Stufe 8)
Ziel des Leaderboard-Projekts für den CSAT-LLM-Benchmark
1. Benchmark-Informationen teilen, mit denen sich Human performance und LLM performance vergleichen lassen
2. Ein sorgfältig ausgewählter Benchmark-Datensatz des KICE, der angesehensten Prüfungsinstitution Koreas zur Bewertung koreanischer Sprachkompetenz
3. Vermeidung von Data Leakage durch jährlich aktualisierte neue Benchmark-Datensätze für den Koreanisch-Teil des CSAT
4. Open-Source-LLMs, die nicht von bestimmten Ländern oder Unternehmen abhängig sind, auf das Niveau der Stufe 1 im koreanischen CSAT zu bringen

Dieses Projekt wurde von Markr.AI durchgeführt.
Dieser Benchmark wurde unter Verwendung von AutoRAG Open Source durchgeführt!
Auf dem Leaderboard wurde ein Tutorial aktualisiert, mit dem sich der Koreanisch-Teil des CSAT 2023 benchmarken lässt!
Wenn Sie Fragen haben, kontaktieren Sie uns jederzeit!

1 Kommentare

ironman0722 2024-11-22

Der Blog-Link wurde wohl abgeschnitten! Ich poste ihn noch einmal in den Kommentaren! https://velog.io/@minsing-jin/…

o1-preview erreicht 97 Punkte im Koreanisch-Teil des CSAT 2025

Verwandte Beiträge

1 Kommentare