5 Punkte von ironman0722 2024-11-19 | 1 Kommentare | Auf WhatsApp teilen
  • Im Koreanisch-Teil des CSAT 2025 erzielte O1-Preview mit 97 Punkten ein erstaunliches Ergebnis
    • Falsche Antwort bei Frage 8 (3 Punkte), einem Sachtext
      • Aufgrund eines logischen Fehlers wurde die falsche Antwort 3 gewählt
  • Wenn Sie mehr über den Benchmark-Prozess erfahren möchten, lesen Sie bitte auch den Blog, in dem der Versuchsablauf und weitere Inhalte zusammengestellt wurden!
  • Ergebnisse der GPT-Modelle im LLM-Benchmark für den Koreanisch-Teil des CSAT 2025
    🥇 1st. o1-Preview: 97 Punkte (Stufe 1)
    🥈 2nd. o1-mini: 78 Punkte (Stufe 4)
    🥉 3rd. gpt-4o: 75 Punkte (Stufe 4): gpt-4o
    4th. gpt-4o-mini: 59 Punkte (Stufe 5)
    5th. gpt-3.5-turbo: 16 Punkte (Stufe 8)
  • Ziel des Leaderboard-Projekts für den CSAT-LLM-Benchmark
    1. Benchmark-Informationen teilen, mit denen sich Human performance und LLM performance vergleichen lassen
    2. Ein sorgfältig ausgewählter Benchmark-Datensatz des KICE, der angesehensten Prüfungsinstitution Koreas zur Bewertung koreanischer Sprachkompetenz
    3. Vermeidung von Data Leakage durch jährlich aktualisierte neue Benchmark-Datensätze für den Koreanisch-Teil des CSAT
    4. Open-Source-LLMs, die nicht von bestimmten Ländern oder Unternehmen abhängig sind, auf das Niveau der Stufe 1 im koreanischen CSAT zu bringen

  • Dieses Projekt wurde von Markr.AI durchgeführt.
  • Dieser Benchmark wurde unter Verwendung von AutoRAG Open Source durchgeführt!
  • Auf dem Leaderboard wurde ein Tutorial aktualisiert, mit dem sich der Koreanisch-Teil des CSAT 2023 benchmarken lässt!
  • Wenn Sie Fragen haben, kontaktieren Sie uns jederzeit!

1 Kommentare

 
ironman0722 2024-11-22

Der Blog-Link wurde wohl abgeschnitten! Ich poste ihn noch einmal in den Kommentaren! https://velog.io/@minsing-jin/…