14 Punkte von libner 2024-03-29 | 3 Kommentare | Auf WhatsApp teilen

Es handelt sich um einen koreanischen Sprachmodell-Benchmark, der vom MT-Bench inspiriert wurde, einem Benchmark aus dem englischsprachigen Raum, der aus je 10 Fragen in 8 Kategorien besteht.
Der Ersteller hat ihn offenbar entwickelt, weil er Grenzen in den derzeit verwendeten Benchmarks für koreanische Sprachmodelle gesehen hat.

Unten folgt ein aus dem Beitrag des Erstellers zitierter Abschnitt über den LogicKor-Benchmark.


Ich habe die folgenden 6 Themenbereiche definiert, mit denen sich das Denkvermögen koreanischer Modelle beurteilen lässt.  
Schlussfolgern (Reasoning) - logisches Denken, Problemlösung  
Mathematik (Math) - mathematische Konzepte, Berechnungen  
Schreiben (Writing) - Kohärenz zwischen Sätzen, Kreativität  
Coding (Coding) - Coding-Wissen, Implementierung von Funktionen  
Verstehen (Understanding) - Textverständnis, Informationsentnahme, Befolgung von Anweisungen  
Grammatik (Grammar) - koreanische Rechtschreibung, Standardaussprache  
  
Außerdem habe ich für jedes Thema 7 Multi-Turn-Fragen erstellt.

3 Kommentare

 
skymer 2024-03-29

Im Repository gibt es keine besondere Erklärung; könnten Sie bitte auch den Link zu dem zitierten Beitrag hinzufügen?

 
libner 2024-03-29

Da es sich um einen Beitrag aus einer Community-Seite handelt, könnte die Wortwahl etwas scharf sein ... Deshalb hatte ich aus Sorge, dass der Kommentarbereich sonst aus dem Ruder laufen könnte, zunächst keinen Link zum Beitrag gesetzt.
Hier ist die Adresse des betreffenden Beitrags: https://arca.live/b/alpaca/102052014

 
skymer 2024-03-29

Danke! Ich hatte auch den Eindruck, dass Upstage Benchmark-Ergebnisse verbreitet, die ziemlich fragwürdig wirken — offenbar war ich mit diesem Gedanken nicht allein … Die gefühlte Leistung von ClovaX war nicht so gut, aber unter den koreanischen Modellen ist es anscheinend auf Platz 1.