"Sind Sie schlauer als ein Sprachmodell?"
Viele Benchmarks versuchen zu bewerten, wie gut Sprachmodelle menschliche Aufgaben ausführen.
Aber wie gut können Sie bei der typischen Aufgabe eines Sprachmodells abschneiden, nämlich das nächste Wort vorherzusagen?
Lösen Sie 15 Aufgaben
3 Kommentare
4 Punkte ... das Ergebnis geht mir echt auf die Nerven.
Oh mein Gott. Wenn ich es löse, als würde ich Englischaufgaben machen, fällt meine Punktzahl total schlecht aus T_T
Hacker-News-Kommentare
Anders als man bei dem Titel „smart“ erwarten würde, aber eine interessante Idee
Es wurde ein Spiel/Quiz erstellt, bei dem man in Hacker-News-Kommentaren das nächste Wort erraten muss
logit_biasgesetzt, damit es nur eine der erlaubten Antworten auswählen kannDie Gewinnstrategie besteht darin, das Wort zu wählen, das das Sprachmodell am wenigsten wahrscheinlich wählen würde
Die Ergebnisse zeigen, dass es mit den gegebenen Informationen unmöglich ist, das nächste Wort exakt vorherzusagen
Dieses Spiel ist ein guter Test dafür, ob man zu viele HN-Kommentare liest
Da man jedes Mal ein zufälliges Quiz bekommt, lassen sich die Ergebnisse nicht vergleichen
Dank der auf HN verbrachten Zeit konnte ich etwas besser vorhersagen als die AI
An alle, die das Quiz mit 100 Fragen machen: Nach traditionellen statistischen Maßstäben gilt man erst dann als besser als bloßes Raten, wenn man mehr als ein Drittel richtig hat
Wenn das Sample von HN stammt, besteht die Möglichkeit, dass der Text bereits Teil des Datensatzes ist
Ein Teil stammt aus einem größeren Kontext, was dem LLM bei der Vorhersage einen Vorteil verschafft