8 Punkte von GN⁺ 2024-08-19 | 3 Kommentare | Auf WhatsApp teilen

"Sind Sie schlauer als ein Sprachmodell?"

Viele Benchmarks versuchen zu bewerten, wie gut Sprachmodelle menschliche Aufgaben ausführen.
Aber wie gut können Sie bei der typischen Aufgabe eines Sprachmodells abschneiden, nämlich das nächste Wort vorherzusagen?

Lösen Sie 15 Aufgaben

3 Kommentare

 
curioe 2024-08-19

4 Punkte ... das Ergebnis geht mir echt auf die Nerven.

 
xguru 2024-08-19

Oh mein Gott. Wenn ich es löse, als würde ich Englischaufgaben machen, fällt meine Punktzahl total schlecht aus T_T

 
GN⁺ 2024-08-19
Hacker-News-Kommentare
  • Anders als man bei dem Titel „smart“ erwarten würde, aber eine interessante Idee

    • Es wäre besser, jeweils nur eine Frage auf einmal anzuzeigen und nach jeder Antwort sofort Feedback zu geben
    • So wäre es immersiver und nützlicher, weil man die richtige Antwort direkt sehen kann
  • Es wurde ein Spiel/Quiz erstellt, bei dem man in Hacker-News-Kommentaren das nächste Wort erraten muss

    • Mit llama2 wurden für jeden Kommentar drei alternative Vervollständigungen erzeugt, um Multiple-Choice-Fragen zu erstellen
    • Das lokale Sprachmodell wählt die Antwort mit der niedrigsten Gesamt-Perplexity aus Prompt und Antwort
    • Beim OpenAI-Modell wurde logit_bias gesetzt, damit es nur eine der erlaubten Antworten auswählen kann
    • Mit Claude oder anderen Online-LLMs konnte nicht verglichen werden
    • Man kann nicht gerade sagen, dass das Quiz Spaß macht, aber es war möglich, konstant eine Trefferquote von über 50 % zu halten
  • Die Gewinnstrategie besteht darin, das Wort zu wählen, das das Sprachmodell am wenigsten wahrscheinlich wählen würde

    • Die beste Strategie ist, den „Ausreißer“ zu wählen
    • Das könnte eine einfache Strategie sein, um AI-Inhalte zu erkennen
  • Die Ergebnisse zeigen, dass es mit den gegebenen Informationen unmöglich ist, das nächste Wort exakt vorherzusagen

    • Es wäre besser als Zufall, die Antworten nach Wahrscheinlichkeit zu sortieren und Punkte danach zu vergeben, wie hoch die richtige Antwort eingestuft wurde
    • Ich frage mich, ob das LLM versucht hat, die Stimme des ursprünglichen Autors nachzuahmen
  • Dieses Spiel ist ein guter Test dafür, ob man zu viele HN-Kommentare liest

  • Da man jedes Mal ein zufälliges Quiz bekommt, lassen sich die Ergebnisse nicht vergleichen

    • Wenn man ein Korpus findet, bei dem durchschnittliche Menschen ein LLM schlagen können, und eine tägliche Challenge im Wordle-Stil sowie Social-Sharing-Funktionen hinzufügt, hätte es virales Potenzial
  • Dank der auf HN verbrachten Zeit konnte ich etwas besser vorhersagen als die AI

  • An alle, die das Quiz mit 100 Fragen machen: Nach traditionellen statistischen Maßstäben gilt man erst dann als besser als bloßes Raten, wenn man mehr als ein Drittel richtig hat

    • Um besser als ein LLM zu sein, muss man mehr als die Hälfte richtig haben
  • Wenn das Sample von HN stammt, besteht die Möglichkeit, dass der Text bereits Teil des Datensatzes ist

    • Bei aktuellen Kommentaren ist das eher unwahrscheinlich
    • ChatGPT kann zwar das Bing-Suchtool verwenden, aber beim gpt4o-mini-API-Modell ist das eher unwahrscheinlich
  • Ein Teil stammt aus einem größeren Kontext, was dem LLM bei der Vorhersage einen Vorteil verschafft