-
Seltsame Phänomene bei LLMs und Schach
- Es gab eine Diskussion darüber, ob LLMs (Large Language Models) gut Schach spielen können. Obwohl LLMs für die Vorhersage von Sprache entwickelt wurden, zeigen sie die Fähigkeit, Schachpartien vorherzusagen.
- Interessant war die Tatsache, dass LLMs eine Schachpartie bis zum Ende durchspielen können. Das könnte ein Hinweis darauf sein, wie LLMs auch in anderen Situationen funktionieren.
-
Was ich gemacht habe
- Um ein LLM Schach spielen zu lassen, wurde ein bestimmter Prompt verwendet. Zum Beispiel eine Anfrage wie: "Sie sind ein Schachgroßmeister. Wählen Sie den nächsten Zug."
- Mit dem Modell
llama-3.2-3b wurden 50 Partien gespielt, aber die Ergebnisse waren nicht gut. Auch die größeren Modelle llama-3.1-70b und llama-3.1-70b-instruct wurden ausprobiert, lieferten aber weiterhin schlechte Resultate.
- Das Modell
gpt-3.5-turbo-instruct zeigte eine sehr gute Leistung. Alle anderen Modelle lieferten jedoch schlechte Ergebnisse.
-
Diskussion
- Viele Menschen haben versucht, mit LLMs Schach zu spielen, aber die meisten Modelle erzielten keine guten Ergebnisse.
- Es gibt verschiedene Theorien dazu, warum das Modell
gpt-3.5-turbo-instruct besser Schach spielt als andere Modelle.
- Es gibt die Theorie, dass zusätzliches Instruction-Tuning die Leistung eines Modells verschlechtern könnte.
-
Mögliche Theorien
- Theorie 1: Ein Basismodell kann ab einer ausreichenden Größe Schach spielen, aber Instruction-Tuning stört das.
- Theorie 2:
gpt-3.5-instruct wurde möglicherweise mit mehr Schachpartien trainiert.
- Theorie 3: Es könnte Unterschiede in anderen Transformer-Architekturen geben.
- Theorie 4: Es könnte eine „Konkurrenz“ zwischen Datentypen geben.
-
Details
- Das Experiment wurde mit der standardmäßigen algebraischen Notation für Schachpartien durchgeführt.
- OpenAI-Modelle unterstützen keine vollständige Grammatik, daher wurde bis zu 10-mal versucht, bis ein legaler Zug erzeugt wurde.
-
Anomale Token-Phänomene
- Wenn der Prompt Leerzeichen enthält, verschlechtert sich die Leistung des Modells stark. Das scheint ein Problem des Tokenizers zu sein.
- Die richtige Methode wäre die Verwendung von „Token Healing“, aber es wurde keine einfache Möglichkeit gefunden, das umzusetzen.
1 Kommentare
Hacker-News-Kommentare
Es scheint, als habe OpenAI die Möglichkeit übersehen, dass Schach für OpenAI ein wichtiger Maßstab war und
gpt-3.5-turbo-instructspeziell darauf angepasst wurde, dies aber bei Nachfolgemodellen nicht ergänzt wurdeIch habe alle Open Models mit der Quantisierung
Q5_K_Mausgeführt, glaube aber nicht, dass das wichtig ist, da es nur eine verlustbehaftete Kompression aller Parameter istIch verstehe nicht, warum gebildete Menschen erwarten, dass LLMs gut in Schach sein sollten
Ich frage mich, ob die guten Ergebnisse reproduzierbar sind
Ich denke, wenn man wirklich intelligente Modelle will, muss man vielleicht die Tokenisierung aufgeben
Ich habe experimentelle Ergebnisse gefunden, nach denen
gpt-3.5-turbo-instructim Schach überlegen istWenn Schach zu lernen bedeutet, Reihenfolgen zu lernen, könnte das problematisch sein
Man könnte versuchen, die Berechnung im Suchraum des Problems zu erhöhen
Es gibt die Theorie, dass
GPT-3.5-instructSchach spielen kann, indem es eine traditionelle Schach-Engine aufruftWir wissen, dass es in unterschiedlichen menschlichen Erfahrungen verschiedene Arten von Fähigkeiten und Intelligenz gibt