-
Kürzlich gab es das Rätsel, dass große Sprachmodelle (LLMs) schlecht Schach spielen.
gpt-3.5-turbo-instructist jedoch eine Ausnahme und spielt auf Amateur-Niveau bemerkenswert gut Schach. Dieses Modell ist älter und kleiner als andere neuere Modelle. -
Es wurden mehrere Theorien vorgeschlagen:
- Theorie 1: Ausreichend große Basismodelle spielen gut Schach, durch das Instruction-Tuning zu Chat-Modellen jedoch nicht mehr.
- Theorie 2:
gpt-3.5-turbo-instructkönnte mit mehr Schachdaten trainiert worden sein. - Theorie 3: An bestimmten LLM-Architekturen ist etwas Besonderes.
- Theorie 4: Es gibt eine „Konkurrenz“ zwischen Datentypen, sodass ein LLM viele Schachpartie-Daten braucht, um gut Schach zu spielen.
- Theorie 5: Die Behauptung, OpenAI würde tricksen.
- Theorie 6: Die Behauptung, LLMs könnten in Wirklichkeit gar kein Schach spielen.
-
Die Behauptung, OpenAI würde tricksen, ist schwer glaubhaft.
gpt-3.5-turbo-instructwählt Züge anders als eine Schach-Engine und ist nach Expertenmaßstäben nicht herausragend. -
LLMs können Schach spielen.
gpt-3.5-turbo-instructschlägt fast nie illegale Züge vor und spielt auch in neuen Brettstellungen gut. -
gpt-3.5-turbo-instructist ein „Completion“-Modell, das Text entgegennimmt und neuen Text erzeugt.gpt-4o-miniundgpt-4osind „Chat“-Modelle, die System-Prompts und Benutzer-Prompts verwenden. -
Verschiedene Experimente bestätigen, dass Prompt-Anpassungen, zusätzliche Beispiele und Fine-Tuning die Modellleistung beeinflussen können.
-
Zusätzliche Beispiele hatten einen großen Einfluss auf die Leistung, und auch Fine-Tuning half. Die Vorgabe legaler Züge verschlechterte jedoch die Leistung.
-
Wenn man
gpt-4odazu bringt, eher wie im „Completion“-Modus zu arbeiten, verbessert sich die Leistung. Das deutet darauf hin, dassgpt-4-basegut Schach spielen könnte. -
Insgesamt ist es wahrscheinlich, dass OpenAIs Basismodelle mit mehr Schachdaten trainiert wurden und dass Chat-Modelle schlechter abschneiden können als Completion-Modelle.
-
Den optimalen Prompt, die besten Beispiele und das beste Fine-Tuning zu finden, ist schwierig und kostspielig.
1 Kommentare
Hacker-News-Kommentare
Der Autor liefert keine Daten zur Häufigkeit illegaler Züge, wodurch es schwer ist, zu sinnvollen Schlussfolgerungen zu kommen
gpt-3.5-turbo-instruct schlägt selbst im Endspiel fast keine illegalen Züge vor
Als Test dafür, ob es Schach versteht, lässt man es von 1000 zufälligen legalen Positionen aus den nächsten Zug machen
Nicht alle liegen falsch
LLMs fühlen sich an, als würden sie Beschwörungsformeln suchen
Es wird behauptet, dass Training mit Codebeispielen das "Schlussfolgern" verbessert
Es könnte ein Sonderfall sein, bei dem gpt-3.5-turbo-instruct die Schachnotation erkennt und eine externe Schach-Engine aufruft
Obwohl dem LLM nicht ausdrücklich gesagt wurde, dass es das Spiel gewinnen soll, wurde das Ergebnis gemessen
Feinabstimmung hilft, und Beispiele können Feinabstimmung ersetzen
Es wäre unterhaltsam, mit einem LLM Schach zu spielen, ohne über den Prompt nachzudenken