1 Punkte von GN⁺ 2024-11-23 | 1 Kommentare | Auf WhatsApp teilen
  • Kürzlich gab es das Rätsel, dass große Sprachmodelle (LLMs) schlecht Schach spielen. gpt-3.5-turbo-instruct ist jedoch eine Ausnahme und spielt auf Amateur-Niveau bemerkenswert gut Schach. Dieses Modell ist älter und kleiner als andere neuere Modelle.

  • Es wurden mehrere Theorien vorgeschlagen:

    • Theorie 1: Ausreichend große Basismodelle spielen gut Schach, durch das Instruction-Tuning zu Chat-Modellen jedoch nicht mehr.
    • Theorie 2: gpt-3.5-turbo-instruct könnte mit mehr Schachdaten trainiert worden sein.
    • Theorie 3: An bestimmten LLM-Architekturen ist etwas Besonderes.
    • Theorie 4: Es gibt eine „Konkurrenz“ zwischen Datentypen, sodass ein LLM viele Schachpartie-Daten braucht, um gut Schach zu spielen.
    • Theorie 5: Die Behauptung, OpenAI würde tricksen.
    • Theorie 6: Die Behauptung, LLMs könnten in Wirklichkeit gar kein Schach spielen.
  • Die Behauptung, OpenAI würde tricksen, ist schwer glaubhaft. gpt-3.5-turbo-instruct wählt Züge anders als eine Schach-Engine und ist nach Expertenmaßstäben nicht herausragend.

  • LLMs können Schach spielen. gpt-3.5-turbo-instruct schlägt fast nie illegale Züge vor und spielt auch in neuen Brettstellungen gut.

  • gpt-3.5-turbo-instruct ist ein „Completion“-Modell, das Text entgegennimmt und neuen Text erzeugt. gpt-4o-mini und gpt-4o sind „Chat“-Modelle, die System-Prompts und Benutzer-Prompts verwenden.

  • Verschiedene Experimente bestätigen, dass Prompt-Anpassungen, zusätzliche Beispiele und Fine-Tuning die Modellleistung beeinflussen können.

  • Zusätzliche Beispiele hatten einen großen Einfluss auf die Leistung, und auch Fine-Tuning half. Die Vorgabe legaler Züge verschlechterte jedoch die Leistung.

  • Wenn man gpt-4o dazu bringt, eher wie im „Completion“-Modus zu arbeiten, verbessert sich die Leistung. Das deutet darauf hin, dass gpt-4-base gut Schach spielen könnte.

  • Insgesamt ist es wahrscheinlich, dass OpenAIs Basismodelle mit mehr Schachdaten trainiert wurden und dass Chat-Modelle schlechter abschneiden können als Completion-Modelle.

  • Den optimalen Prompt, die besten Beispiele und das beste Fine-Tuning zu finden, ist schwierig und kostspielig.

1 Kommentare

 
GN⁺ 2024-11-23
Hacker-News-Kommentare
  • Der Autor liefert keine Daten zur Häufigkeit illegaler Züge, wodurch es schwer ist, zu sinnvollen Schlussfolgerungen zu kommen

    • Das wäre zum Beispiel so, als würde ein LLM behaupten, ein Arzt auf Expertenniveau zu sein, und dann nur Daten vorlegen, aus denen falsche medizinische Ratschläge ausgeschlossen wurden
  • gpt-3.5-turbo-instruct schlägt selbst im Endspiel fast keine illegalen Züge vor

    • Es wird behauptet, dass dieses Modell Schach "versteht" und "logisch denken" kann
    • Das wird infrage gestellt, da selbst ein Schachspieler auf dem Niveau eines "fortgeschrittenen Amateurs" nur selten illegale Züge macht
  • Als Test dafür, ob es Schach versteht, lässt man es von 1000 zufälligen legalen Positionen aus den nächsten Zug machen

    • Es wird überprüft, ob bei Positionen, die über das Projekt ChessPositionRanking erzeugt wurden, keine illegalen Züge vorgeschlagen werden
    • Solche Positionen sind nützlich, um die Legalität des nächsten Zugs zu testen, aber weniger nützlich, um die Qualität zu unterscheiden
  • Nicht alle liegen falsch

    • Man sollte davon ausgehen, dass veröffentlichte Benchmarks während des Trainings gezielt adressiert werden
    • Es ist naheliegend, dass OpenAI Schachpartien in die Trainingsdaten aufnimmt
  • LLMs fühlen sich an, als würden sie Beschwörungsformeln suchen

    • Es bleibt zu hoffen, dass die technologische Innovation weitergeht; LLMs sind erstaunlich, fühlen sich aber manchmal wie aus einem Science-Fiction-Film an
  • Es wird behauptet, dass Training mit Codebeispielen das "Schlussfolgern" verbessert

    • Wenn das Paper "World Models from Language" funktioniert, sollte Schach der kleinste Anwendungsfall dafür sein
  • Es könnte ein Sonderfall sein, bei dem gpt-3.5-turbo-instruct die Schachnotation erkennt und eine externe Schach-Engine aufruft

    • Es wird die Möglichkeit aufgeworfen, dass ein bestimmtes Modell so trainiert wurde, bei erkannter Schachnotation zu einem anderen LLM zu wechseln
  • Obwohl dem LLM nicht ausdrücklich gesagt wurde, dass es das Spiel gewinnen soll, wurde das Ergebnis gemessen

    • Es wird infrage gestellt, ob dies bereits im Prompt "Du bist ein Schachgroßmeister" impliziert ist
  • Feinabstimmung hilft, und Beispiele können Feinabstimmung ersetzen

    • Es ist interessant, dass das Bereitstellen von Beispielen einen Effekt erzielen kann, der einer Feinabstimmung gleichkommt
  • Es wäre unterhaltsam, mit einem LLM Schach zu spielen, ohne über den Prompt nachzudenken

    • Das könnte eine neue Möglichkeit sein, ein Gefühl dafür zu bekommen, wie ein LLM "denkt"