LLM, Theory of Mind und Cheryls Geburtstag

Es gibt viele Debatten darüber, in welchem Maß Large Language Models (LLMs) über eine Theory of Mind verfügen, also die Fähigkeit zu verstehen, was andere wissen und nicht wissen
Dieses Notebook untersucht einen Teil dieser Frage, indem es 9 LLM-Chatbots bittet, Cheryls Geburtstagsproblem zu lösen (ein bekanntes Logikrätsel, in dem die Figuren zu verschiedenen Zeitpunkten unterschiedliche Wissensstände haben)

Zusammenfassung der LLM-Leistung

Alle LLMs kannten das Problem bereits, daher musste es im Prompt nicht erklärt werden; es genügte, nur den Namen zu erwähnen
Die meisten erinnerten sich korrekt an die richtige Antwort des Problems: den 16. Juli
Keines konnte jedoch ein Programm schreiben, das die Lösung findet
Kein einziges LLM konnte die unterschiedlichen Wissensstände der Figuren im Zeitverlauf auseinanderhalten
Zumindest in Bezug auf dieses Problem hatten die LLMs keine Theory of Mind (das könnte daran liegen, dass es unter den Python-Programmen, mit denen LLMs trainiert wurden, kaum Programme gibt, die Theory of Mind behandeln)

Zusammenfassung der Antworten nach LLM

Tatsächlicher Mensch

Konnte das ursprüngliche Problem korrekt lösen und auch ein Programm schreiben, das neue Datumssets und andere Varianten des Problems verarbeiten kann
Führte das Konzept BeliefState ein, also die Menge möglicher Daten, von denen eine Person glaubt, dass sie als Geburtstag infrage kommen
Modellierte die Aussagen der Figuren als Funktionen, die ein bestimmtes Datum als Eingabe nehmen und true zurückgeben, wenn es zur Aussage passt

ChatGPT 4o

Begann mit einer hervorragenden Zusammenfassung des Problems
Versuchte, eine verallgemeinerte Lösung zu schreiben, konnte aber die unterschiedlichen Glaubenszustände der Figuren im Zeitverlauf nicht nachverfolgen

Microsoft Copilot

Machte ähnliche Fehler wie ChatGPT

Gemini Advanced

War insofern gut, als es mehrere Funktionen definierte, konnte aber die Zustandsänderungen im Zeitverlauf nicht richtig behandeln

Meta Llama 405B

Konnte keine Lösung finden

Claude 3.5 Sonnet

War insofern gut, als es Beispiele mit unterschiedlichen Daten explizit ausprobierte, berichtete beim zweiten Beispiel aber nur zufällig korrekt, dass es keine Lösung gibt

Perplexity

Sah vielversprechend aus, da es separate Variablen albert_knows und bernard_knows hatte, verarbeitete das Problem aber nicht korrekt
Akzeptiert mögliche Daten als Parameter, ignoriert die Eingabe jedoch und definiert month_days auf Basis der ursprünglichen Daten

HuggingFace Chat

War das einzige Modell, das eine Klassendefinition vorschlug, machte aber dennoch ähnliche Fehler
Nimmt in seinem Konstruktor eine Liste möglicher Daten an, hardcodiert aber die konkreten Monate und Tage des ursprünglichen Problems

You.com

Machte ähnliche Fehler wie die anderen Modelle, wählte am Ende jedoch ein falsches Datum, statt gar keines zu wählen

Meinung von GN+

Dieses Problem ist eine interessante Methode, um die Theory-of-Mind-Fähigkeiten von LLMs zu bewerten
Alle LLMs erinnerten sich an die richtige Antwort, aber keines konnte ein Programm erstellen, das die Veränderungen der Wissensstände der Figuren im Zeitverlauf nachverfolgt
Das könnte daran liegen, dass solche Arten von Schlussfolgerungen in den Codebeispielen, mit denen LLMs trainiert wurden, nicht enthalten waren
Um die Leistung von LLMs bei dieser Art von Schlussfolgerungsproblemen zu verbessern, könnte es hilfreich sein, sie mit Programmen zu trainieren, die solche Szenarien ausdrücklich behandeln
Um unser Verständnis der Theory-of-Mind-Fähigkeiten von LLMs zu erweitern, müssen wir mehr ähnliche Probleme testen

4 Kommentare

comsect62 2024-10-08

Da es sich um eine hochmoderne Zukunftsbranche handelt, ist es so, als würde man auf dem nackten Boden etwas Unbekanntes aufbauen. Dabei ist auch logische Vorstellungskraft erforderlich. Denken Sie an den Gründer von Apple.

moderator 2024-10-08

Wegen eines Werbeworts ausgeschlossen.

xguru 2024-10-07

Cheryls Geburtstag wurde bekannt, als er 2015 als Aufgabe bei der Singapore Mathematical Olympiad vorkam; dazu gibt es sogar eine Wikipedia-Seite.
(Tatsächlich soll es wohl auch schon eine frühe Version aus dem Jahr 2006 gegeben haben.)

https://en.wikipedia.org/wiki/Cheryl%27s_Birthday

Die Aufgabe lautet wie folgt.

Albert und Bernard haben sich mit Cheryl angefreundet und fragen sie nach ihrem Geburtstag.
Cheryl nennt ihnen zehn mögliche Daten.

1. Mai, 16. Mai, 19. Mai
1. Juni, 18. Juni
1. Juli, 16. Juli
1. August, 15. August, 17. August

Cheryl verrät Albert den „Monat“ ihres Geburtstags und Bernard den „Tag“ des Geburtstags.

Albert: Ich weiß nicht, wann Cheryls Geburtstag ist, aber ich weiß, dass Bernard es auch nicht wissen kann.
Bernard: Ich wusste anfangs auch nicht, wann Cheryls Geburtstag ist. Aber jetzt weiß ich es.
Albert: Dann weiß ich jetzt auch, wann Cheryls Geburtstag ist.

Wann ist Cheryls Geburtstag?

GN⁺ 2024-10-06

Hacker-News-Kommentare

Vor langer Zeit wurde eine Version namens "Cheryl's Murder" erstellt. Ein Notebook kann logische Induktionsprobleme wie "Cheryl's Birthday" lösen und erzeugen
Gp1-o1 hat dieses Rätsel in 13 Sekunden korrekt gelöst; die logische Herleitung und Erklärung waren gründlich. Es wirkt unfair, zu verlangen, dass die Rätseldefinition aus den Trainingsdaten übernommen wird
o1 mini hat das Rätsel beim ersten Versuch gelöst und funktionierte mit dem im Notebook bereitgestellten Beispiel
- Die Funktion find_cheryls_birthday analysiert mögliche Daten und findet damit Cheryls Geburtstag
Das Problem bei der Bewertung von LLMs ist, dass Zufallselemente und die genaue Formulierung des Prompts wichtig sind. Claude wurde gebeten, das Problem zu erklären und Python-Code zu schreiben; dabei trat eine Ausnahme auf, aber nach einer Korrektur wurde die richtige Antwort erhalten
Da Python-Beispiele in den Trainingsdaten leicht zugänglich sind, halte ich diesen Testfall für ungeeignet. Dass Modelle ihn nicht lösen können, ist interessant
LLMs und NLP übernehmen bei sprachlichem Schlussfolgern eine ähnliche Rolle wie Taschenrechner. Natürliche Sprache ist mehrdeutig und in ihrer Bedeutung flexibel. Matheaufgaben in Satzform lösen zu lassen, ist Zeitverschwendung
Die Erwartungen an den Fortschritt von KI verschieben sich ständig. LLMs sind intelligenter als durchschnittliche Menschen und könnten Menschen bei praktischer kognitiver Arbeit übertreffen
Aus der Unfähigkeit von LLMs, bestimmte Fragen zu beantworten, Schlüsse zu ziehen, könnte am Prinzip „in der nächsten Iteration möglich“ scheitern
Dieses Problem ist nur ein Logikrätsel, kein echter Test für "Theory of Mind". Es ist möglich, dass LLMs die Fähigkeit haben, menschliches Verhalten zu modellieren
Claude 3.5 Sonnet hat das Problem beim ersten Versuch gelöst und ein Python-Programm geschrieben, das gültige Datumsmengen erzeugt. Es gab keine Schwierigkeiten bei der Lösung dieses Problems