- Es gibt viele Debatten darüber, in welchem Maß Large Language Models (LLMs) über eine Theory of Mind verfügen, also die Fähigkeit zu verstehen, was andere wissen und nicht wissen
- Dieses Notebook untersucht einen Teil dieser Frage, indem es 9 LLM-Chatbots bittet, Cheryls Geburtstagsproblem zu lösen (ein bekanntes Logikrätsel, in dem die Figuren zu verschiedenen Zeitpunkten unterschiedliche Wissensstände haben)
Zusammenfassung der LLM-Leistung
- Alle LLMs kannten das Problem bereits, daher musste es im Prompt nicht erklärt werden; es genügte, nur den Namen zu erwähnen
- Die meisten erinnerten sich korrekt an die richtige Antwort des Problems: den 16. Juli
- Keines konnte jedoch ein Programm schreiben, das die Lösung findet
- Kein einziges LLM konnte die unterschiedlichen Wissensstände der Figuren im Zeitverlauf auseinanderhalten
- Zumindest in Bezug auf dieses Problem hatten die LLMs keine Theory of Mind (das könnte daran liegen, dass es unter den Python-Programmen, mit denen LLMs trainiert wurden, kaum Programme gibt, die Theory of Mind behandeln)
Zusammenfassung der Antworten nach LLM
Tatsächlicher Mensch
- Konnte das ursprüngliche Problem korrekt lösen und auch ein Programm schreiben, das neue Datumssets und andere Varianten des Problems verarbeiten kann
- Führte das Konzept
BeliefState ein, also die Menge möglicher Daten, von denen eine Person glaubt, dass sie als Geburtstag infrage kommen
- Modellierte die Aussagen der Figuren als Funktionen, die ein bestimmtes Datum als Eingabe nehmen und
true zurückgeben, wenn es zur Aussage passt
ChatGPT 4o
- Begann mit einer hervorragenden Zusammenfassung des Problems
- Versuchte, eine verallgemeinerte Lösung zu schreiben, konnte aber die unterschiedlichen Glaubenszustände der Figuren im Zeitverlauf nicht nachverfolgen
Microsoft Copilot
- Machte ähnliche Fehler wie ChatGPT
Gemini Advanced
- War insofern gut, als es mehrere Funktionen definierte, konnte aber die Zustandsänderungen im Zeitverlauf nicht richtig behandeln
Meta Llama 405B
- Konnte keine Lösung finden
Claude 3.5 Sonnet
- War insofern gut, als es Beispiele mit unterschiedlichen Daten explizit ausprobierte, berichtete beim zweiten Beispiel aber nur zufällig korrekt, dass es keine Lösung gibt
Perplexity
- Sah vielversprechend aus, da es separate Variablen
albert_knows und bernard_knows hatte, verarbeitete das Problem aber nicht korrekt
- Akzeptiert mögliche Daten als Parameter, ignoriert die Eingabe jedoch und definiert
month_days auf Basis der ursprünglichen Daten
HuggingFace Chat
- War das einzige Modell, das eine Klassendefinition vorschlug, machte aber dennoch ähnliche Fehler
- Nimmt in seinem Konstruktor eine Liste möglicher Daten an, hardcodiert aber die konkreten Monate und Tage des ursprünglichen Problems
You.com
- Machte ähnliche Fehler wie die anderen Modelle, wählte am Ende jedoch ein falsches Datum, statt gar keines zu wählen
Meinung von GN+
- Dieses Problem ist eine interessante Methode, um die Theory-of-Mind-Fähigkeiten von LLMs zu bewerten
- Alle LLMs erinnerten sich an die richtige Antwort, aber keines konnte ein Programm erstellen, das die Veränderungen der Wissensstände der Figuren im Zeitverlauf nachverfolgt
- Das könnte daran liegen, dass solche Arten von Schlussfolgerungen in den Codebeispielen, mit denen LLMs trainiert wurden, nicht enthalten waren
- Um die Leistung von LLMs bei dieser Art von Schlussfolgerungsproblemen zu verbessern, könnte es hilfreich sein, sie mit Programmen zu trainieren, die solche Szenarien ausdrücklich behandeln
- Um unser Verständnis der Theory-of-Mind-Fähigkeiten von LLMs zu erweitern, müssen wir mehr ähnliche Probleme testen
4 Kommentare
Da es sich um eine hochmoderne Zukunftsbranche handelt, ist es so, als würde man auf dem nackten Boden etwas Unbekanntes aufbauen. Dabei ist auch logische Vorstellungskraft erforderlich. Denken Sie an den Gründer von Apple.
Wegen eines Werbeworts ausgeschlossen.
Cheryls Geburtstag wurde bekannt, als er 2015 als Aufgabe bei der Singapore Mathematical Olympiad vorkam; dazu gibt es sogar eine Wikipedia-Seite.
(Tatsächlich soll es wohl auch schon eine frühe Version aus dem Jahr 2006 gegeben haben.)
https://en.wikipedia.org/wiki/Cheryl%27s_Birthday
Die Aufgabe lautet wie folgt.
Albert und Bernard haben sich mit Cheryl angefreundet und fragen sie nach ihrem Geburtstag.
Cheryl nennt ihnen zehn mögliche Daten.
Cheryl verrät Albert den „Monat“ ihres Geburtstags und Bernard den „Tag“ des Geburtstags.
Albert: Ich weiß nicht, wann Cheryls Geburtstag ist, aber ich weiß, dass Bernard es auch nicht wissen kann.
Bernard: Ich wusste anfangs auch nicht, wann Cheryls Geburtstag ist. Aber jetzt weiß ich es.
Albert: Dann weiß ich jetzt auch, wann Cheryls Geburtstag ist.
Wann ist Cheryls Geburtstag?
Hacker-News-Kommentare
find_cheryls_birthdayanalysiert mögliche Daten und findet damit Cheryls Geburtstag