5 Punkte von GN⁺ 2024-10-06 | 4 Kommentare | Auf WhatsApp teilen
  • Es gibt viele Debatten darüber, in welchem Maß Large Language Models (LLMs) über eine Theory of Mind verfügen, also die Fähigkeit zu verstehen, was andere wissen und nicht wissen
  • Dieses Notebook untersucht einen Teil dieser Frage, indem es 9 LLM-Chatbots bittet, Cheryls Geburtstagsproblem zu lösen (ein bekanntes Logikrätsel, in dem die Figuren zu verschiedenen Zeitpunkten unterschiedliche Wissensstände haben)

Zusammenfassung der LLM-Leistung

  • Alle LLMs kannten das Problem bereits, daher musste es im Prompt nicht erklärt werden; es genügte, nur den Namen zu erwähnen
  • Die meisten erinnerten sich korrekt an die richtige Antwort des Problems: den 16. Juli
  • Keines konnte jedoch ein Programm schreiben, das die Lösung findet
  • Kein einziges LLM konnte die unterschiedlichen Wissensstände der Figuren im Zeitverlauf auseinanderhalten
  • Zumindest in Bezug auf dieses Problem hatten die LLMs keine Theory of Mind (das könnte daran liegen, dass es unter den Python-Programmen, mit denen LLMs trainiert wurden, kaum Programme gibt, die Theory of Mind behandeln)

Zusammenfassung der Antworten nach LLM

Tatsächlicher Mensch

  • Konnte das ursprüngliche Problem korrekt lösen und auch ein Programm schreiben, das neue Datumssets und andere Varianten des Problems verarbeiten kann
  • Führte das Konzept BeliefState ein, also die Menge möglicher Daten, von denen eine Person glaubt, dass sie als Geburtstag infrage kommen
  • Modellierte die Aussagen der Figuren als Funktionen, die ein bestimmtes Datum als Eingabe nehmen und true zurückgeben, wenn es zur Aussage passt

ChatGPT 4o

  • Begann mit einer hervorragenden Zusammenfassung des Problems
  • Versuchte, eine verallgemeinerte Lösung zu schreiben, konnte aber die unterschiedlichen Glaubenszustände der Figuren im Zeitverlauf nicht nachverfolgen

Microsoft Copilot

  • Machte ähnliche Fehler wie ChatGPT

Gemini Advanced

  • War insofern gut, als es mehrere Funktionen definierte, konnte aber die Zustandsänderungen im Zeitverlauf nicht richtig behandeln

Meta Llama 405B

  • Konnte keine Lösung finden

Claude 3.5 Sonnet

  • War insofern gut, als es Beispiele mit unterschiedlichen Daten explizit ausprobierte, berichtete beim zweiten Beispiel aber nur zufällig korrekt, dass es keine Lösung gibt

Perplexity

  • Sah vielversprechend aus, da es separate Variablen albert_knows und bernard_knows hatte, verarbeitete das Problem aber nicht korrekt
  • Akzeptiert mögliche Daten als Parameter, ignoriert die Eingabe jedoch und definiert month_days auf Basis der ursprünglichen Daten

HuggingFace Chat

  • War das einzige Modell, das eine Klassendefinition vorschlug, machte aber dennoch ähnliche Fehler
  • Nimmt in seinem Konstruktor eine Liste möglicher Daten an, hardcodiert aber die konkreten Monate und Tage des ursprünglichen Problems

You.com

  • Machte ähnliche Fehler wie die anderen Modelle, wählte am Ende jedoch ein falsches Datum, statt gar keines zu wählen

Meinung von GN+

  • Dieses Problem ist eine interessante Methode, um die Theory-of-Mind-Fähigkeiten von LLMs zu bewerten
  • Alle LLMs erinnerten sich an die richtige Antwort, aber keines konnte ein Programm erstellen, das die Veränderungen der Wissensstände der Figuren im Zeitverlauf nachverfolgt
  • Das könnte daran liegen, dass solche Arten von Schlussfolgerungen in den Codebeispielen, mit denen LLMs trainiert wurden, nicht enthalten waren
  • Um die Leistung von LLMs bei dieser Art von Schlussfolgerungsproblemen zu verbessern, könnte es hilfreich sein, sie mit Programmen zu trainieren, die solche Szenarien ausdrücklich behandeln
  • Um unser Verständnis der Theory-of-Mind-Fähigkeiten von LLMs zu erweitern, müssen wir mehr ähnliche Probleme testen

4 Kommentare

 
comsect62 2024-10-08

Da es sich um eine hochmoderne Zukunftsbranche handelt, ist es so, als würde man auf dem nackten Boden etwas Unbekanntes aufbauen. Dabei ist auch logische Vorstellungskraft erforderlich. Denken Sie an den Gründer von Apple.

 
moderator 2024-10-08

Wegen eines Werbeworts ausgeschlossen.

 
xguru 2024-10-07

Cheryls Geburtstag wurde bekannt, als er 2015 als Aufgabe bei der Singapore Mathematical Olympiad vorkam; dazu gibt es sogar eine Wikipedia-Seite.
(Tatsächlich soll es wohl auch schon eine frühe Version aus dem Jahr 2006 gegeben haben.)

https://en.wikipedia.org/wiki/Cheryl%27s_Birthday

Die Aufgabe lautet wie folgt.

Albert und Bernard haben sich mit Cheryl angefreundet und fragen sie nach ihrem Geburtstag.
Cheryl nennt ihnen zehn mögliche Daten.

    1. Mai, 16. Mai, 19. Mai
    1. Juni, 18. Juni
    1. Juli, 16. Juli
    1. August, 15. August, 17. August

Cheryl verrät Albert den „Monat“ ihres Geburtstags und Bernard den „Tag“ des Geburtstags.

Albert: Ich weiß nicht, wann Cheryls Geburtstag ist, aber ich weiß, dass Bernard es auch nicht wissen kann.
Bernard: Ich wusste anfangs auch nicht, wann Cheryls Geburtstag ist. Aber jetzt weiß ich es.
Albert: Dann weiß ich jetzt auch, wann Cheryls Geburtstag ist.

Wann ist Cheryls Geburtstag?

 
GN⁺ 2024-10-06
Hacker-News-Kommentare
  • Vor langer Zeit wurde eine Version namens "Cheryl's Murder" erstellt. Ein Notebook kann logische Induktionsprobleme wie "Cheryl's Birthday" lösen und erzeugen
  • Gp1-o1 hat dieses Rätsel in 13 Sekunden korrekt gelöst; die logische Herleitung und Erklärung waren gründlich. Es wirkt unfair, zu verlangen, dass die Rätseldefinition aus den Trainingsdaten übernommen wird
  • o1 mini hat das Rätsel beim ersten Versuch gelöst und funktionierte mit dem im Notebook bereitgestellten Beispiel
    • Die Funktion find_cheryls_birthday analysiert mögliche Daten und findet damit Cheryls Geburtstag
  • Das Problem bei der Bewertung von LLMs ist, dass Zufallselemente und die genaue Formulierung des Prompts wichtig sind. Claude wurde gebeten, das Problem zu erklären und Python-Code zu schreiben; dabei trat eine Ausnahme auf, aber nach einer Korrektur wurde die richtige Antwort erhalten
  • Da Python-Beispiele in den Trainingsdaten leicht zugänglich sind, halte ich diesen Testfall für ungeeignet. Dass Modelle ihn nicht lösen können, ist interessant
  • LLMs und NLP übernehmen bei sprachlichem Schlussfolgern eine ähnliche Rolle wie Taschenrechner. Natürliche Sprache ist mehrdeutig und in ihrer Bedeutung flexibel. Matheaufgaben in Satzform lösen zu lassen, ist Zeitverschwendung
  • Die Erwartungen an den Fortschritt von KI verschieben sich ständig. LLMs sind intelligenter als durchschnittliche Menschen und könnten Menschen bei praktischer kognitiver Arbeit übertreffen
  • Aus der Unfähigkeit von LLMs, bestimmte Fragen zu beantworten, Schlüsse zu ziehen, könnte am Prinzip „in der nächsten Iteration möglich“ scheitern
  • Dieses Problem ist nur ein Logikrätsel, kein echter Test für "Theory of Mind". Es ist möglich, dass LLMs die Fähigkeit haben, menschliches Verhalten zu modellieren
  • Claude 3.5 Sonnet hat das Problem beim ersten Versuch gelöst und ein Python-Programm geschrieben, das gültige Datumsmengen erzeugt. Es gab keine Schwierigkeiten bei der Lösung dieses Problems