Einfache Aufgabe zeigt Zusammenbruch des Schlussfolgerns in aktuellen LLMs

(arxiv.org)

3 Punkte von GN⁺ 2024-06-06 | 1 Kommentare | Auf WhatsApp teilen

Schon ein kurzes AIW-Problem kann die Generalisierung und das grundlegende Schlussfolgern aktueller LLMs wie GPT-4 oder Claude 3 Opus stark ins Wanken bringen
Das Problem hat die Form „Alice has N brothers and M sisters. How many sisters does Alice’s brother have?“, die richtige Antwort ist M+1, also Alice plus ihre Schwestern
Natürliche Variationen mit N, M ≤ 7 verändern Struktur und Schwierigkeit nicht, doch bei GPT-4 zeigt sich eine Leistungsschwankung, bei der die Trefferquote für Variation 3 nahe 0 und für Variation 4 nahe 1 liegt
Das Anregen von Gedankengängen (chain-of-thought), erneute Überprüfung, Selbstverifikation und Multi-Turn-Interaktion konnten die Fehler nicht zuverlässig beheben; falsche Antworten gingen oft mit plausiblen Erklärungen und Überconfidence einher
Die Ergebnisse der AIW-Light-Kontrollaufgaben deuten darauf hin, dass Sprach-Parsing, Verständnis von Familienbeziehungen, Bindung von Geschlechtsattributen und einfache Arithmetik die Fehler nur schwer erklären; die Fähigkeit bestehender Standard-Benchmarks, Generalisierungsmängel zu erkennen, muss daher neu bewertet werden

Einfache Schlussfolgerungsfehler, sichtbar gemacht durch das AIW-Problem

LLMs wurden anhand hoher Werte in Standard-Benchmarks wie MMLU, HellaSwag, ARC, MATH und GSM8k als stark in Generalisierung und Schlussfolgern bewertet
Diese Einschätzung wurde validiert, indem geprüft wurde, ob dieselben Fähigkeiten auch bei kurzen Alltagsfragen erhalten bleiben, die Menschen leicht lösen können, statt nur bei komplexen Benchmarks
Die AIW-Problemvorlage lautet wie folgt
- „Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?”
- Es wird angenommen, dass alle Geschwister dieselben Eltern haben
- Die Zahl der Schwestern, die Alices Bruder hat, ist M+1, also Alice selbst plus Alices Schwestern
Problemvariationen entstehen durch den Austausch natürlicher Zahlen mit N, M ≤ 7; Struktur und Schwierigkeit bleiben erhalten
- Variation 1: Alice has 3 brothers and 6 sisters → richtige Antwort 7
- Variation 2: Alice has 2 sisters and 4 brothers → richtige Antwort 3
- Variation 3: Alice has 4 sisters and 1 brother → richtige Antwort 5
- Variation 4: Alice has 4 brothers and 1 sister → richtige Antwort 2

Je nach Variation stark schwankende Trefferquote

Die getesteten aktuellen LLMs zeigen beim AIW-Problem und bei strukturerhaltenden Variationen eine niedrige durchschnittliche Trefferquote und große Schwankungen
Bei GPT-4 (gpt-4-0613) änderten sich die Ergebnisse bei jeweils 60 Durchläufen pro Variation stark in Abhängigkeit von den Zahlen im Problem
- Bei Variation 3 liegt die Trefferquote nahe 0
- Bei Variation 4 liegt die Trefferquote nahe 1
- Dasselbe Muster tritt über die Prompt-Typen STANDARD, THINKING und RESTRICTED hinweg auf
Da schon bloße Zahlenänderungen ohne Bezug zur eigentlichen Problemlösung die Leistung schwanken lassen, wird dies als mangelnde Robustheit und Generalisierungsschwäche interpretiert
Auch neuere Schlussfolgerungsmodelle wie DeepSeek-R1 und o1-mini zeigen in Versionen des AIW-Problems starke Leistungsschwankungen und damit dieselbe Anfälligkeit
Große Modelle wie GPT-4/4o, Claude 3 Opus/Claude 3.5 Sonnet, Qwen 2.5 72B und Llama 3.1 405B erreichen Trefferquoten über 0, und bei richtigen Ausgaben ist oft korrektes Schlussfolgern zu erkennen
- Die Häufigkeit korrekter Schlussfolgerung unterscheidet sich jedoch stark je nach natürlicher strukturerhaltender Variation
- Der Kernpunkt ist nicht, dass Schlussfolgern vollständig fehlt, sondern dass es fragil und leicht störbar ist

Einfache Ursachen durch Kontrollaufgaben ausgeschlossen

Um zu prüfen, ob die Fehler auf niedrigstufige Probleme wie natürlichsprachliches Parsing, Zahlenverarbeitung, Verständnis von Familienbeziehungen, Attributbindung oder einfache Arithmetik zurückgehen, wurden AIW-Light-Kontrollaufgaben konstruiert
AIW Light Arithmetic Siblings hat die Form „Alice has N brothers and M sisters. How many siblings does Alice have?”
- Die richtige Antwort ist N+M
- Man muss die Familienbeziehung erfassen und die gegebene Zahl von Brüdern und Schwestern addieren
- Anders als beim ursprünglichen AIW sind weder Mengenoperationen nötig, bei denen Alice zur Menge der Schwestern gezählt wird, noch die Bindung von Geschlechtsattributen
AIW Light Family fragt in der Form „How many brothers does Alice’s sister have?”
- Die richtige Antwort ist N
- Erforderlich ist nur das grundlegende Verständnis der Familienbeziehung und der Entität „Alice’s sister”
- Weder Arithmetik noch Mengenoperationen sind nötig
AIW Light Arithmetic Total Girls fragt „How many girls are there in total?”
- Die richtige Antwort ist wie beim ursprünglichen AIW M+1
- Erforderlich sind das Attribut, dass Alice weiblich ist, das Geschlecht der Schwestern und die Summierung der Gesamtzahl der Mädchen
- Anders als beim ursprünglichen AIW ist keine Mengenverarbeitung nötig, die Alice der Schwesternmenge ihres Bruders zuordnet
Die Ergebnisse der Kontrollaufgaben deuten darauf hin, dass sich die Fehler beim ursprünglichen AIW nicht allein durch Tokenisierung, natürlichsprachliches Parsing, grundlegende Familienstruktur, Attributbindung oder elementare Arithmetik erklären lassen

Prompts und Evaluationsverfahren

Um den Einfluss von Prompt Engineering zu prüfen, verwendeten die Experimente drei zentrale Prompt-Typen
- STANDARD: Anweisung, die Endantwort als natürliche Zahl auszugeben
- THINKING: Aufforderung, sorgfältig nachzudenken, um einen chain-of-thought-Stil zu fördern
- RESTRICTED: Beschränkung darauf, außer der natürlichen Zahl der Endantwort nichts auszugeben
THINKING v2 ist eine kleine Variation von THINKING mit der zusätzlichen Formulierung „step by step“ und zeigt in Kontrollversuchen dasselbe Leistungsprofil wie THINKING
Jede Eingabe hatte die Form <Problemvariation> <Prompt-Typ>; um die Endantwort leicht aus Modellantworten zu parsen, wurde das Format ### Answer: verlangt
- Die Modelle konnten diese Formatanweisung befolgen
- Es wurden auch Kontrollversuche ohne diese Formatanweisung durchgeführt, was zeigte, dass das beobachtete Verhalten nicht davon abhängt
Für jede Kombination aus Modell, Problemvariation und Prompt-Typ wurden mindestens 30 Durchläufe gesammelt
- Die Korrektheit wurde als Bernoulli-Versuch interpretiert
- Die Schätzung der Trefferquote wurde als Erfolgsanteil X/n berechnet
- Mittelwert und Varianz der Wahrscheinlichkeit p wurden geschätzt und mithilfe von Parametern der Beta-Verteilung zur Visualisierung der Leistungsverteilung verwendet
Die Modellauswahl richtete sich auf SOTA-LLMs, die starke Generalisierung und gutes Schlussfolgern beanspruchen und in Standard-Benchmarks sowie Leaderboards hoch rangieren
- Wenn möglich, wurden innerhalb derselben Modellfamilie verschiedene Größen von klein bis groß einbezogen
- Genutzt wurden API-Zugriff oder lokale Bereitstellung auf Basis von vLLM
- In den Experimenten kamen liteLLM und TogetherAI zum Einsatz
- Rohdaten der Antworten, Schätzungen der Trefferquoten und Experimentierroutinen wurden zur Reproduzierbarkeit und gemeinschaftlichen Überprüfung veröffentlicht

Überconfidence bei Fehlern und Neubewertung von Benchmarks

Bei AIW-Variationen mit niedriger Trefferquote liegt der Peak der Verteilung ausgegebener natürlicher Zahlen teils bei einer falschen Antwort, sodass sich das Problem nicht einfach per Mehrheitsentscheid lösen lässt
Falsche Antworten gehen oft mit plausiblen Erklärungen einher
- Das Modell erzeugt überzeugende Sätze, die die falsche Endantwort stützen
- Begleitet wird dies von einem Tonfall, der Sicherheit in die eigene Antwort ausdrückt
- In Situationen, in denen Nutzende die richtige Antwort nicht leicht verifizieren können, können solche Antworten sie zu einer falschen Lösung führen
Auch in Experimenten mit Multi-Turn-Interaktion und Selbstverifikation scheiterten die Modelle daran, eigene Fehler zuverlässig zu erkennen oder falsche Antworten zu korrigieren
Standardinterventionen wie das Anregen von Gedankengängen, die Bitte um erneute Prüfung oder eine mehrstufige Neubewertung konnten die Schwankungen der Trefferquote und die Fehler beim AIW-Problem nicht zuverlässig beheben
Es gibt Fälle, in denen Modelle mit hohen Punktzahlen in Standard-Benchmarks bei einfachen AIW-Variationen eine Trefferquote nahe 0 zeigen; die aktuellen Evaluationsverfahren erkennen Mängel in Generalisierung und Schlussfolgern daher nicht zuverlässig
Die Fähigkeiten aktueller SOTA-LLMs müssen neu bewertet werden, und es werden neue Standard-Benchmarks benötigt, die solche Defizite erfassen können

1 Kommentare

GN⁺ 2024-06-06

Meinungen auf Hacker News

Für alle, die überlegen, ob sie das Paper lesen sollen: Auch wenn das PDF lang aussieht, steckt der Kern des Haupttexts ungefähr in den ersten 10 Seiten, man kann es also recht schnell lesen.
Die hier verwendeten Beispiele sind für Menschen eher einfach, aber wenn man nicht kurz nachdenkt, springt man leicht zu einer falschen Schlussfolgerung.
Wirklich störend ist, dass ich angesichts des Wesens der aktuellen Tools nicht weiß, ob sich das realistisch beheben lässt. Sie schließen oder denken in keiner Bedeutung dieser Wörter, und trotzdem werden sie von vielen bereits als allgemeine KI akzeptiert.
Dass sie in vielen Situationen plausibel so tun können, als würden sie schlussfolgern, heizt den Hype zusätzlich an. Ich weiß nicht, ob dieses Paper tatsächlich Einfluss auf KI-Releases und Übertreibungen haben wird oder ob es, wie beim Start der Google-Suche, untergeht, bis die Risiken erneut sichtbar werden.
- Bis zu einem gewissen Grad erfordert komplexes Schlussfolgern inneren Monolog und Iteration. Beim Denken vom Typ 2 erzeugt und bewertet man im Kopf mögliche Lösungen, Argumente und Schlussfolgerungswege und wählt dann das aus, was angemessen oder richtig erscheint.
  Wenn man diesen inneren Denkprozess per Prompt nach außen zieht, lässt sich das teilweise nachahmen, eigentlich müsste es aber ein interner und automatischer Prozess sein.
  Dass wir noch nicht wissen, wie das geht, liegt daran, dass die Steuerung innerer Denkprozesse nicht zwangsläufig sprachbasiert ist und die inneren Denkprozesse biologischer Gehirne nicht direkt beobachtbar sind und sich daher nicht als Trainingsdaten nutzen lassen.
  Heutige LLMs ähneln in mancher Hinsicht dem Behaviorismus, und tatsächlich scheint etwas nötig zu sein, auf das sich Kognitionspsychologie anwenden lässt: https://en.wikipedia.org/wiki/Behaviorism
- Es könnte eine ziemlich einfache Lösung geben: Das Modell lässt das Problem in einer Logiksprache wie Prolog neu formulieren und führt dann dieses Programm aus, um die Antwort zu erhalten, statt bloß einfache Schlussfolgerungsketten zu trainieren.
  Auch Menschen erzeugen nicht plötzlich ein Logikmodell, sondern durchlaufen jahrelange Grundbildung und lernen dabei, die Welt zu verstehen und Probleme zu lösen.
  Der Ansatz der logischen Programmierung wirkt vielversprechend, aber damit er richtig funktioniert, müsste man LLMs mit enorm vielen Beispielen füttern, und es ist unklar, ob derzeit genügend solcher Trainingsdaten vorhanden sind.
- Für Menschen, die diese Systeme kritisch verstehen und nutzen, ist das im Großen und Ganzen allzu offensichtlich. Es ist entmutigend, dass man offenbar ein PDF auf arxiv.org braucht, um zu sagen, dass der Kaiser nackt ist.
  Die meisten LLM-Nutzer können das, wenn sie wollen, schon jetzt selbst überprüfen.
  Aber die Macht unternehmerischer Tech-Propaganda ist so groß, dass viele stattdessen behaupten werden, Menschen hätten ohnehin nie Kleidung getragen.
- Wenn man ernsthaft darüber nachdenkt, was LLMs sind, sehe ich nicht, wie daraus allgemeine KI entstehen soll. Gleichzeitig leisten sie bereits viel mehr, als wir erwartet hatten.
  Vielleicht sind die Leute so erstaunt darüber, was OpenAI geschafft hat, dass sie nun beten, mit genügend Rechenleistung und dem passenden Modell werde AGI einfach auftauchen.
- Die Frage ist, wie oft Menschen diese Frage ohne Prompt falsch beantworten. Bei einem medianen IQ von 100 und wenn man Menschen ohne Logiktraining oder mit unterschiedlichem Bildungsniveau einbezieht, dürfte die menschliche Trefferquote wohl nicht so nahe bei 1,0 liegen, wie die Autoren andeuten.
  Dass LLMs überhaupt nicht schlussfolgern, ist ziemlich offensichtlich, daher ist es nicht überraschend, dass LLMs nicht schlussfolgern können.
  Überraschend ist eher, dass sie angesichts fehlender Schlussfolgerungsfähigkeit bei Schlussfolgerungsaufgaben so gut abschneiden; kombiniert man natürliche Sprachfähigkeiten mit einer Art abduktivem Schließen, das in Computing-Modellen allgemein schwierig ist, lässt sich kaum etwas anderes daraus ableiten als: „GPT-4o ist beeindruckend“.
Die Frage lautet: „Alice hat 60 Brüder und 212 Schwestern. Wie viele Schwestern hat Alices Bruder?“ Im Paper werden statt Zahlen X und N verwendet.
Ich gebe zu: Als ich es selbst gelöst habe, lag ich falsch, und erst nachdem ich es in GPT-4o eingegeben hatte, habe ich die richtige Antwort bestätigt: https://chatgpt.com/share/6eb5fa36-e0fd-4417-87d1-64caf06c34...
Im Experiment-Prompt gab es die Einschränkung „Gib außer dem Format der richtigen Antwort keinen Text aus“, was offenbar verhindern sollte, dass das Modell laut denkt. Fügt man diesen Satz hinzu, liegt GPT-4o immer wieder falsch: https://chatgpt.com/share/7e6a7201-dd2b-43c6-8427-76e5b003ca...
Bei komplexeren Beispielen scheint GPT-4o einzubrechen, aber ehrlich gesagt ist es schwer zu behaupten, dass diese Aufgabe wirklich so einfach sei oder dass die meisten Menschen sie richtig beantworten würden.
- Im Paper lagen alle Zahlen unter 10.
  AIW Variation 1 war N=3, M=6, C=7, Variation 2 war N=4, M=2, C=3, Variation 3 war N=1, M=4, C=5, und Variation 4 war N=4, M=1, C=2.
  Der eingeschränkte Prompt ist nur eine der mehreren Prompt-Varianten, die im Paper getestet wurden. Das Paper experimentierte auch mit gängigen Techniken zur Verbesserung der LLM-Leistung, darunter „lautes Denken“, aber selbst damit lieferten die Modelle nicht die richtige Antwort.
- Genau diese Einschränkung ist etwas, das Leute häufig machen, die LLMs für dumm halten.
  LLMs werden intelligenter, je mehr sie sagen, weil das Ausgeben die einzige Art ist, wie sie rechnen.
  Das ist ungefähr so, als würde man sagen, eine Turingmaschine erfülle die Church-Turing-These nicht, weil sie 3-SAT mit N Variablen nicht in höchstens N Bewegungen lösen kann. Wenn man ein LLM auffordert, knapp zu sein, verlangt man im Grunde genau so etwas von ihm.
- Es scheint einen Namen für ein neues Phänomen zu brauchen: Wenn jemand sagt, ein LLM könne eine triviale Aufgabe nicht lösen, und eine andere Person daraufhin erklärt, sie selbst könne diese Aufgabe auch nicht lösen, um die Legitimität des LLM zu verteidigen.
  Es fällt schwer zu glauben, dass ein durchschnittlicher Mensch, der ausreichend motiviert ist, es bis zum ChatGPT-Eingabefeld zu schaffen, diese Frage nicht beantworten könnte.
- Ich habe Fälle gesehen, in denen solche Systeme selbst mit „lautem Denken“ stark scheitern und völlig falsche Antworten liefern.
  Außerdem kann man nicht immer laut denken, wenn ein bestimmtes Antwortformat erwartet wird. In der Praxis wirkt es wie ein Hinweis darauf, dass hier kein echtes Schlussfolgern stattfindet, sondern eher Selbstreferenz.
  Als ich selbst denselben Prompt ausprobierte und das Modell laut denken ließ, antwortete es, Alice habe 212 Schwestern.
- Das ist eine wichtige Bedingung, und es ist merkwürdig, dass das Paper sie nicht deutlicher hervorhebt. ChatGPT 4o hat die Aufgabe in meinen Tests jedes Mal gelöst.
  Auch mit dem „an die Hände gebundenen“ Prompt scheint es ordentlich zu funktionieren. Ich frage mich, ob das Paper ungenau ist oder ob OpenAI das Modell angepasst hat; Letzteres wirkt aber eher unwahrscheinlich.
  Berichten zufolge beantwortet 4o dieses Rätsel jedoch zu 60% richtig. Ich habe es bisher nur etwa 12-mal getestet, und alle Antworten waren korrekt, also sollte ich weiter testen.
Ein erheblicher Teil der „Benchmark“-Datensätze zur Bewertung der wichtigsten öffentlichen LLMs steckt ganz offensichtlich in den Trainingsdaten und ist daher für die Überprüfung der Modellzuverlässigkeit fast nutzlos.
Ebenso ziemlich offensichtlich ist, dass ein Teil der Score-Verbesserungen nachfolgender Modellgenerationen darauf zurückgeht, dass diese Benchmark-Daten stärker in den Trainingsdaten enthalten waren.
Um LLMs besser zu bewerten, müsste man neu erstellte Tests verwenden, die nicht in früheren Trainingsdaten enthalten sind, und danach ein paar Wochen warten.
Wie man bei juristischen Prüfungen und verschiedenen anderen Tests gesehen hat, bricht die Leistung stark ein, wenn man echte zukünftige Out-of-Sample-Daten verwendet. Das ist etwas anderes als die heutigen unechten Out-of-Sample-Benchmarks.
- MMLU ist kein Reasoning-Benchmark. Es misst eher, wie breit und repräsentativ die Trainingsdaten waren und wie gut ein Modell auf Basis der Trainingsepochen Dinge abrufen kann.
  GPQA und ähnliche Benchmarks testen in irgendeiner Form Reasoning, und man sieht bei allen Modellen große Unterschiede zwischen den beiden Scores.
- Jedes Mal, wenn ich sehe, dass MMLU als Benchmark verwendet wird, frage ich mich, was damit bewiesen werden soll. MMLU ist ein einfacher Multiple-Choice-Test mit öffentlich bekannten Antworten.
  Durch zufälliges Raten bekommt man schon 25 Punkte; wenn man 50% der Antworten kennt und den Rest rät, landet man bei 62,5%, also ziemlich nah an den Scores moderner LLMs.
  Auch Benchmarks, die angeblich Reasoning zeigen, sind ziemlich dürftig und haben nur wenig mit Reasoning zu tun. Viele Aufgaben lassen sich durch Auswendiglernen beantworten.
  Ich stimme zu, dass die Benchmarks ein Chaos sind. Ich habe auch darüber nachgedacht, selbst einen zu bauen, aber dafür müsste ich zuerst ein komplexes Benchmarking-Framework entwickeln, und es ist schwer, Zeit in diese Vorarbeit zu stecken.
Für die Vorstellung, dass solche Textaufgaben und Aufgaben, an denen LLMs hängen bleiben, „für Menschen leicht zu lösen“ seien, braucht es empirische Daten.
Leute aus der Informatik mögen Rätsel, und solche Aufgaben wirken für sie intuitiv.
Unter denselben Zeitbeschränkungen wie für das LLM könnte der Anteil der Allgemeinbevölkerung, der dieses Rätsel richtig löst, deutlich niedriger liegen, als die Autoren erwarten; in diesem Fall könnte das LLM auf einer ähnlichen Linie wie menschliches Reasoning liegen.
Natürlich habe auch ich keine zitierbare Quelle, aber ich bin nicht derjenige, der das Paper schreibt.
- Als jemand mit Bildungshintergrund glaube ich, dass GPT-4 bei dieser Aufgabe der Leistung der Allgemeinbevölkerung recht nahekommen dürfte. Viele Menschen würden AIW übersehen, und fast alle würden wohl AIW+ übersehen.
  Ich bin bei solchen Aufgaben ziemlich gut, brauche aber selbst für AIW+ ungefähr eine Minute mit Papier und Stift. Das liegt etwa auf dem Niveau der schwierigsten Aufgaben in Tests wie dem GRE.
  Vielleicht erfassen Modelle, die mit Daten aus dem gesamten Internet trainiert wurden, auf irgendeine schwache Weise die kognitiven Ansätze durchschnittlicher Menschen. Wenn durchschnittliche Menschen nicht in dieser Art symbolischer Manipulation denken und auch nicht so schreiben, könnte es bei Modellen, die auf diesen Texten trainiert wurden, genauso sein.
Gemini beantwortete „Alice hat N Brüder und M Schwestern. Wie viele Schwestern hat Alices Bruder?“ ohne zusätzlichen Prompt richtig: https://g.co/gemini/share/6946d20c0a4d
Als Zahlen eingesetzt wurden, kam Gemini durcheinander: „Alice hat 4 Brüder und 3 Schwestern. Wie viele Schwestern hat Alices Bruder?“ https://g.co/gemini/share/14d34dcdc5df
Nachdem ich aber darauf hingewiesen hatte, dass es eine Fangfrage sein könnte, lag es wieder richtig: https://g.co/gemini/share/e1f1ce8f32a8
Die Version mit 60/212 Geschwistern habe ich nicht ausprobiert. Wenn Alice ein menschenähnliches Wesen ist, ist es vernünftig anzunehmen, dass sie keine Hunderte Geschwister hat; daher halte ich die Frage für unfair, wenn man von den Antwortenden die „richtige“ Antwort erwartet
- Gemini hatte ich vergessen. Ich habe gerade meinen Boot-Test ausprobiert, an dem zuvor alle LLMs gescheitert waren, und auch Gemini ist gescheitert: https://news.ycombinator.com/item?id=40455392
  Ich fragte: „Am Flussufer gibt es eine Ziege und ein Boot. Wie kommt man auf die andere Seite? Denke sorgfältig nach und beachte, dass es eine Fangfrage sein könnte.“ Gemini löste es wie eine Variante des Bauern-Wolf-Ziege-Kohl-Problems und erfand unnötigerweise eine Prozedur, um die Ziege hinüberzubringen
  Die erwartete Antwort wäre etwa „Man steigt ins Boot und überquert den Fluss“ gewesen. „Man fährt mit dem Boot und der Ziege hinüber“ könnte ich auch gelten lassen, aber es wurde nicht gefragt, die Ziege hinüberzubringen, also ist es streng genommen falsch
- Gerade die Reaktion, dass jemand nicht Hunderte Geschwister haben könne, zeigt das Problem mit der Behauptung, Menschen hätten „allgemeine Intelligenz“. In Situationen außerhalb der Verteilung geraten sie durcheinander
  Eine echte allgemeine Intelligenz hätte das Wissen angewandt, dass eine Leihmutterschaft etwa 50.000 Dollar kostet, sowie den historischen Kontext von IVF, hätte angenommen, dass ein Milliardärspaar beschlossen hat, Hunderte Kinder zu bekommen, und dann weitergerechnet
  Die Suche nach intelligentem Leben geht weiter
- GPT-4o hat das abstrakte Rätsel richtig gelöst. Als ich es ausprobierte, lag Gemini falsch
Ein interessantes Paper, aber ich mache mir Sorgen, dass es Cherry-Picking eines überraschenden negativen Ergebnisses sein könnte. Das Paper scheint nicht zu diskutieren, wie viele Evaluierungen geprüft wurden, bevor man auf dieses Beispiel stieß
Generell können manche Fehlermuster von KI bei Aufgaben auftreten, die Menschen offensichtlich erscheinen. Das liegt daran, dass Menschen eine andere Architektur und andere Stärken haben
Die wichtige Frage ist, ob dies nur ein einzelner merkwürdiger kognitiver Bug bei der Formulierung von Familienbeziehungen ist oder ob es eine breitere Klasse kognitiver Fehler repräsentiert. Aus diesem Paper allein lässt sich das schwer sagen
Es ist gut bekannt, dass das Framing logischer Probleme die Schwierigkeit für Menschen stark verändern kann, selbst wenn die zugrunde liegende Vergleichsstruktur isomorph ist
Diese Forschungsrichtung ist wichtig, aber es braucht größere Evaluationsbündel, und das Problem, dass Evaluationsdaten ins Training gelangen, wird immer ein Störfaktor bleiben
Die breitere Kategorie des Schlussfolgerns ist hier, wie das Paper sagt, relationales Schließen. Daher wäre es für Folgestudien interessant, die Schlussfolgerungsleistung über Sets isomorpher Probleme hinweg zu betrachten. LLMs sind noch nicht stark im relationalen Schließen, also dürfte sich das bis zu einem gewissen Grad verallgemeinern; zugleich scheint es aber auch etwas Spezielles an der Formulierung mit Familienbeziehungen zu geben, das LLMs durcheinanderbringt
- Training gegen geschlechtsspezifische Verzerrungen halte ich für gut, aber ich kann mir vorstellen, dass solche Formulierungen mit „sister“ und „brother“ kognitive Beeinträchtigungen verursachen könnten
  Denn solche Fragen könnten mit Trainingsdaten verknüpft sein, bei denen die richtige Antwort darin bestand, eine Verallgemeinerung abzulehnen. Reine Spekulation
Als ich GPT-4o direkt fragte, kam ein noch interessanteres Ergebnis heraus als erwartet
Der Prompt lautete: „Alice hat 3 Brüder und 6 Schwestern. Wie viele Schwestern hat Alices Bruder? Löse es Schritt für Schritt“
Die Antwort sagte korrekt, dass es einschließlich Alice selbst insgesamt 7 Schwestern gebe, kam am Ende aber zu dem Schluss: „Jeder Bruder zählt sich selbst nicht als Schwester, also hat er 6 Schwestern“
Das wirkt wie ein typisches Scheitern beim Schritt-für-Schritt-Schlussfolgern, bei dem Zwischenrechnung und Schlussfolgerung kollidieren
Beim AIW+-Problem fehlen Informationen, um es genau so zu lösen, wie es formuliert ist
Nachdem die Autoren Hunderte Familienbeziehungsprobleme erstellt hatten, mag die Antwort offensichtlich gewirkt haben, aber nur aus dem Satz ist unklar, ob Alice Brüder hat, ob der Vater Schwestern hat, ob durch Heirat entstandene Beziehungen bei den Nichten und Neffen von Tanten und Onkeln mitgezählt werden usw.
LLMs würden vermutlich selbst dann noch scheitern, wenn man solche Antworten explizit macht, aber man könnte dasselbe Problem offenbar auch mit „Wie ist es möglich, dass Alice nur 4 Cousins und Cousinen hat?“ enden lassen
Es gibt einen guten Vortrag zu diesem Problem: https://youtu.be/hGXhFa3gzBs?si=15IJsTQLsyDvBFnr
Der Kernpunkt ist, dass LLMs in Planung und Schlussfolgern miserabel sind. Man kann ihnen die Regeln einer Planungsaufgabe geben und ein Ergebnis verlangen, aber selbst wenn die Logik stimmt, hängt die Korrektheit nicht nur von abstrakten Regeln ab, sondern stark von zusätzlicher semantischer Information
Im Vortrag wurde das gezeigt, indem die Substantive in den Regeln und der Eingabebeschreibung der Aufgabe auf völlig andere Domänen abgebildet wurden; schon eine einfache Ersetzung ließ die Leistung einbrechen
Aktuelle LLMs sind größtenteils Pattern-Matcher mit begrenzter Generalisierungsfähigkeit
- Auch Menschen brechen bei Dingen wie statistischem Schließen ein, wenn man die Domäne wechselt. Soweit ich mich erinnere, behandeln die Arbeiten von Leda Cosmides zur Evolutionspsychologie so etwas, aber es könnte auch ein bekannteres Experiment dazu geben
Ein niedliches Paper, aber es ist etwas seltsam, wenn die Autoren so tun, als hätten sie die Problemvorlage „Alice hat N Brüder und M Schwestern …“ erfunden
Das ist eine sehr grundlegende Variante eines gängigen Rätsels, das LLMs häufig gestellt wird: https://news.ycombinator.com/item?id=39786666#39794890
Schon vor 74 Tagen hatte ich dieses Rätsel erwähnt, und auch damals kannte ich es bereits seit ziemlich langer Zeit

Einfache Aufgabe zeigt Zusammenbruch des Schlussfolgerns in aktuellen LLMs

Einfache Schlussfolgerungsfehler, sichtbar gemacht durch das AIW-Problem

Je nach Variation stark schwankende Trefferquote

Einfache Ursachen durch Kontrollaufgaben ausgeschlossen

Prompts und Evaluationsverfahren

Überconfidence bei Fehlern und Neubewertung von Benchmarks

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News