Die Grenzen des mathematischen Schlussfolgerns von LLMs verstehen

(arxiv.org)

2 Punkte von GN⁺ 2024-10-13 | 1 Kommentare | Auf WhatsApp teilen

Ein höherer GSM8K-Score allein reicht nicht aus, um die tatsächlichen mathematischen Schlussfolgerungsfähigkeiten von LLMs zu beurteilen; GSM-Symbolic ermöglicht durch mehrere Variationen derselben Problemstruktur eine stärker kontrollierte Evaluation
Dieser Benchmark wandelt GSM8K-Aufgaben in symbolische Templates um und variiert Namen, Zahlen und die Anzahl der Bedingungsklauseln; aus 100 Templates werden jeweils 50 Samples erzeugt, also insgesamt 5.000 Beispiele pro Benchmark
Bei 25 aktuellen offenen und geschlossenen Modellen sank die Leistung selbst bei identischer Problemstruktur, wenn nur die Zahlen geändert wurden, und die Varianz nahm zu; die ursprünglichen GSM8K-Scores lagen bei 21 von 25 Modellen rechts von der GSM-Symbolic-Verteilung
Mit zunehmender Zahl von Bedingungsklauseln sank die Genauigkeit und die Varianz stieg; Gemma2-9B-it fiel von 84,4 % bei GSM-M1 auf 41,8 % bei GSM-P2, GPT-4o von 94,4 % auf 88,0 %
Bei GSM-NoOp, wo irrelevante, aber thematisch passend wirkende Klauseln hinzugefügt wurden, brach die Leistung aller Modelle stark ein; Phi-3-mini lag 65,7 Prozentpunkte unter GSM8K und konnte notwendige von unnötigen Informationen nicht stabil unterscheiden

Mathematische Schlussfolgerungsfähigkeit lässt sich nicht allein mit GSM8K erfassen

GSM8K enthält mehr als 8.000 Grundschul-Matheaufgaben mit Lösungen und besteht aus 7.473 Trainingsbeispielen und 1.319 Testbeispielen
Wegen seiner vergleichsweise einfachen, auf den vier Grundrechenarten basierenden Mathematik wird es häufig zur Evaluation von Chain-of-Thought (CoT)-Prompting verwendet
Bei einer einzelnen festen Testset-Struktur erhält man nur eine einzige Genauigkeit, sodass sich das Verhalten von Modellen bei Fragevarianten oder Schwierigkeitsänderungen nur schwer kontrolliert untersuchen lässt
Je verbreiteter ein Benchmark ist, desto größer ist auch die Möglichkeit einer Datenkontamination, bei der Testbeispiele zufällig in die Trainingsdaten der Modelle gelangen
GSM-Symbolic wandelt GSM8K-Aufgaben in symbolische Templates um, erzeugt daraus verschiedene Varianten und bewertet die mathematische Schlussfolgerungsleistung von LLMs nicht als Einzelwert, sondern als Leistungsverteilung
Die GSM-Symbolic-Templates und die generierten Daten sind unter apple/ml-gsm-symbolic veröffentlicht

Erzeugung der Templates und Evaluationsmethode

GSM-Symbolic entsteht, indem bestimmte Beispiele aus dem GSM8K-Testset in parsebare Templates umgewandelt werden
- Es werden Variablen, Wertebereiche der Variablen und Bedingungen festgelegt, die die Korrektheit der Antwort garantieren
- Wegen der Eigenschaften von Grundschul-Matheaufgaben werden häufig Bedingungen wie glatte Teilbarkeit verwendet, damit die Antwort eine ganze Zahl ist
- Allgemeine Eigennamen wie Personennamen, Lebensmittel oder Währungen werden genutzt, um die Template-Erzeugung zu vereinfachen
Nach der Template-Erzeugung folgen mehrere automatische Prüfungen
- Es wird geprüft, ob ursprüngliche Variablenwerte im Template verblieben sind
- Es wird kontrolliert, ob die ursprünglichen Werte alle Bedingungen erfüllen
- Es wird geprüft, ob die erzeugte Endantwort mit der Antwort des ursprünglichen Problems übereinstimmt
- Pro Template werden zufällig 10 Samples manuell überprüft
- Wenn nach der Evaluation aller Modelle mindestens 2 Modelle eine Aufgabe nicht lösen konnten, wird sie erneut manuell überprüft
Die Zahlenbereiche werden nahe am ursprünglichen GSM8K-Testset gehalten
- Ziel ist nicht die arithmetische Fähigkeit selbst, sondern die Bewertung der logischen Schlussfolgerungsfähigkeit
- Die Analyse im Anhang bestätigt, dass erweiterte Zahlenbereiche innerhalb der Grenzen liegen, in denen die arithmetische Genauigkeit der Modelle erhalten bleibt
In die Evaluation fließen mehr als 20 offene Modelle von 2B bis 27B sowie aktuelle geschlossene Modelle wie GPT-4o-mini, GPT-4o, o1-mini und o1-preview ein
Insgesamt wurden etwa 500 Evaluationen durchgeführt; die Experimente im Haupttext verwenden einen Benchmark mit 5.000 Beispielen aus 100 Templates und 50 Samples pro Template
Sofern nicht anders erwähnt, werden die bei GSM8K und anderen Mathematik-Benchmarks üblichen Einstellungen 8-shot CoT und greedy decoding verwendet
- In Vorversuchen änderte die Zahl der Shots Leistung und Schlussfolgerungen nicht wesentlich

Schwankende Leistung selbst bei gleicher Problemstruktur

In 50 Datensätzen von GSM-Symbolic zeigten alle aktuellen Modelle eine nicht zu vernachlässigende Streuung der Genauigkeit
- Bei Gemma2-9B liegt der Abstand zwischen der schlechtesten und der besten Leistung bei über 12 %
- Bei Phi-3.5-mini beträgt er etwa 15 %
Die Unterschiede zwischen den einzelnen Frageinstanzen bestehen nur in Namen und Zahlen; die gesamte zum Lösen nötige Schlussfolgerungsstruktur ist gleich
Die Leistung auf 100 ursprünglichen GSM8K-Aufgaben liegt bei vielen Modellen mehr als 1 Standardabweichung rechts vom Zentrum der GSM-Symbolic-Leistungsverteilung
- Dieses Phänomen zeigt sich bei 21 von 25 Modellen
- Eine mögliche Erklärung ist Datenkontamination, bei der GSM8K-Testbeispiele zufällig in die Trainingsdaten der Modelle gelangt sind und die Leistung dadurch zu optimistisch gemessen wird
Beim Wechsel von GSM8K zu GSM-Symbolic sinkt die Leistung aller Modelle
- Mistral-7b-it-v0.1: -9,2 Prozentpunkte
- Gemma2-2b und Gemma2-2b-it: jeweils -7,4 Prozentpunkte
- Gemma2-9b, Gemma2-9b-it, Mistral-7b-it-v0.3: jeweils -6,2 Prozentpunkte
- GPT-4o-mini: -2,4 Prozentpunkte, o1-preview: -2,2 Prozentpunkte
- o1-mini: -0,6 Prozentpunkte, GPT-4o: -0,3 Prozentpunkte
Bei Modellen wie Llama3-8b und GPT-4o, deren GSM8K-Leistung näher am Zentrum der GSM-Symbolic-Verteilung liegt, fällt der Leistungsrückgang geringer aus

Empfindlicher gegenüber Zahlenänderungen als gegenüber Namensänderungen

Auch bei allein geänderten Namen schwankt die Leistung, aber die Varianz ist kleiner als bei geänderten Zahlen
Die ursprüngliche GSM8K-Genauigkeit liegt näher am Zentrum der Verteilung, wenn nur Namen geändert werden
- Werden Zahlen geändert oder Namen und Zahlen gemeinsam, verschiebt sich der Mittelwert der Verteilung nach links und die Varianz steigt
Die 8-shot-CoT-Genauigkeit von Gemma2-9b-it beträgt: GSM8K 87,0 %, Namensänderung 88,6±2,0 %, Zahlenänderung 83,1±2,2 %, beides geändert 79,1±3,0 %
Bei Phi-3.5-mini-instruct sind es: GSM8K 88,0 %, Namensänderung 89,1±1,8 %, Zahlenänderung 84,9±2,4 %, beides geändert 82,1±3,4 %
Bei Mathstral-7b-v0.1 sind es: GSM8K 80,0 %, Namensänderung 81,0±1,3 %, Zahlenänderung 77,3±2,0 %, beides geändert 74,0±3,5 %
Diese Ergebnisse deuten darauf hin, dass der Schlussfolgerungsprozess von LLMs eher Pattern Matching auf ähnliche Fragen und Lösungsschritte aus den Trainingsdaten sein könnte als formales Schließen

Schwächen bei mehr Bedingungsklauseln und in GSM-NoOp

Die Schwierigkeits-Experimente verwenden in GSM-Symbolic GSM-M1 mit einer entfernten Klausel, GSM-P1 mit einer zusätzlichen Klausel und GSM-P2 mit zwei zusätzlichen Klauseln
- Das Hinzufügen oder Entfernen einer einzelnen Klausel bedeutet nicht zwingend, dass sich die Zahl der benötigten Schlussfolgerungsschritte exakt um eins erhöht oder verringert
- Im Fokus des Experiments steht weniger die genaue Zahl selbst als die Veränderung der Leistungsverteilung
Mit zunehmender Zahl von Klauseln sinkt bei allen Modellen die durchschnittliche Leistung und die Varianz steigt
- Gemma2-9b-it: GSM-M1 84,4±2,4 %, GSM-Symb 79,1±3,0 %, GSM-P1 68,1±4,8 %, GSM-P2 41,8±6,0 %
- Phi-3.5-mini-instruct: 87,6±2,0 %, 82,1±3,4 %, 64,8±5,4 %, 44,8±6,3 %
- GPT-4o-mini: 92,5±1,6 %, 91,7±2,0 %, 81,1±3,1 %, 72,4±4,6 %
- GPT-4o: 94,4±1,6 %, 94,9±1,9 %, 93,9±2,6 %, 88,0±3,4 %
- o1-mini: 94,9±1,5 %, 94,5±1,6 %, 94,3±2,6 %, 89,1±3,6 %
GSM-NoOp ist ein Datensatz, der den GSM-Symbolic-Templates Klauseln hinzufügt, die für die Lösung nicht nötig sind, aber relevant wirken
- Im Beispiel hat die Information „5 der am Sonntag geernteten Kiwis waren etwas kleiner als der Durchschnitt“ keinen Einfluss auf die Berechnung der Gesamtzahl der Kiwis
- o1-mini und Llama3-8B machten daraus fälschlich eine Subtraktion dieser 5 Stück von der Sonntagsmenge
Die Modelle neigen dazu, Sätze eher in Rechenoperationen umzusetzen, als sie anhand ihrer Bedeutung zu ignorieren
- Beobachtet wurden auch Fälle, in denen Ausdrücke wie „discount“ kontextunabhängig als Multiplikation interpretiert wurden
In GSM-NoOp fiel die Leistung aller getesteten Modelle stark ab
- Phi-3-mini-128k-instruct: -65,7 Prozentpunkte gegenüber GSM8K
- Phi-3-small-128k-instruct: -64,0 Prozentpunkte
- Gemma2-9b und Gemma2-9b-it: jeweils -63,0 Prozentpunkte
- Phi-3.5-mini-instruct: -62,5 Prozentpunkte
- GPT-4o-mini: -40,0 Prozentpunkte, GPT-4o: -32,0 Prozentpunkte
- o1-mini: -29,1 Prozentpunkte, o1-preview: -17,5 Prozentpunkte
Auch in der NoOp-Symb-Konfiguration, in der 8 GSM-Symbolic-Varianten derselben Frage als Shots gegeben werden, bleibt die Leistung innerhalb der Standardabweichung
- Phi-3-medium-128k-instruct: GSM 87,3 %, GSM-Symb 82,5 %, GSM-NoOp 29,4 %, NoOp-Symb 30,2 %, NoOp-NoOp 22,6 %
- Llama3-8b-instruct: GSM 76,0 %, GSM-Symb 74,6 %, GSM-NoOp 18,6 %, NoOp-Symb 19,6 %, NoOp-NoOp 19,2 %
Auch in der NoOp-NoOp-Konfiguration, in der 8 andere GSM-NoOp-Aufgaben als Shots gegeben werden, ist die Erholung der Leistung begrenzt
- Llama3-8B erreicht die gleiche Leistung wie beim ursprünglichen NoOp
- Bei Phi-3 sinkt die Leistung leicht
Einige Modelle mit niedriger Leistung auf GSM8K und GSM-Symbolic zeigen in NoOp-Symb bessere Werte
- Gemma2b: GSM 12,1 %, GSM-Symb 8,2 %, GSM-NoOp 4,7 %, NoOp-Symb 48,3 %, NoOp-NoOp 3,1 %
- Mistral-7b-v0.1: GSM 44,5 %, GSM-Symb 41,1 %, GSM-NoOp 16,2 %, NoOp-Symb 62,5 %, NoOp-NoOp 14,5 %
Insgesamt zeigen die Ergebnisse, dass mathematisches Schlussfolgern von LLMs anfällig für Varianten derselben Aufgabe, leichte Erhöhungen der Schwierigkeit und das Hinzufügen irrelevanter Informationen ist und eher probabilistischem Pattern Matching ähneln könnte

1 Kommentare

GN⁺ 2024-10-13

Meinungen auf Hacker News

Ich würde nicht stark behaupten, dass LLMs tatsächlich schlussfolgern, aber die Art des Leistungsabfalls ähnelt dem, was man bei Erstsemestern sieht.
Ich unterrichte gerade Analysis, und fast die Hälfte der Studierenden hat in der Highschool AP Calculus belegt. Einfache Aufgaben lösen sie gut, aber sobald sie auch nur mehrere einfache Schritte aneinanderreihen müssen, sinkt die Genauigkeit und die Streuung nimmt zu.
Wenn man irrelevante Sätze in die Aufgabe einfügt, erhält man ähnliche Ergebnisse. Viele Studierende wurden darauf trainiert, alle gegebenen Informationen zu verwenden; lässt man etwas weg, das die Lehrkraft angegeben hat, denken sie daher leicht, sie hätten etwas Wichtiges übersehen.
Deshalb sehe ich moderne LLMs wie GPT-4o in etwa auf dem Niveau eines durchschnittlichen Highschool-Absolventen in den USA. Aus Sicht menschlicher Leistung ist das enttäuschend, für LLMs ist es aber auch ein gutes Zeichen, dass sie bereits vielen Menschen helfen können.
- Wenn ein LLM richtig liegt, ist das eher so, als würde es dank der enormen Informationsmenge, die es im Training aufgenommen hat, die richtige Antwort probabilistisch aus seinem Modellinneren hervorholen.
  Menschen müssen keine Milliarde Matheaufgaben und Stack-Overflow-Antworten lesen; sie haben ausgefeiltere Wege entwickelt, Daten zu verarbeiten und zu schlussfolgern, mit ein paar Erklärungen, YouTube-Videos und einigen Übungsaufgaben.
  Dass in Bereichen wie Highschool-Mathematik ähnliche Punktzahlen herauskommen, kann daran liegen, dass heutige KI und Menschen zufällig am selben Punkt stehen. Schaut man sich die Fehlermuster genauer an, scheitern beide sehr unterschiedlich, und die Fehler heutiger KI wirken auf Menschen ziemlich absurd.
- Die Aussage, „moderne LLMs wie GPT-4o seien etwa auf dem Niveau eines durchschnittlichen Highschool-Absolventen in den USA“, kann im strengen Sinn stimmen, aber der Unterschied in der Art, wie LLMs und Highschool-Absolventen eingesetzt werden, ist sehr wichtig.
  LLMs antworten mit derselben Zuversicht, egal ob sie richtig oder falsch liegen, und werden Nutzern oft so präsentiert, als seien sie unanfechtbar.
  Fragt man eine durchschnittliche Person eine mittelschwere Logikaufgabe, zweifelt ein Mensch die Antwort angemessen an, weil er gesellschaftlich darauf geprägt ist, in Logik nicht besonders stark zu sein. Ein LLM dagegen läuft auf einem Computer, und Computer wurden über ihre Interfaces lange als etwas wahrgenommen, das in Mathematik und Logik immer richtig liegt.
  Daher glaube ich, dass LLMs eher viele Menschen in die Irre führen als vielen Menschen helfen werden.
- Ich frage mich, ob Highschool-Prüfungsaufgaben einfach zu simpel sind oder ob es in den Trainingsdaten zu viele ähnliche Muster gibt.
  Wenn man einfache, aber neue Aufgaben stellt, die ein echtes Verständnis grundlegender mathematischer Konzepte erfordern, fielen die Ergebnisse durchgehend schlecht aus; bei Aufgaben auf dem Niveau chinesischer Aufnahmeprüfungen für die Highschool war es genauso.
  LLMs schienen Mathematik nicht zu verstehen, sondern Pattern Matching zu betreiben, und solches Pattern Matching kann nur für Schüler nützlich sein, die bereits über Fähigkeiten verfügen.
- Ich verstehe nicht, warum die Leute immer noch verwirrt sind. Diese Modelle haben grundsätzlich Zufallsparameter, um deterministische Ausgaben zu vermeiden und so zu wirken, als würden sie wirklich denken; daher scheint klar, dass keine Schlussfolgerung stattfindet.
- Ich will das US-Schulsystem nicht herabsetzen, aber ich halte es für ziemlich nah am Easy Mode. Nicht jeder muss akademisch herausragend sein, aber in jungen Jahren lernt man leichter, und ich glaube, dass zu viel An-die-Hand-Nehmen dem Lernen schadet.
Dieser Artikel zeigt, dass die Leistung von LLMs bei grundlegenden Algebraaufgaben deutlich schlechter wird, wenn irrelevante Informationen hinzugefügt werden.
Ein Beispiel ist eine Aufgabe wie: „John pflückte am Montag 43 Kiwis und am Dienstag 24; von den Kiwis, die er am Mittwoch pflückte, waren 5 kleiner als üblich. Wenn er am Montag, Dienstag und Mittwoch zusammen 87 Kiwis pflückte, wie viele pflückte er am Mittwoch?“
Dass einige Kiwis vom Mittwoch kleiner waren, ist irrelevant, aber wenn man einen solchen Satz einfügt, fällt die Leistung in bekannten Benchmarks bei GPT-4o von 95 % auf 77 %.
Allerdings finde ich das nicht besonders beeindruckend. Auch ein Mensch müsste beim Lesen einer solchen Aufgabe zwei Möglichkeiten in Betracht ziehen: Es könnte irrelevante Information sein, oder die Aufgabe könnte fehlerhaft formuliert sein und die Information sollte ursprünglich relevant sein.
Bei LLM-Fallenfragen, die bekannte Logikrätsel umdrehen, würde ich vermutlich auch „falsch“ liegen. Nicht, weil ich die Aufgabe nicht verstehe, sondern weil man ohne Kontext annehmen könnte, dass die Umkehrung ein Tippfehler ist.
- Solche kleinen Fallen einzubauen, ist in der Mathematik- und Physikdidaktik eine Taktik, um zu prüfen, ob Studierende nicht nur mechanisch der Oberflächenstruktur der vorherigen Aufgabe folgen, sondern eine neue Aufgabe tatsächlich verstehen.
  Das Argument hier lautet, dass LLMs nicht schlussfolgern, sondern mechanisch antworten, als würden sie eine Kurbel drehen.
  Diese Aufgabe wäre selbst in einer Matheprüfung der 6. Klasse nicht ungewöhnlich. Ich erinnere mich deutlich daran, bei Textaufgaben gelernt zu haben, zwischen Informationen zu unterscheiden, die für die eigentliche Frage relevant sind, und Köderinformationen, die die Lehrkraft eingebaut hat.
- In realer Kommunikation sind aus allen möglichen Gründen viele irrelevante Informationen enthalten.
  Es gibt zwar enge Kontexte wie Wissenschaft oder Fachgebiete, in denen Fragen vorsichtig und konkret gestellt werden, aber ein universelles Hilfswerkzeug muss in der Lage sein, das Relevante im Irrelevanten zu finden.
  Die Fähigkeit, sehr klar definierte Mathematikaufgaben gut zu lösen, kann für Hilfswerkzeuge in bestimmten Bereichen nützlich sein, ist aber nicht dieselbe Fähigkeit an sich.
  Wenn ein KI-Projekt 100 Milliarden Dollar darauf setzt, AGI zu erreichen, ist es vorteilhaft, diese Kontexte zu vermischen. In so einem Fall ist das Optimieren auf formale Aufgaben wie SAT, LSAT oder GRE eher ein Ausrichten auf Mikrobenchmarks als auf reale Anwendungsfälle.
- Irrelevante Informationen zu erkennen, wird schon in der Grundschule gelehrt und ist auch beim SAT eine erforderliche Fähigkeit.
  Im Grunde muss jede Art von Modell irrelevante Informationen herausfiltern, egal ob LLM, maschinelles Lernen oder etwas anderes.
  Entscheidend ist, eine logisch vertretbare Antwort zu geben, der die meisten zustimmen würden. Wenn ein Modell gesagt hätte: „Ich bin nicht sicher, ob dieser Teil ein Tippfehler ist“, hätten die Modellentwickler die RLHF-Ausrichtung anders gesetzt. Das wäre bis zu einem gewissen Grad vernünftig und vertretbar.
  Bei dieser konkreten Aufgabe sehe ich jedoch eine einzige objektive Antwort. Natürlich gilt das nicht immer für irreführende oder irrelevante Prompts, aber der Antwortweise nach wird das Modell tatsächlich hereingelegt.
  So sehe ich es, weil ich als RLHF-Worker gelegentlich angewiesen werde, ähnliche Fragen zu schreiben. Letztlich ist genau das die Art der Sprachvorhersage, die die Modellentwickler wollen, und die Nutzer springen gewissermaßen auf diesen Zug auf.
- Ich halte dieses Ergebnis für plausibel. Transformer-Modelle führen Logik nicht explizit aus, sondern „erraten“ Antworten über Aufmerksamkeitsmechanismen auf Basis der Eingabesequenz und des gelernten Wissens; am Ende sagen sie Textsequenzen voraus.
  Deshalb ist es sehr wahrscheinlich, dass zusätzlicher irrelevanter Kontext in der Eingabe die Ausgabe beeinflusst.
  Der Aufmerksamkeitsmechanismus kann das vielleicht überwinden, aber wenn nicht, ist das für reale Anwendungen und Zuverlässigkeit eine ziemlich große Falle. In echten Umgebungen ist oft nicht sofort klar, welche Informationen relevant sind.
  Wenn Menschen entscheiden müssen, welche Informationen sie einfügen, und die Ausgabe von dieser Entscheidung abhängt, sinkt die Nützlichkeit des Modells stark. Es ist auch jetzt nützlich, aber das Niveau, das Investoren erwarten, scheint deutlich darüber zu liegen.
- Die Fähigkeit, das Signal aus dem Rauschen herauszufiltern, ist genauso wichtig wie die Fähigkeit, aus dem Signal eine Schlussfolgerung zu ziehen – vielleicht sogar wichtiger. Deshalb ist dieses Ergebnis bedeutsam.
Dieses Ergebnis ist dem vor einigen Monaten diskutierten Alice in Wonderland-Problem sehr ähnlich. Die Autoren eines anderen Papers sehen es wesentlich kritischer und nennen es einen „vollständigen Zusammenbruch des Schlussfolgerns“.
Man könnte sagen, dass solche Probleme entstehen, weil sich die Modelle in einem Zwischenzustand zwischen Pattern Matching und Schlussfolgern befinden.
Wenn sich das Ergebnis um mehr als 20 Prozentpunkte ändert, sobald man Figuren, Zahlen und Satzstruktur der Aufgabe variiert, halte ich LLM-Benchmark-Ergebnisse zu Mathematik und Schlussfolgern für schwer vertrauenswürdig.
https://arxiv.org/html/2406.02061v1
https://news.ycombinator.com/item?id=40811329
- Es gab ein interessantes Beispiel im Zusammenhang mit Schlussfolgerungsfähigkeit: https://x.com/colin_fraser/status/1834336440819614036
  „Ein Mann wurde ins Krankenhaus eingeliefert. Der Arzt sah ihn an und rief: ‚Ich kann diesen Mann nicht operieren. Er ist mein Sohn!‘ Wie ist das möglich?“
  Alle LLMs, die ich getestet habe, sogar GPT o1-preview, lagen bei dieser Aufgabe falsch. Sie nehmen an, es handle sich um ein Rätsel, das mit dem Geschlechterstereotyp bricht, dass der Arzt ein Mann sei; hier steht aber „he exclaims“, womit klar ist, dass der Arzt männlich ist. Es gibt also keinen Widerspruch, und der Mann kann der Vater des Patienten sein.
  Dass das LLM falsch liegt, scheint daran zu liegen, dass es ein ähnliches Schlussfolgerungsmuster findet und dann anwendet. Auch mit zusätzlicher Anleitung machte es weiter denselben Fehler und behauptete zeitweise sogar, es könne sich um eine gleichgeschlechtliche Beziehung handeln.
  Interessanterweise missverstanden auch viele Leute auf HN die Aufgabe, als dieses Beispiel im O1-Thread auftauchte. Vielleicht nutzen auch Menschen beim Schlussfolgern oft frühere Beispiele, statt von Anfang an nachzudenken.
- Claude-3.5 und o1-preview beantworteten diese Aufgabe korrekt.
  Bei „Alice hat 3 Brüder und 2 Schwestern. Wie viele Schwestern hat Alices Bruder?“ ist der Kern, dass die Brüder zusätzlich zu Alices 2 Schwestern auch Alice selbst als Schwester mitzählen; daher lautet die Antwort insgesamt 3.
- Die größere HN-Diskussion zum Alice-in-Wonderland-Paper ist hier:
  https://news.ycombinator.com/item?id=40585039
Für die Erklärung, dass „mit zunehmender Zahl der Fragesätze die mathematische Schlussfolgerungsleistung stark abnimmt und aktuelle LLMs kein echtes logisches Schließen betreiben“, gibt es auch eine einfachere mögliche Ursache: Tokenisierung
Wenn man „12345 * 27271“ tokenisiert, wird es etwa in „123“, „45“, „ *“, „ “, „272“, „71“ aufgeteilt.
Im Kontext einfacher Arithmetik ist die statistische Wahrscheinlichkeit, dass solche Tokens einander vorhersagen, nahezu bedeutungslos.
Man kann das als Punkt sehen, an dem Tool-Nutzung nötig ist, und ich stimme dem auch zu; aber es ist schwer, das als gutes Zeichen für „echtes logisches Schließen“ zu werten.
- Nanda et al. haben erfolgreich den genauen Mechanismus rekonstruiert, mit dem ein Transformer gelernt hat, modulare Addition auszuführen.
  Bei Transformern sind am Ende die Trainingsdaten entscheidend, und wir werden immer mehr lernen, dass es sehr wichtig ist, in welcher Reihenfolge man die Daten lernen lässt. Klar ist aber, dass Transformer eine verallgemeinerte Lösung für Arithmetik kodieren können.
  Mit geeigneter Tokenisierung und Trainingsprozedur kann man LLMs mit statistisch robuster Rechenfähigkeit bauen. Trotzdem würde ich einem probabilistischen Modell nicht mehr vertrauen als der algorithmischen Gewissheit eines Taschenrechners; für Mathematiker ist aber wichtiger, ob diese Modelle ihnen helfen können, über komplexe Probleme nachzudenken und die statistische Kraft ihrer Gewichte zu nutzen, um neue Bereiche schwieriger mathematischer Probleme zu erschließen.
  https://arxiv.org/abs/2301.05217
- Bei allem Respekt: Ich stimme nicht zu. Tokenisierung beeinflusst zwar die Eingabeverarbeitung von Sprachmodellen, aber die Schwierigkeiten beim mathematischen Schließen vollständig der Tokenisierung zuzuschreiben, ist zu stark vereinfacht.
  Moderne Sprachmodelle stützen sich nicht nur auf die Vorhersage einzelner Tokens, sondern bauen über viele Schichten hinweg Kontextrepräsentationen auf. Andernfalls könnten die Modelle, außer in extrem einfachen Fällen, überhaupt nicht funktionieren.
  Dass die Leistung bei steigender Komplexität sinkt, kann an anderen Faktoren liegen: Grenzen des Arbeitsgedächtnisses oder des Attention-Bereichs, Schwierigkeiten, in langen Sequenzen Konsistenz zu wahren, oder die Mühe, mehrere voneinander abhängige logische Einschränkungen gleichzeitig zu verwalten.
  Jedenfalls denke ich, dass OpenAIs o1-Modell derzeit in Mathematik sehr gut ist. Ein iterativer, modellgetriebener Chain-of-Thought-Ansatz scheint auch ziemlich komplexe Probleme zu bewältigen.
- Würde es bei diesem konkreten Problem nicht helfen, die Tokenisierung nur ein wenig zu ändern, zum Beispiel eine einzelne Ziffer auf ein Token abzubilden?
- Ein LLM dürfte auch wissen, dass „123“ und „45“ zusammen eine fortlaufende Zahl bilden. Ähnlich wie ein Mensch versteht, dass es eine einzige Zahl ist, wenn jemand nach „123“ ganz kurz pausiert und dann „45“ sagt.
Ich finde es schwer zu begreifen, wie töricht die Welt ist, in der wir gerade leben. Es scheint so offensichtlich, dass der Aktienmarkt eine Blase ist, besonders AI-bezogene Aktien eine riesige Blase sind.
Trotzdem fließt weiter Geld hinein, obwohl es sehr hässlich werden wird, wenn sie platzt. Wie Sabine sagte, ähnelt das immer mehr der Teilchenphysik, in der immer größere Collider gefordert werden. Wenn die Methodik falsch ist, bringt ein größerer Collider keine sinnvolleren Erträge.
Irgendwann wird das exponentielle Geld, das man hineinwerfen kann, versiegen, und Investoren werden anfangen, Fragen zu stellen. Aktien werden schon mit mehr als dem 60-Fachen der Gewinne bewertet, und niemand will derjenige sein, der am Gipfel kauft, wenn die Blase platzt.
Es wird noch etwas dauern, bis die breite Öffentlichkeit die Probleme von LLMs erkennt, aber am Ende wird es passieren.
- Die Scaling-Prognosen von vor fünf Jahren haben sich bis jetzt bewahrheitet. Parameter und Rechenaufwand wurden weiter erhöht, und die Modelle wurden immer leistungsfähiger.
  Die Mängel von LLMs im Jahr 2024 sind an sich nicht der Punkt. So wie die Mängel von LLMs im Jahr 2021 nicht der Punkt waren; entscheidend sind die Veränderungsgeschwindigkeit und der Mangel an Belegen dafür, dass dieser steile Anstieg nicht weitergehen wird.
  Besonders wenn man GPT-4 als eine Art Vorschau-Modell betrachtet, das massive Investitionen ausgelöst hat, werden die durch diese Investitionen vorangetriebenen Modelle in den nächsten zwei Jahren erscheinen.
  Wenn der Trend bricht und Scaling scheitert, dürfte aus der Blase viel Luft entweichen.
  https://arxiv.org/pdf/2001.08361
- Computer können seit Jahrzehnten mathematische Berechnungen und logische Deduktion billig und perfekt ausführen, und generative AI muss das nicht unbedingt selbst gut können, um nützlich zu sein.
  Es reicht, wenn sie Python-Code schreiben und ausführen kann, um das zu erledigen, und im Allgemeinen kann sie das ziemlich gut.
  Ob sie es wirklich kann, ist wissenschaftlich eine interessante Frage, aber von ihrer Nützlichkeit getrennt. Um nützlich zu sein, muss sie auch nicht zwingend echte AGI sein.
Es gibt viel Diskussion darüber, ob irrelevante Teilsätze LLMs verwirren und ob das wichtig ist, aber ich halte diesen Teil für gravierender: „Im GSM-Symbolic-Benchmark sinkt die Leistung aller Modelle schon dann, wenn nur die Zahlenwerte der Fragen geändert werden.“
Das wirkt wie ein schwer widerlegbarer Beleg für Overfitting. Im besten Fall bedeutet es, dass Overfitting bei aktuellen LLMs allgemein weit verbreitet ist; im schlimmsten Fall verdeckt es eine grundlegende Grenze, nämlich dass sie mathematisches Schließen nicht aus den Trainingsdaten lernen.
Sehr interessant, und es passt auch zu meinen Erwartungen an die Art von „Denken“, die LLMs leisten.
Mit dieser Art von „Denken“ allein könnten sie vermutlich die meisten Schulfächer bestehen. Ausgenommen natürlich Fächer, in denen Lehrkräfte sich Mühe geben, Prüfungsaufgaben zu stellen, die sich nur schwer durch Pattern Matching lösen lassen.
Wenn man an LeetCode-artige Interviewfragen denkt, ist der Unterschied ähnlich wie bei der Frage, welche Aufgaben zur Bewertung von Kandidaten besser oder schlechter geeignet sind.
Mir ist auch bewusst, dass viele Menschen intensiv daran arbeiten, andere Arten des Denkens hinzuzufügen, die mit reinen Sprachmodellen zusammenarbeiten.
Ich teste LLMs auf ähnliche Weise. Zum Beispiel konnte das berühmte Logikrätsel, bei dem ein Bauer mit Kohl, Ziege und Wolf einen Fluss überquert, schon seit GPT-2 gelöst werden; wenn man den Wolf aber durch eine Kuh ersetzt, leitet gpt-o zwar die Regeln des Rätsels korrekt her, kann es aber nicht lösen.
- Flussüberquerungsrätsel eignen sich gut, um zu zeigen, wie LLMs scheitern.
  Ich habe Gemini zum Beispiel mehrere Varianten gegeben, darunter auch eine einfache Version ohne die Einschränkung, dass das Boot des Bauern jeweils nur einen Passagier oder Gegenstand transportieren kann.
  Fragt man: „Ein Bauer hat einen Ehepartner, ein Huhn, einen Kohl und ein Baby, und alle müssen mit dem Boot den Fluss überqueren. Was ist die beste Methode?“, nahm das LLM in meinen Tests fast immer an, dass das Boot eine Ladungsbeschränkung hat, und erfand eine seltsame Lösung mit mehreren Hin- und Rückfahrten.
- Was würde passieren, wenn man ein völlig neues, nirgendwo dokumentiertes Logikspiel selbst erstellt und ein LLM bittet, es zu lösen? Für mich als Laien wirkt das wie eine gute Methode, das Schlussfolgern einer AI zu messen.
- Ich habe das jedes Mal als erste Frage verwendet, wenn ich ein neues LLM getestet habe, und ich bin ziemlich sicher, dass Modelle vor GPT-4 kaum je auch nur in die Nähe der richtigen Antwort kamen. Kannst du einen Prompt zeigen, den GPT-2 oder 3 lösen kann?
- Am Ende heißt das, es ist nichts weiter als schickes Google.
Es wäre interessant, wenn man solche Arbeiten ausweiten könnte, um auch die Grenzen mathematischen Schlussfolgerns bei Tieren und Menschen aufzuzeigen.
So wie ein Hund zum Beispiel niemals die Fourier-Transformation verstehen wird, ist es sehr wahrscheinlich, dass es Ideen gibt, die auch Menschen nicht verstehen können.
Wenn wir unsere Grenzen kennen könnten, frage ich mich, ob wir Maschinen bauen könnten, die auf eine Weise schlussfolgern, wie Menschen es nicht können.
- Schon die Annahme, dass solche Grenzen tatsächlich existieren, könnte naiv sein. Mit „existieren“ sind hier nützliche Grenzen gemeint, die sich konsistent und relativ einfach beschreiben lassen.
  In der Linguistik wurde eine ähnliche Idee über Noam Chomsky untersucht; man versuchte, klare und formalisierte Grenzen des Verstehens zu ziehen, um zu zeigen, wie sich menschliche Fähigkeiten von denen von Tieren unterscheiden.
  Persönlich glaube ich, dass dieser Ansatz endgültig gescheitert ist, aber die Forschung selbst war nicht nutzlos.
Für jemanden, der sich mit formalem Schlussfolgern beschäftigt hat, ist das kein überraschendes Ergebnis. LLMs betreiben im formalen Sinn kein echtes logisches Schließen, und ein SMT-Solver kann das besser.
Wenn die Trainingsdaten zugleich fast alles umfassen, was bislang an Text produziert wurde, lassen sich viele Logikprobleme schon dadurch lösen, dass man „Schlussfolgerungsschritte“ aus den Trainingsdaten anwendet.
Beides kann gleichzeitig wahr sein; das ist kein Widerspruch, sondern eine interessante Dichotomie.

Die Grenzen des mathematischen Schlussfolgerns von LLMs verstehen

Mathematische Schlussfolgerungsfähigkeit lässt sich nicht allein mit GSM8K erfassen

Erzeugung der Templates und Evaluationsmethode

Schwankende Leistung selbst bei gleicher Problemstruktur

Empfindlicher gegenüber Zahlenänderungen als gegenüber Namensänderungen

Schwächen bei mehr Bedingungsklauseln und in GSM-NoOp

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News