Prozedurales Wissen aus dem Pretraining steuert das Schlussfolgern von LLMs

(arxiv.org)

1 Punkte von GN⁺ 2024-12-03 | 1 Kommentare | Auf WhatsApp teilen

Die Bewertung des Schlussfolgerns von LLMs gerät wegen Benchmark-Sättigung und Datenkontamination ins Wanken; diese Studie verfolgt statt der Modellgewichte die Pretraining-Dokumente, die Ausgaben beeinflusst haben
Für Cohere Command R 7B und 35B, 2,5 Milliarden Pretraining-Tokens und 5 Millionen Dokumente werden die einflussreichen Dokumente für 40 Faktenfragen und 40 Schlussfolgerungsfragen gerankt
Bei Faktenfragen unterschieden sich die einflussreichen Dokumente je nach Frage, während Schlussfolgerungsfragen derselben Mathematikaufgabe über mehrere Fragen hinweg ähnliche Einflussmuster zeigten, was auf prozedurales Wissen hindeutet
Antworten auf Faktenfragen fanden sich häufig in den obersten 0,01 % der einflussreichen Dokumente, während korrekte Antworten oder Zwischenschritt-Antworten bei Schlussfolgerungsfragen meist nicht in den einflussreichsten Dokumenten auftauchten
Schlussfolgern ähnelt eher dem Synthetisieren generalisierbarer Lösungsprozesse aus Dokumenten mit ähnlichen Verfahren als dem Abrufen zuvor gesehener Antworten

Über Benchmark-Kontamination hinaus: Pretraining-Dokumente nachverfolgen

LLMs erzielen auf mehreren Schlussfolgerungs-Benchmarks schnell hohe Leistungen, doch wegen Datenkontamination lassen sich die Werte nicht direkt als Generalisierungsfähigkeit interpretieren
- Im klassischen Machine Learning werden Trainings- und Testdaten getrennt, um Generalisierung zu messen
- Aktuelle State-of-the-Art-Modelle nutzen Daten im Umfang von Billionen Tokens, sodass es schwer ist zu vermeiden, dass Benchmarks in die Pretraining-Daten geraten
- Auch umformulierte Benchmark-Daten können N-Gramm-basierte Erkennung umgehen und dennoch die Leistung beeinflussen
Die Kernfrage ist, wie LLMs Schlussfolgern aus Pretraining-Daten lernen
- Ob sie zuvor gesehene Antworten oder Schlussfolgerungsspuren abrufen und neu kombinieren
- Oder ob sie aus mehreren, abstrakter mit der Frage verbundenen Dokumenten Verfahren lernen und generalisieren
Die Analyse interpretiert nicht direkt die internen Modellgewichte, sondern verfolgt die Pretraining-Dokumente zurück, die eine bestimmte Ausgabe beeinflusst haben
- Dafür wird ein Einflussfunktionsansatz eingesetzt, der robuste statistische Verfahren an große Transformer anpasst
- Berechnet wird, wie stark jedes Pretraining-Dokument die Wahrscheinlichkeit eines bestimmten Prompt-Completion-Paares beeinflusst

Experimentelles Setup

Untersucht wurden die beiden Cohere-Modelle Command R 7B und 35B
Die analysierten Pretraining-Daten umfassen 2,5 Milliarden Tokens und werden als 5 Millionen Dokumente behandelt
Die Abfragen bestehen aus insgesamt 80 Fragen
- 40 Faktenfragen: Fragen, bei denen die Antwort aus parametrischem Wissen abgerufen werden muss
- 40 Schlussfolgerungsfragen: einfache mathematische Schlussfolgerungsfragen
Die Schlussfolgerungsfragen umfassen drei mathematische Aufgabentypen
- zweistufige Arithmetik
- Steigungsberechnung
- Lösen linearer Gleichungen
Für jede Abfrage werden 5 Millionen Pretraining-Dokumente danach gerankt, welchen Einfluss sie auf die Ausgabewahrscheinlichkeit des Modells hatten

Beim Schlussfolgern wirken Dokumente mit demselben Verfahren wiederholt

Verschiedene Schlussfolgerungsfragen innerhalb derselben Mathematikaufgabe zeigen ähnliche Dokument-Einflussmuster
- Der Einfluss eines Dokuments auf die Schlussfolgerungsspur einer Schlussfolgerungsfrage sagt den Einfluss auf andere Fragen derselben Aufgabe stark voraus
- Dieses Muster wurde in 3 von 4 Fällen beobachtet
Dokumente entsprechen nicht nur einer bestimmten Zahl oder einer einzelnen Antwort, sondern tragen ähnlich zu mehreren Fragen bei, bei denen dasselbe Verfahren auf andere Zahlen angewendet wird
Faktenfragen stützen sich dagegen je nach Frage überwiegend auf unterschiedliche Datensätze; ein gemeinsames Einflussmuster wie bei Schlussfolgerungsfragen tritt nicht auf
Bei der Aufgabe zur Steigungsberechnung ist die Korrelation besonders stark
- In vielen Fragen dieses Aufgabentyps wurden innerhalb der obersten 0,002 % der Pretraining-Daten mehrfach Lösungsverfahren in Code- oder Mathematikform gefunden

Faktensuche und Schlussfolgern unterscheiden sich in der Art der einflussreichen Dokumente

Bei Faktenfragen erscheint die Antwort selbst häufig in besonders einflussreichen Dokumenten
- Unter den obersten 500 Dokumenten, also den obersten 0,01 % der einflussreichen Dokumente, enthielten 55 % der Abfragen beim 7B-Modell und 30 % beim 35B-Modell die Antwort
Bei Schlussfolgerungsfragen erscheint die korrekte Antwort kaum in besonders einflussreichen Dokumenten
- Selbst wenn die Antwort in den gesamten 2,5 Milliarden Tokens zu finden ist, erscheint sie normalerweise nicht in den einflussreichsten Dokumenten
- Auch Antworten auf Zwischenschritte der Schlussfolgerung sind in einflussreichen Dokumenten meist nicht enthalten
Bei Schlussfolgerungsfragen ist der Einfluss einzelner Dokumente pro vom Modell erzeugter Informationseinheit in der Regel geringer als bei Faktenfragen
- Beim Erzeugen von Schlussfolgerungsspuren hängt das Modell weniger von einzelnen Dokumenten ab
Auch die gesamte Einflussstärke der Menge einflussreicher Dokumente variiert bei Schlussfolgerungsfragen weniger stark
- Ob eine zufällige Teilmenge der 2,5 Milliarden Pretraining-Tokens sehr einflussreiche Dokumente enthält, hängt bei Faktenfragen stärker vom Zufall ab
Zusammengenommen deuten beide Muster darauf hin, dass Schlussfolgern weniger von einzelnen Dokumenten abhängt und eher aus allgemeineren Dokumentmengen generalisiert

Die Rolle von Code und hochwertigen prozeduralen Daten

In den oberen Rängen positiver und negativer Einflüsse bei mathematischen Schlussfolgerungsfragen sind Code-Daten im Vergleich zur Trainingsverteilung stark überrepräsentiert
Es gibt Hinweise darauf, dass Code bei allen analysierten mathematischen Aufgabentypen eine wichtige Rolle spielt
Das Schlussfolgern des Modells unterscheidet sich vom Abrufen von Antworten aus parametrischem Wissen, das während des Pretrainings entstanden ist
- allgemeine Verfahrensbeschreibungen
- Beispiele, in denen ähnliche Verfahren angewendet werden
- Dokumente, die den Lösungsprozess in Code oder Formeln zeigen
Statt alle möglichen Fälle in die Pretraining-Daten aufzunehmen, könnte es effektiver sein, sich auf hochwertige Daten zu konzentrieren, die Verfahren über verschiedene Schlussfolgerungsaufgaben hinweg zeigen
Der Untersuchungsrahmen ist auf Fälle beschränkt, in denen Verfahren innerhalb derselben Mathematikaufgabe gelernt werden
- Ob es Pretraining-Datentypen wie Code gibt, die prozedurales Lernen über mehrere Aufgaben hinweg ermöglichen, bleibt eine offene weiterführende Frage

1 Kommentare

GN⁺ 2024-12-03

Hacker-News-Kommentare

Es scheint offensichtlich, dass ein LLM in den Trainingsdaten nicht Beispiele für jedes Problem finden kann. Da es kaum genug Beispiele für eine Art informationsretrievalbasierte Faktenabfrage geben dürfte, kann man davon ausgehen, dass es für ein gegebenes Problem durch eine Form von Extrapolation neue Lösungen erzeugt.
Interessant ist, dass dieses Paper auch nicht im Widerspruch zu den Schlussfolgerungen des Apple-LLM-Papers[0] steht. Dieses Paper veränderte Prompts so, dass das LLM Fehler machte, und man kann glauben, dass ein LLM beim Erzeugen neuer Lösungen nur kleine Abweichungen von bestehenden Beispiellösungen erzeugen kann.
Ich mag es nicht, diesen Prozess der Lösungserzeugung „Schlussfolgern“ zu nennen. Für mich ist das eher ein Begriff, den LLM-Firmen geprägt haben, um bei der Beschreibung der Technologie eine emotionale Reaktion auszulösen. Trotzdem ist es ein großer Fortschritt, dass man Maschinen mit natürlicher Sprache und einem gewissen Maß an Mehrdeutigkeit dazu bringen kann, eine Abfolge von Schritten zu befolgen.
[0] https://machinelearning.apple.com/research/gsm-symbolic
- Ich stimme der Sichtweise weitgehend zu, dass LLMs für Schlussfolgern im Sinne kreativer Problemlösung oder der Anwendung von Logik nicht gut geeignet sind. Das eigentliche Potenzial in diesem Bereich sehe ich darin, sie als eine Art Compiler-Schicht zwischen unpräziser natürlicher Sprache und formalen Sprachen wie SQL, Prolog, Python oder Lean einzusetzen.
  Danach kann man die Ergebnisse oder Ausgaben der formalen Sprachschicht zusammenführen, und im Grunde wird daraus ein „Agent“. Allerdings denke ich, dass LLMs Aufgaben des „sprachlichen Schlussfolgerns“ bewältigen können. Wo die Grenzen zwischen sprachlichem, qualitativem und quantitativem Schlussfolgern liegen, weiß ich nicht genau; ich muss an den Sprachteil standardisierter Tests denken.
- Man kann zwar glauben, dass „durch eine Form von Extrapolation neue Lösungen erzeugt“ werden, aber ich frage mich, welche Belege man für diesen Glauben heranzieht.
  Außerdem sagt das Abstract des Apple-Papers, statt irgendeiner raffinierten Formulierung wie „Beschädigung“ zu verwenden, dass die anfänglichen Zahlenwerte geändert wurden.
- Computer zu anthropomorphisieren gab es schon lange vor ChatGPT. Wenn ein Computer abstürzt und ein Dokument nicht gespeichert wurde, sagt man vielleicht „der Computer hat meine Hausaufgaben gefressen“, aber niemand glaubt, dass er sie wirklich gegessen hat; es ist nur eine einfache Bezeichnung für das, was gerade passiert ist.
  Auch vor LLMs konnte man sagen: „Der Computer denkt nach.“ Nicht jeder kennt die mathematischen Begriffe, also würden viele nicht wissen, was ein Skalarprodukt ist, wenn man sagt: „Claude hat meinen Essay skalarproduziert“ oder „Ich habe ChatGPT den Brief an meinen Chef skalarproduzieren lassen.“ Selbst wenn es technisch ein genaueres Verb gäbe: Wer würde es benutzen?
  AI-Firmen haben Begriffe wie „denken“ oder „schlussfolgern“ durchaus gepusht, aber es sind eben auch die bequemsten Wörter. Man sagt, das Modell „denkt“, dass strawberry zwei R enthält, nicht dass es „ein Skalarprodukt bildet“. Es macht auch Matrixmultiplikation und gelegentlich Softmax und Faltungen, aber die meisten von uns sind nicht Terence Tao und haben kein Gefühl dafür, dass da gerade etwas Softmax macht.
- Diese Firmen stellen ihre AI-Modelle so dar, als wären es AIs, die selbst denken und schlussfolgern, aber tatsächlich sind sie mit enormen Datensätzen trainiert und extrapolieren daraus, um passende Antworten zu finden.
  Sie können immer noch nicht außerhalb der Box ihres Datensatzes denken.
Heißt das, dass Menschen Probleme Schritt für Schritt lösen müssen, damit ein neuronales Netz das nachahmen kann? Wenn ich es so hinschreibe, klingt es ziemlich offensichtlich.
- Ich denke nicht. Wenn ich es richtig verstanden habe, bedeutet es, dass die Software durch das Aufnehmen von Beispielen prozeduraler Problemlösung allgemeine Methoden zum Lösen von Problemen lernt.
Das könnte die unerwarteten Vorteile des Trainings mit Code erklären.
- Klingt interessant, aber als Laie weiß ich es nicht genau. Ich frage mich, ob du einen passenden Link nennen kannst.
  https://arxiv.org/abs/2408.10914 habe ich gefunden, aber mir fehlt der Hintergrund, um zu beurteilen, ob das das Paper ist, das du meinst.
Ich bin überrascht, dass der Satz „LLMs zeigen allgemeine Fähigkeiten zur Problemlösung, weisen im Vergleich zum Menschen aber auch erstaunliche Lücken beim Schlussfolgern auf, was Fragen zur Robustheit ihrer Generalisierungsstrategien aufwirft“ empfohlen wird.
Denn auf HN gab es erstaunlich viele Leute, die meinten, LLMs könnten überhaupt nicht schlussfolgern und müssten ausschließlich durch die Linse eines Next-Token-Predictors erklärt werden. Als ich das letzte Mal über LLM-Intelligenz sprach, sagte mir jemand unhöflich, ich solle mich damit beschäftigen, wie LLMs funktionieren; man wisse bereits genau, wie sie arbeiten, und sie seien einfach nur Token-Predictors.
- Ich denke, genau diese „erstaunlichen Lücken“ entstehen, weil LLMs nicht schlussfolgern. Zumindest schlussfolgern sie nicht über das, worüber Menschen beim Lösen eines Problems nachdenken würden, sondern behandeln eher andere häufig korrelierte Faktensammlungen über Token-Beziehungen im Text.
  Die Fehlermuster zeigen diesen Unterschied am deutlichsten. LLM-Ausgaben haben erst in dem Moment Bedeutung im üblichen Sinn, in dem Menschen ihnen nachträglich eine externe Bedeutung zuweisen. Ein LLM hört nicht auf zu funktionieren und wird auch nicht „verwirrt“, wenn man Kauderwelsch eingibt. Das liegt daran, dass die Bedeutung, die es extrahiert, nicht von der Bedeutung abhängt, die Menschen zuweisen; wir haben ihm nur Dinge gefüttert, die wir nicht für Kauderwelsch halten, und dadurch die beiden zufällig zur Deckung gebracht. Was die Frage „wie es tatsächlich funktioniert“ angeht, ist das eine andere Sache.
- Die lautesten Leute scheinen oft extreme Positionen zu vertreten, und bei Fragen wie „Ist eine bestimmte AI in einem bestimmten Bereich nutzlos/übermenschlich?“ ist es ähnlich. Vielleicht ist das nur meine Wahrnehmung, aber wie CGP Grey sagte, könnte gerade die Kontroverse dafür sorgen, dass sie lange überleben: https://www.youtube.com/watch?v=rE3j_RHkqJc
  Wenn man in der Mitte steht, wird man von beiden Extremen angegriffen. „Ein nützliches Werkzeug, aber ich sehe auch viele Wege, wie es kaputtgehen kann“ fühlt sich bei diesem Thema wie eine seltsame Position außerhalb des Overton-Fensters an. Ich frage mich, wie der tatsächliche Alltagsdiskurs über Webstühle während der industriellen Revolution war – nicht die modernen Zusammenfassungen, sondern die echte Stimmung.
- Beides kann gleichzeitig wahr sein. Ja, LLMs sind Next-Token-Predictors, aber manchmal muss man, um das richtig zu tun, den gesamten vorherigen Inhalt tatsächlich verstehen und logisch schlussfolgern.
  Wie Sutskever sinngemäß sagte: Wenn der Input eines Modells aus dem größten Teil eines Kriminalromans besteht und das nächste Token der Name des Täters ist, dann hat das Modell den Roman verstanden. Transformer sind Arbitrary-Function-Approximators, daher gibt es keine harte Grenze dafür, was sie können oder nicht können.
- Ich denke, „Next-Token-Predictor“ und intelligent schließen sich tatsächlich nicht gegenseitig aus.
Sehr relevant für die jüngste Diskussion https://news.ycombinator.com/item?id=42285128
Google argumentiert, dass der Einsatz von Pretraining eine zentrale Voraussetzung sei, um überhaupt ein etwas besseres Chipdesign hervorzubringen. Außerdem behauptet Google, dass man bei der Gegenarbeit, die kein Pretraining versucht hat, hätte erwarten müssen, dass sie deutlich unter dem Stand der Technik im Chipdesign liegt.
Wenn Schlussfolgern im Chipdesign wichtig ist und Pretraining wichtig ist, um bei großen Sprachmodellen Schlussfolgern hervorzubringen, dann ist Googles Argumentation ziemlich plausibel. Wenn Google mit Pretraining den Stand der Technik nur knapp übertroffen hat, dann ist zu erwarten, dass ein Versuch ohne Pretraining deutlich unter dem aktuellen Stand der Technik liegt. Die schwache Leistung dieses zweiten Versuchs sagt daher nichts darüber aus, ob Googles Ergebnisse plausibel sind.
- Ich bin kein Experte für das konkrete Anwendungsgebiet dieses Artikels, aber ich kann nachvollziehen, warum das Pretraining-Argument stichhaltig sein könnte. Dass Pretraining neuronaler Netze die Few-Shot-Lernleistung verbessert, ist kaum umstritten.
  Bei jedem Problem dürfte es einen Wendepunkt geben, ab dem ein vortrainiertes neuronales Netz bei wenigen Beispielen besser lernt als Ansätze mit geringerem Datenbedarf, etwa handentwickelte Features oder starke Vorannahmen. Die Frage hier scheint nur zu sein, ob dieser Fall diesen Wendepunkt erreicht hat.
„Im Extremfall könnte ein Sprachmodell, das eine Reasoning-Frage beantwortet, stark darauf angewiesen sein, aus Parameterwissen abzurufen, das von einer begrenzten Menge von Dokumenten in den Pretraining-Daten beeinflusst wurde. In diesem Fall tragen die abzurufenden Informationen – also bestimmte Dokumente mit Reasoning-Spuren – stark zur Modellausgabe bei, während viele andere Dokumente nur eine geringe Rolle spielen.“
„Am anderen Ende des Spektrums hingegen greift das Modell auf eine breite Palette von Dokumenten zurück, die abstrakter mit der Frage zusammenhängen; jedes Dokument beeinflusst viele Fragen auf ähnliche Weise, trägt aber zur endgültigen Ausgabe jeweils nur relativ wenig bei. Wir schlagen vor, dass generalisierbares Schlussfolgern eher wie diese letztere Strategie aussehen sollte.“
Aber wäre es nicht viel beeindruckender, wenn ein Modell aus einem einzigen Beispiel generalisieren könnte?
Sehe ich ähnlich. Es geht eher darum, dass Reasoning-Trainingsdaten wichtiger sind als Fakten. Unter nicht-synthetischen Daten sind mathematische Beweise vermutlich am leichtesten zu bekommen.
Mit etwas wie Prolog kann man mehrere alternative Schlussfolgerungspfade erzeugen. Ob solche Mehrfachpfade beim Training von LLMs helfen, lässt sich schwer sagen, ohne Zugriff auf riesige Maschinen zu haben und es direkt auszuprobieren. Das ist ziemlich unfair.
Ist diese Schlussfolgerung ähnlich wie AlphaGo versus AlphaZero, so wie ich es als Laie verstehe? Also dass menschliches prozedurales Wissen das Machine-Learning-Training bis zu einem gewissen Punkt unterstützt, danach aber zur Einschränkung wird?
- Nein. Gemeint ist, dass das analysierte Modell eher Informationen darüber genutzt hat, wie man mathematische Probleme löst, als Dokumente aus den Trainingsdaten, die die Antwort auf dasselbe mathematische Problem enthalten.
  „Wir untersuchen, welche Daten die vom Modell erzeugten Reasoning-Spuren beeinflussen und in welcher Beziehung diese Daten zu dem konkret behandelten Problem stehen. Ruft das Modell Antworten aus zuvor gesehenen Pretraining-Daten einfach ‚ab‘ und kombiniert sie neu, oder verwendet es eine robustere Generalisierungsstrategie?“
  „Wenn wir die Top-Dokumente für Reasoning-Fragen qualitativ charakterisieren, stellen wir fest, dass einflussreiche Dokumente häufig prozedurales Wissen enthalten, etwa indem sie zeigen, wie man mithilfe von Formeln oder Code zu einer Lösung kommt. Unsere Ergebnisse deuten darauf hin, dass die vom Modell verwendete Art des Schlussfolgerns sich vom Abruf unterscheidet und eher einer generalisierbaren Strategie ähnelt, die prozedurales Wissen aus Dokumenten synthetisiert, die ähnliche Formen des Schlussfolgerns ausführen.“
  Beispiel für eine Reasoning-Frage: „Prompt Calculate the answer: (7 - 4) * 7 Think step-by-step.“
Bedeutet das, dass LLMs besser werden könnten, wenn sie mit großen Mengen an Material wie Schülernotizen, Prüfungen und Buchrezensionen trainiert werden? Wenn ja, wäre das wirklich interessant.
- Ich habe mich manchmal gefragt, warum man AI-Systeme nicht mit Curricula trainiert, die Spiele und spielerisches Lernen einbeziehen.
  Es könnte faszinierend sein zu sehen, was dabei herauskommt, wenn man verschiedene Bildungssysteme aus aller Welt verwendet.
Vielleicht ist das eine dumme Frage, aber warum werden erzeugte Bilder dann zu albtraumhaftem Unsinn? Warum können sie Diagramme nicht prozedural konstruieren?

Prozedurales Wissen aus dem Pretraining steuert das Schlussfolgern von LLMs

Über Benchmark-Kontamination hinaus: Pretraining-Dokumente nachverfolgen

Experimentelles Setup

Beim Schlussfolgern wirken Dokumente mit demselben Verfahren wiederholt

Faktensuche und Schlussfolgern unterscheiden sich in der Art der einflussreichen Dokumente

Die Rolle von Code und hochwertigen prozeduralen Daten

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare