Meta lernt mit Chain-of-Thought, wie man denkt

(arxiv.org)

2 Punkte von GN⁺ 2025-01-12 | 1 Kommentare | Auf WhatsApp teilen

Meta Chain-of-Thought (Meta-CoT) ist ein Framework, das über CoT hinausgeht, das nur die finalen Lösungsschritte nutzt, und auch den latenten Denkprozess modellieren will, der vor dem Erreichen der Antwort abläuft
Bei anspruchsvollen Mathematikaufgaben lässt die lehrbuchartige Endlösung die eigentlichen Such-, Prüf- und Experimentierschritte des Denkens aus, wodurch es für Modelle schwer wird, den Entstehungsprozess einer Lösung zu lernen
Auch GPT-4o und Claude können bei manchen algebraischen Auswertungen scheitern, aber „step by step“-CoT erhöht durch zusätzliche Zwischenrechnungen die Chance auf die richtige Antwort und macht Unterschiede im Rechenaufwand für Inferenz sichtbar
Die OpenAI-o1-Familie erzeugt auf anspruchsvollen Mathematik-Benchmarks wie HARP längere Ausgaben und vergrößert den Leistungsabstand, was auf ein Verhalten hindeutet, das Suche zum Inferenzzeitpunkt nahekommt
Als Implementierungspfad für Meta-CoT wird eine Trainingspipeline vorgeschlagen, die Prozessaufsicht, synthetische Daten, MCTS-/A*-Suche, Instruction Tuning auf Basis linearisierten Suchspuren und RL-Post-Training kombiniert

Das Problem, auf das Meta-CoT zielt

Die Grundlage heutiger großer Sprachmodelle ist die Vorhersage des nächsten Tokens; Text oder kontinuierliche Modalitäten werden in diskrete Tokenfolgen zerlegt und das Modell wird darauf trainiert, die Wahrscheinlichkeit des nächsten Tokens zu maximieren
Dieser Ansatz basiert auf der Sichtweise „compression is intelligence“
- Um das nächste Token vorherzusagen, muss das Modell die Datenverteilung approximieren und implizite Schlussfolgerungen in seinen Aktivierungen durchführen
Die zentrale Frage ist die Beziehung zwischen der Komplexität des Datenstroms und der Fähigkeit eines Modells, den datenerzeugenden Algorithmus zu lernen
Mathematisches Schließen eignet sich gut, um diese Frage zu bewerten
- Bei Aufgaben wie „1+2“ antworten die meisten Modelle sofort mit „3“
- Komplexere algebraische Auswertungen vereinfachen sich in Wirklichkeit zu 1, doch selbst starke LLMs wie GPT-4o und Claude können daran unter Umständen jedes Mal scheitern
Die Anweisung „think step by step“ und CoT erzeugen Zwischenstufen und steigern die Leistung deutlich
- Im algebraischen Beispiel wird gezeigt, dass der Wert durch Faktorisierung, Kürzen und das Bilden eines gemeinsamen Nenners 1 ist

Grenzen von klassischem CoT

Die Erweiterung durch CoT erlaubt es theoretisch, beliebig viel Rechenaufwand in die Vorhersage des richtigen Antwort-Tokens zu stecken
Bestehende theoretische Arbeiten gehen davon aus, dass CoT LLMs ein neues Niveau an Ausdruckskomplexität gibt und unter Annahmen wie unendlichem Speicher sogar Turing-Vollständigkeit ermöglichen könnte
Praktische LLMs lösen dennoch nur Probleme begrenzter Komplexität zuverlässig
Der reale datenerzeugende Prozess komplexer Schlussfolgerungen ist in gewöhnlichen CoT-Daten nicht ausreichend enthalten
- Bei einfachen Problemen passt die lehrbuchartige Lösung noch relativ gut zum tatsächlichen Lösungsprozess
- Bei komplexen Problemen lassen die finalen Lösungsschritte den nichtlinearen Suchprozess aus, der vor dem Finden dieser Lösung stattfindet

Definition von Meta Chain-of-Thought

Meta-CoT modelliert nicht den direkten Weg von der Frage zu den finalen Lösungsschritten und der Antwort, sondern die davor liegenden latenten Gedanken z1 ... zK
Klassisches CoT lässt sich so auffassen, dass die Antwort a auf die Lösungsschritte s1 ... sn konditioniert ist
Meta-CoT nimmt stattdessen an, dass Lösungsschritte und Antwort (a, s1 ... sn) auf einen latenten Denkprozess z1 ... zK konditioniert sind
Das verallgemeinert die bestehende CoT-Logik um eine Stufe und macht Denkprozesse außerhalb der Endlösung selbst zum Lernziel
Bei komplexen Problemen kann die endgültige Lösung kurz sein, während der Prozess, sie zu entdecken, lang und nichtlinear ist

Das IMO-2011-Problem „windmill“ als Beispiel

Das bekannte windmill-Problem der International Mathematics Olympiad 2011 dient als Beispiel für komplexes Schließen
Die veröffentlichte Lösung dieses Problems lässt sich in wenigen Sätzen ausdrücken und erfordert kein besonderes Vorwissen
Die eigentliche Schwierigkeit liegt darin, dass die Lösung eine stark nichtlineare Struktur hat
- Viele Teilnehmende versuchten Konstruktionen mit convex hull oder Werkzeuge aus der Hamiltonian graph theory, kamen damit aber nicht zur Lösung
- Teilnehmende, die das Problem lösten, verfolgten einen experimentellen Ansatz mit viel geometrischer Suche und induktivem Schließen
Die Anfangskonstruktion der Endlösung ist nur dann als sinnvoll erkennbar, wenn man den gesamten Ansatz bereits kennt
Deshalb passt der reale Entstehungsprozess der Lösung nur schlecht zu einem autoregressiven Vorgehen von links nach rechts

HARP-Ergebnisse und Token-Nutzung der o1-Familie

Es wird diskutiert, dass die OpenAI-o1-Modelle zum Inferenzzeitpunkt autoregressiv Meta-CoT-Schlussfolgerung ausführen
Auf dem Mathematik-Benchmark HARP zeigt die o1-Familie insgesamt bessere Leistung als bisherige Standardmodelle für Reasoning
Je höher der Schwierigkeitsgrad der Aufgaben, desto größer wird der Leistungsabstand zwischen o1 und anderen Modellen
- Beim Modell LLaMa 3.1 wurde allerdings eine interessante Ausnahme beobachtet
Auch beim Umfang der Token-Generierung zeigt die o1-Familie ein anderes Verhalten als bestehende Modelle
- Bei Aufgaben der Stufe 1 erzeugt sie ungefähr so viele Token wie von Menschen geschriebene Lösungen
- Bei höherem Schwierigkeitsgrad erzeugt sie pro Aufgabe deutlich mehr Token, und zugleich wächst der Leistungsabstand zu bestehenden Modellen
Daraus ergibt sich die Annahme, dass veröffentlichte Lösungen anspruchsvoller Probleme den tatsächlichen Entstehungsprozess nicht repräsentieren und dass längere Meta-CoT-Spuren der o1-Familie diesen Prozess besser approximieren könnten

Die Rolle von Suche und Verifikation

Bei komplexen zielgerichteten Problemen kann zwischen Erzeugung und Verifikation ein bedeutender Schwierigkeitsunterschied bestehen
Diese Lücke berührt grundlegende offene Fragen der theoretischen Informatik, ihr Nachweis liegt jedoch außerhalb des Forschungsumfangs
Antworten auf schwierige Probleme in Textkorpora lassen sich als Ergebnis langer Suchprozesse verstehen
Doch der Suchprozess selbst ist in den Daten in der Regel nicht repräsentiert
Wenn Meta-CoT-Daten fehlen oder nur eingeschränkt vorhanden sind, können Modelle den tatsächlichen Entstehungsprozess anspruchsvoller Schlussfolgerungen nur schwer direkt lernen

Experimente mit LLaMa 3.1 8B

Mit dem LLaMa-3.1-8B-Basismodell wurde umfangreiches supervised fine-tuning auf dem Datensatz Numina MATH durchgeführt
Jeder Zwischen-Checkpoint wurde auf einem Evaluationsdatensatz mit 500 Problemen aus Hendrycks MATH bewertet
Bei pass@k-Bewertungen mit einem oracle verifier zeigte sich, dass die Leistung mit wachsendem k stark zunimmt
Figure 2 zeigt, dass der gefilterte Datensatz besser skaliert als der Originaldatensatz und noch kein Plateau erreicht hat
Wenn k von pass@2 auf pass@64 erhöht wird, steigt selbst bei kleinen Modellen die Wahrscheinlichkeit deutlich, mindestens eine richtige Lösung zu erhalten

Trainingspfad und offene Fragen

Als Wege zur Erzeugung von Meta-CoT werden Prozessaufsicht und suchbasierte Erzeugung synthetischer Daten behandelt
Zur synthetischen Erzeugung von Meta-CoT gehören Suchalgorithmen wie Monte Carlo Tree Search (MCTS) und A*-Suche
Eine auf ein einzelnes End-to-End-System zielende Pipeline kombiniert Instruction Tuning mit linearisierten Suchspuren und RL-Post-Training
Das Projekt „Big MATH“ ist ein Versuch, diese Forschung mit mehr als 1.000.000 hochwertigen, verifizierbaren Mathematikproblemen zu unterstützen
Zu den offenen Forschungsfragen gehören Skalierungsgesetze für Schlussfolgern und Suche, die Rolle von Verifiern sowie die Möglichkeit, über Meta-RL neue Algorithmen für Schlussfolgern zu entdecken

1 Kommentare

GN⁺ 2025-01-12

Meinungen auf Hacker News

Die CoT-Kritik ist überzeugend. Besonders der Teil, der die Kluft zwischen algorithmischer Nachahmung und echter kognitiver Exploration herausarbeitet, ist zentral.
Die Autoren zeigen anhand anspruchsvoller mathematischer Beispiele wie dem „windmill problem“ der Internationalen Mathematik-Olympiade, dass es Probleme gibt, die sich mit blindem sequenziellem Denken nur schwer lösen lassen. Dabei werden die Grenzen eines Ansatzes sichtbar, der sich auf statische Datensätze und starre Generierungsprozesse stützt. CoT scheitert nicht daran, dass es keine Lösungen erzeugen kann, sondern daran, dass es nicht über eine Art verfügt, Lösungen ins Bewusstsein zu rufen, wie es menschliche Kreativität tut.
Der Satz „Superintelligenz besteht nicht darin, Neues zu entdecken, sondern neue Arten des Entdeckens zu entdecken“ ist eindrucksvoll.
- Dann wird es später auch Probleme geben, bei denen man eine „neue Art, neue Arten des Entdeckens zu entdecken“ braucht, und so geht es immer weiter.
- Man kann es mit Meta-Reasoning trainieren. Wenn man den Prozess trainiert, mit dem Menschen Arten des Entdeckens entdecken, ist das kein großes Problem; es fühlt sich so an, als könne man einfach einen Datensatz erstellen und darauf trainieren.
- Der am Ende zitierte Satz gefällt mir. Ich frage mich, ob jemand die ursprüngliche Quelle kennt.
- Zum windmill problem gibt es https://www.3blue1brown.com/lessons/windmills.
Die große Idee des Papers ist, dass CoT bei manchen komplexen Problemen begrenzt ist. Es gibt Probleme, für die es keine „lehrbuchmäßige“ Methode gibt, eine Lösung zu finden, und solche Probleme brauchen eine eigene Methodik.
Zentral ist die Passage: „Im Grunde muss man bereits den gesamten Ansatz kennen, um überhaupt mit der Erzeugung der Lösung zu beginnen. Der Generierungsprozess, der der Lösung zugrunde liegt, ist kein autoregressiver Prozess von links nach rechts.“
Mathematisch lässt sich das als Interpretation formalisieren, die Schlussfolgern als Latent-Variable-Prozess betrachtet. Klassisches CoT sieht die Wahrscheinlichkeit der endgültigen Antwort als Marginalisierung über latente Schlussfolgerungsketten, während man den tatsächlichen Prozess der Lösungserzeugung bei komplexen Problemen so verstehen muss, dass die gemeinsame Wahrscheinlichkeitsverteilung der Lösung bedingt auf einem latenten Generierungsprozess liegt. Deshalb nennt man q → z1 → … → z Meta-CoT.
Das wirkt wie ein ziemlich wichtiger Ausgangspunkt. Wenn man zum Beispiel o1-pro fragt, wie man eine 1550-nm-Laserdiode mit 1 GHz betreiben und dabei ohne teure Kollimatoren durch gängige Materialien, neue Fertigungsansätze oder First-Principles-Physik geometrische Verluste senken kann, zerbricht die Illusion, dass o1-pro großartig sei. „Neue“ Ingenieurskunst ist noch schwer erreichbar, und weil es kein Lehrbuch dafür gibt, wie man solche Ingenieurskunst betreibt, lassen sich solche Probleme nicht autoregressiv von links nach rechts lösen.
- Es ist erstaunlich, wie sehr sich der Zielmaßstab verschoben hat.
  Inzwischen scheint ein KI-Modell, um „großartig“ zu sein, bei einem beliebig schwierigen Fachgebiet ein Problem bekommen zu müssen, das Menschen noch nicht gelöst haben, und dann eine gute Lösung auszugeben. Eine solche KI wäre natürlich großartig und weltverändernd, aber der Maßstab, dass alles darunter nicht mehr „großartig“ sei, ist ziemlich erstaunlich.
- Ich frage mich, ob auch Menschen für dieses Problem ohne Abfrage der physischen Realität, also ohne Experimente, eine brauchbare Lösung finden könnten.
  Ein Teil der Realität ist nicht berechenbar, daher kann man ihn letztlich nur erreichen, indem man das Universum selbst simulieren lässt.
- Die Formulierung „Probleme, für die es keine lehrbuchmäßige Methode gibt, eine Lösung zu finden“ entspricht nicht meiner Erfahrung im Umgang mit LLMs.
  Selbst wenn ich Fragen auf eine Weise gestellt habe, die die meisten Menschen nicht verstehen würden, konnte ich an den Antworten erkennen, dass die Frage selbst korrekt interpretiert wurde. Ob die Antwort richtig war, ist eine andere Sache, aber es zeigte sich bis zu einem gewissen Grad auch Interpretation jenseits von Lehrbuchbeispielen.
- Es heißt zwar, es gebe „kein Lehrbuch dafür, wie man neue Ingenieurskunst betreibt“, aber gibt es nicht Bücher über die wissenschaftliche Methode?
  Wie andere Kommentare sagen, ist es physikalisch nahezu unmöglich, von einer Superintelligenz in einer Box zu erwarten, dass sie Dinge herausfindet, die Experimente und Beobachtung erfordern. Man wäre auf Bereiche wie die reine Mathematik beschränkt, in denen man nur auf Papier schreiben und über Axiome nachdenken muss, aber gerade solche Bereiche gehören zu denen, in denen Fortschritt am schwierigsten ist. Auch die Menschheit ist über Tausende von Jahren hierher gelangt, indem viele Gelehrte jeweils winzige Teile beigetragen haben.
Hat sich die Forschungsgemeinde darauf geeinigt, dass „Sprachmodelle nicht einfach Korrelationen zwischen aufeinanderfolgenden Wörtern abgleichen, sondern die implizite Bedeutung von Text lernen“? Ich frage mich, ob es Papers gibt, die dieses Thema behandeln.
- Die Forschungsgemeinde ist sich darüber keineswegs einig; es gibt mehrere Lager. Grob gesehen gibt es in der natürlichen Sprachverarbeitung zwei Sichtweisen.
  Das Paper von Bender und Koller aus dem Jahr 2020[1] argumentiert, dass Bedeutung nicht allein aus Form gelernt werden kann und dass LLMs anhand von Form trainiert werden. Im Gedankenexperiment „The Octopus Test“ des Papers kommt ein Oktopus vor, der ein Gespräch zwischen zwei Menschen abfangen kann; erklärt wird aber, dass er „mit nur Form als Trainingsdaten keine Bedeutung gelernt hat“.
  Dagegen behandelt ein Text von Yoav Goldberg[2] Grounding und die Frage, was LLMs lernen, eher informell. Im Wesentlichen lautet die Behauptung, dass Instruction Tuning und Post-Training Begriffe wie „summarize“ sinnvoll verankern können.
  [1] https://aclanthology.org/2020.acl-main.463/
  [2] https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8...
- Ich habe oft das Gefühl, dass es zwischen „impliziter Bedeutung von Text“ und „Korrelationen zwischen aufeinanderfolgenden Wörtern“ möglicherweise gar keinen echten Unterschied gibt.
  Die Tatsache, dass LLMs effektiv mit Menschen kommunizieren können, ist weniger eine Entdeckung über die Intelligenz neuronaler Netze als vielmehr eine Entdeckung über die Regelmäßigkeiten der Semantik menschlicher Kommunikation.
- Sicherlich kein Konsens. Bedeutungstheorie gehört in der Informatik nicht ursprünglich zum Fachgebiet, und es gibt kaum Leute mit entsprechendem Hintergrund in der Vorarbeit, daher tauchen solche gewagten Behauptungen überall auf.
  Wie auch immer man natürlicher Sprache Semantik zuweist: Es ist schwer zu behaupten, dass ein Machine-Learning-Modell diese Semantik verwendet.
  Das Beste, was man vielleicht sagen kann, ist, dass unter dem Ziel von überwachtem Lernen im Transformer-Stil, also „Next-Word Prediction“, die Korrelationsstruktur von Wörtern eine extrem grobe approximative Verteilung der Semantik natürlicher Sprache erzeugt. Das an sich war nie umstritten; strittig ist, um welche Art extremer Approximation es sich handelt.
  Zum Beispiel besteht die Wahrheitsbedingung von „Ich habe einen Stift in der Hand“ darin, dass ich tatsächlich einen Stift in der Hand habe. Um diesen Satz in dem betreffenden Kontext zu meinen, ist es sehr plausibel erforderlich, direkten Zugriff auf solche Wahrheitsbedingungen zu haben. Eine Maschine kann auf die Wahrheitsbedingungen einer solchen Äußerung nicht zugreifen und kann den Satz daher nicht meinen.
  Wenn eine Maschine in einer passenden Situation sagt: „Ich habe einen Stift in der Hand“, dann bezieht sich die „extreme Approximation der Semantik natürlicher Sprache“ auf diese Situation und darauf, was „passend“ bedeutet.
  Aus einer Perspektive, die LLMs und informatisches Denken kritisiert, ist der Bereich der „Situationen“, also der Prompt-Bedingungen, in denen eine solche Antwort passend wirkt, sehr eng. Dass eine Antwort dem Nutzer passend erscheint, ist eine technische Bedingung dafür, dass das Werkzeug gut funktioniert, bedeutet aber nicht, dass das Modell Semantik natürlicher Sprache versteht.
  Daher kann man sagen, dass LLMs in begrenzten Situationen Gespräche zwischen Akteuren approximieren, die Semantik verstehen, und angemessenen Sprachgebrauch modellieren. Man könnte es ein Modell der „durchschnittlichen Angemessenheit von Antworten“ nennen, aber es kann „Ich habe einen Stift in der Hand“ nicht tatsächlich meinen.
Mit Formulierungen, die sich auf das Prinzip „Kompression ist Intelligenz“ oder auf Solomonoff-Induktion berufen, sollte man vorsichtig sein.
In den beiden oben zitierten Teilen von „A Formal Theory of Inductive Inference“ kommt das Wort „intelligence“ insgesamt 0-mal vor, „Compression“ ebenfalls 0-mal, und „reasoning“ nur 1-mal in der Wendung „using similar reasoning“.
Natürlich galt Solomonoffs Interesse der induktiven Inferenz. Ob er je gesagt hat „Kompression ist Intelligenz“, weiß ich nicht; diese Idee und der Slogan scheinen sich deutlich später entwickelt zu haben. Auch die ursprüngliche Quelle ist nicht klar.
Es stimmt, dass Solomonoff-Induktion eng mit dem Problem zusammenhängt, das nächste Symbol in einer Symbolfolge vorherzusagen, aber es müssen nicht unbedingt Sprach-Tokens sein. Gängige Formulierungen wie LLMs seien in einer „frühen Phase“, sind falsch. Sprachmodellierung ist nach Maßstäben der Informatik eine fast uralte Technik und seit Langem in eine Phase technischer Reife eingetreten.
[1] https://raysolomonoff.com/publications/1964pt1.pdf
[2] https://raysolomonoff.com/publications/1964pt2.pdf
- Dass Intelligenz eine Form von Kompression ist, ergibt durchaus Sinn. Ein induktives Modell ist klein, kann aber potenziell beliebig große Mengen an Information erzeugen.
Eine durchdachte Arbeit. Ich habe seit einigen Monaten über verwandte Ideen nachgedacht und daran gearbeitet, konnte aber noch keine Rechenressourcen in vergleichbarem Umfang einsetzen, und die Richtung war vielleicht auch etwas anders.
Diese Forschung hilft auf jeden Fall dabei, eine Baseline zu schaffen, um die Decoder-Transformer-Architektur besser zu nutzen.
Meint Meta hier das Unternehmen Meta, oder wird das Wort „meta“ verwendet? Oder beides?
- Es wird als Wort verwendet.
  https://chatgpt.com/share/67813a3f-c7e8-8001-ab0c-7f024bc41a...
Ich frage mich, ob es eine Möglichkeit gibt herauszufinden, wie oft Forschende etwas untersuchen, das sie selbst aufgebracht haben, und wie oft Arbeiten unabhängiger Entwickler im Netz Aufmerksamkeit bekommen, untersucht werden und dann als Paper erscheinen.
Dass im Paper einfache algebraische Gleichungen mit Einsetzen und deren Schritt-für-Schritt-Lösung als Beispiel angeführt werden, verstärkt den Eindruck, dass LLMs nur zuvor gesehene Lösungsrezepte reproduzieren können.
Eigentlich unterscheidet sich das kaum davon, wie wir in der Schule Mathematik lernen. Die Lehrkraft zeigt den Ausgangspunkt und geht Schritt für Schritt bis zum Ende. Das „Meta Chain-of-Thought“ zu nennen, fühlt sich an, als würde man den Grundunterricht überhöhen.
Als Nächstes nennt man vielleicht das Aufnehmen von einfachem Besteck mit einem gezwungenen Namen wie „hierarchische physikalische Kinetik“. In der Schule nannte man dieses „Meta Chain-of-Thought“ schlicht „den Lösungsweg zeigen“. Ist das wirklich ein „Phänomen“, das einer Erklärung bedarf? Über logische Induktion, also darüber, wie wir Schlussfolgerungsschritte erreichen, können wir sicher noch mehr lernen, aber wir stecken noch viel zu tief in der Suppe, um die Form des Topfs genau zu beschreiben.
- Ich weiß nicht, ob mit „kann nur zuvor gesehene Rezepte reproduzieren“ von LLMs die Rede ist oder von dir selbst.

Meta lernt mit Chain-of-Thought, wie man denkt

Das Problem, auf das Meta-CoT zielt

Grenzen von klassischem CoT

Definition von Meta Chain-of-Thought

Das IMO-2011-Problem „windmill“ als Beispiel

HARP-Ergebnisse und Token-Nutzung der o1-Familie

Die Rolle von Suche und Verifikation

Experimente mit LLaMa 3.1 8B

Trainingspfad und offene Fragen

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News