Kognitive Verhaltensweisen, die selbstverbessernde Reasoner ermöglichen

(arxiv.org)

2 Punkte von GN⁺ 2025-03-08 | 1 Kommentare | Auf WhatsApp teilen

Wenn Sprachmodelle bei verifizierbaren Problemen per Reinforcement Learning selbst verbessert werden, zeigt Qwen-2.5-3B unter denselben Bedingungen bei Countdown große Fortschritte, während Llama-3.2-3B schnell stagniert
Der Leistungsunterschied hängt mit Reasoning-Verhaltensweisen zusammen, die die Ausgangsmodelle bereits mitbrachten, etwa Verifikation, Backtracking, das Setzen von Teilzielen und Backward Chaining
Qwen zeigte Verifikation und Backtracking von Anfang an natürlicher, während Llama diese Verhaltensweisen vermissen ließ und die erhöhte Rechenzeit zur Testzeit daher schwer effizient nutzen konnte
Wenn Llama mit synthetischen Reasoning-Spuren geprimt wird, die statt der bloßen Richtigkeit auch Reasoning-Muster enthalten, zeigt es während des Reinforcement Learnings einen Verbesserungsverlauf auf dem Niveau von Qwen
Wird OpenWebMath gefiltert und für Continued Pretraining genutzt, lässt sich auch bei Llama die nötige Verhaltensverteilung hervorrufen, sodass das Design anfänglicher Reasoning-Gewohnheiten die Fähigkeit zur Selbstverbesserung direkt beeinflusst

Unterschiedliche Fähigkeit zur Selbstverbesserung trotz identischem Reinforcement Learning

Test-time Inference ist ein Ansatz, mit dem Sprachmodelle bei komplexen Problemen länger und sorgfältiger „nachdenken“ sollen
Der Ansatz, Modelle bei verifizierbaren Problemen mit Reinforcement Learning (RL) selbst zu verbessern, ist nicht neu, aber frühere Verfahren stagnierten nach einigen Iterationen und erkundeten nicht ausreichend, wie sich zusätzliche Rechenzeit zur Testzeit effektiv nutzen lässt
Werden im Countdown-Spiel dieselben Reinforcement-Learning-Verfahren auf zwei 3B-Modelle angewandt, zeigt sich ein deutlicher Unterschied
- Qwen-2.5-3B verbessert seine Problemlösungsfähigkeit stark
- Llama-3.2-3B erzielt nur begrenzte Fortschritte
Die zentrale Frage ist, welche Eigenschaften des Ausgangsmodells darüber entscheiden, wie gut spätere Verbesserungen möglich sind
Der Code ist im GitHub-Repository veröffentlicht

Vier Reasoning-Verhaltensweisen, die Selbstverbesserung fördern

Analysiert werden vier kognitive Verhaltensweisen, die sich in Modellausgaben gut erkennen lassen
- Verifikation (verification): Antworten oder Zwischenschritte werden systematisch überprüft
- Backtracking (backtracking): Ein gescheiterter Ansatz wird verworfen und ein anderer versucht
- Setzen von Teilzielen (subgoal setting): Ein Problem wird in handhabbare Schritte unterteilt
- Backward Chaining (backward chaining): Vom gewünschten Ergebnis ausgehend wird zurück auf die Ausgangseingaben geschlossen
Diese Verhaltensweisen ähneln der Problemlösung durch erfahrene Menschen
- Mathematiker prüfen jeden Schritt eines Beweises
- Treffen sie auf einen Widerspruch, betreiben sie Backtracking
- Komplexe Sätze werden in einfachere Hilfssätze zerlegt
Die vier Verhaltensweisen erfassen Reasoning, das über das allgemeine lineare Schlussfolgern von Sprachmodellen hinausgeht und mehrere Pfade erkundet und korrigiert
Es gibt auch andere kognitive Verhaltensweisen, doch diese vier sind klar definiert und in Modellausgaben vergleichsweise leicht identifizierbar

Anfängliche Verhaltensunterschiede zwischen Qwen und Llama

Die anfängliche Analyse zeigt, dass Qwen die nötigen Reasoning-Verhaltensweisen natürlicher aufweist
- Besonders Verifikation und Backtracking stechen hervor
Llama zeigt diese Verhaltensweisen im Ausgangszustand deutlich seltener
Daraus ergibt sich die Hypothese, dass bestimmte Reasoning-Verhaltensweisen bereits in der Anfangspolitik vorhanden sein müssen, damit lange Reasoning-Sequenzen und zusätzliche Rechenzeit zur Testzeit effizient genutzt werden können
Figure 1 vergleicht im Countdown die Leistung beider Modelle, die Veränderung der Antwortlänge während des Reinforcement Learnings und das Auftreten spezifischer Reasoning-Merkmale

Verhaltens-Priming: Reasoning-Muster statt richtiger Antworten

Die erste Intervention besteht darin, Llama mit synthetischen Reasoning-Spuren zu primen, die die gewünschten Reasoning-Verhaltensweisen enthalten
Nach solchen Beispielen verbessert sich Llama im Reinforcement Learning deutlich und erreicht einen Leistungsverlauf auf dem Niveau von Qwen
Besonders wichtig sind dabei Reasoning-Spuren mit Backtracking
Selbst wenn mit Lösungen ohne richtige Antwort geprimt wird, tritt ein ähnlicher Leistungsgewinn auf, solange passende Reasoning-Muster enthalten sind
In diesem Experiment war nicht die richtige Antwort selbst entscheidend, sondern das Vorhandensein von Reasoning-Verhaltensweisen

Verhaltensverteilung durch Continued Pretraining verändern

Auch Continued Pretraining mit OpenWebMath-Daten wurde untersucht
Die Daten wurden so gefiltert, dass Reasoning-Verhaltensweisen stärker hervortreten
Die gefilterten Daten wurden in das Format Query, Thought, Answer umstrukturiert
Wird Llama auf diese Weise trainiert, lassen sich die nötigen Verhaltensmuster induzieren, und zusätzliche Rechenzeit zur Testzeit kann effizienter genutzt werden
Dadurch verändert sich Llamas Verbesserungsverlauf auf ein Niveau, das mit Qwen vergleichbar ist

Anfängliche Reasoning-Gewohnheiten bestimmen die Verbesserungsfähigkeit

Zwischen den anfänglichen Reasoning-Verhaltensweisen eines Modells und seiner Fähigkeit zur Selbstverbesserung besteht ein starker Zusammenhang
Der Unterschied zwischen Qwen und Llama zeigt, dass selbst bei identischem Reinforcement-Learning-Verfahren die Ergebnisse je nach anfänglichem Verhaltensmuster unterschiedlich ausfallen können
Modelle mit passenden Reasoning-Verhaltensweisen nutzen zusätzliche Rechenzeit, um längeres Reasoning effektiv auszuführen
Modellen, denen diese Verhaltensweisen fehlen, droht selbst unter denselben Lernbedingungen eine schnelle Stagnation
Das Verstehen und gezielte Hervorrufen anfänglicher Reasoning-Verhaltensweisen ist mit der Entwicklung von KI-Systemen verbunden, die Problemlösungsfähigkeit tatsächlich verbessern

1 Kommentare

GN⁺ 2025-03-08

Hacker-News-Kommentare

Interessant ist die Passage über „vier zentrale kognitive Verhaltensweisen, die sowohl menschliche Experten-Problemlöser als auch erfolgreiche Sprachmodelle nutzen — Verifikation, Zurückgehen, Setzen von Teilzielen und Rückwärts-Schlussfolgern“
Wenn wir AI besser machen, finden wir vielleicht unbeabsichtigt auch Wege, menschliche Intelligenz zu verbessern.
Ich hatte kürzlich beim Lernen für eine Prüfung eine ähnliche persönliche Erfahrung und habe beim Lesen von Übungsaufgaben laut gesprochen, indem ich die Denkweise und den Charakter von Deepseek R1 nachahmte.
Nachdem ich viele lange und detaillierte R1-Ausgaben gelesen hatte, war mein Gehirn im Grunde auf Schlussfolgerungsaufgaben feinabgestimmt, und ich glaube, dass diese Methode zu einer guten Prüfungsnote beigetragen hat.
- Das ist eine gut bekannte Methode. Den Denkprozess in Worte fassen, ob laut ausgesprochen oder schriftlich, ist eine alte Strategie, um zu prüfen, ob man wirklich nachdenkt und nicht nur oberflächlich darüber hinweggeht.
  Ironischerweise habe ich auch Leute gesehen, die befürchten, dass die Nutzung von AI den Menschen genau diese Fähigkeit nehmen wird.
  Trotzdem steckt hier Potenzial, und ich hoffe aufrichtig, dass wir durch AI-Forschung auch Wege finden, menschliche Intelligenz zu verbessern.
  Selbst pessimistisch betrachtet könnte sie zumindest Ansätze sichtbar machen, die Menschen unbewusst verwenden; und sobald man weiß, was man tut, ist es viel leichter, es gezielt zu trainieren.
- Ich nutze diese Methode bei Programmierproblemen, die ich sonst wohl aufgeschoben und meinem Unterbewusstsein überlassen hätte.
  Die Denkschritte wirklich aufzuschreiben hilft dabei, fehlerhafte Schlussfolgerungsschritte oder Leerlauf zu ordnen, die durch begrenztes Arbeitsgedächtnis entstehen.
  Seit ich gesehen habe, wie Reasoning-basierte AI denkt, habe ich angefangen, das strenger zu machen, und es wirkte wie eine ziemlich nützliche Denktechnik.
  Solche Reasoning-AI-Modelle lassen mich mein eigenes Denken auf einer Metaebene betrachten und zeigen mir Werkzeuge, mit denen ich es verbessern kann.
  Schön zu sehen, dass ich damit nicht allein bin.
- Lautes Denken ist eine alte Praxis und entspricht „Rubber-Duck-Debugging“ mit sich selbst.
  Als jemand aus einer Ahnenlinie von Menschen, die beim Problemlösen mit sich selbst reden, war das in beaufsichtigten Prüfungen gelegentlich ein kleiner Nachteil. Innerer Monolog und tatsächliches Sprechen sind ziemlich verschieden.
- Informatiker tun so, als wären sie Kognitionswissenschaftler, haben aber offenbar nie einen Psychologiekurs besucht.
- Diese vier Dinge klingen wie ein einheitlicher kognitiver Algorithmus: Man zerlegt ein Problem in Teilziele und erstellt eine Ontologie, verifiziert die Arbeit korrekt, denkt rückwärts und versucht es erneut, um Fehler zu debuggen, und schließt vom Ergebnis zurück.
  Am Ende ist es ein Algorithmus zum Lösen schwieriger Probleme, eine trainierbare Fähigkeit, und je besser man sie beherrscht, desto stärker baut sie auf sich selbst auf.
An diesem Punkt kann ich allein am Titel nicht mehr erkennen, ob es sich um einen Selbstoptimierungs-Psychologie-Trend oder um ein LLM-Paper handelt.
- Demnächst kommt wahrscheinlich ein LLM, das nur anhand der ersten Prinzipien von The Subtle Art of Not Giving a Fuck schlussfolgert.
Wie sehr hat Wissen über AI-Trainingsmethoden wohl dabei geholfen, Wege zu finden, Menschen zu besserem Denken zu trainieren?
- Das Wissen darüber, wie man essen sollte, um extreme Zustände wie Fettleibigkeit zu vermeiden, gab es bereits; die Wirkung sieht man ja.
  Bis es eine Pille gibt, die Menschen besser denken lässt, werden es nur motivierte Menschen umsetzen, und in diesem Fall konnten motivierte Menschen es vermutlich ohnehin schon.
- Mit meinem Bildungshintergrund stelle ich mir eher häufig die umgekehrte Frage: Warum nutzen AI-Methoden so wenig von dem, was wir über menschliches Lernen wissen, um bessere AI zu trainieren?
- Bislang scheint dabei nichts besonders Interessantes herausgekommen zu sein.
Der Teil, dass „ein Modell, das mit falschen Antworten vorbereitet wurde, die korrekte Schlussfolgerungsmuster enthalten, eine ähnliche Leistung erzielt wie ein Modell, das mit richtigen Antworten trainiert wurde“, ist einer der Punkte, die am ehesten eine Replikationsstudie wert sind.
Auf Reddit sehe ich gelegentlich Beiträge, in denen Leute über ihre Erfahrung mit einem inneren Monolog sprechen, aber ich habe so einen Monolog nicht. Zumindest nicht in einer Form, auf die der Teil meines Geistes zugreifen kann, der sich selbst als „ich“ bezeichnet.
Ich habe mich oft gefragt, ob dieser Monolog so etwas wie eine „Chain of Thought“ ist.
Ich habe das Gefühl, dass meine Planung oder Exekutivfunktion vielleicht weniger effektiv ist als bei anderen, weil ich keinen Zugriff auf so einen „Ideen-Feed“ habe.
Trotzdem bin ich bei solchen Aufgaben mit einem kleinen „Chain-of-Thought“-Notizblock viel effektiver.
Andererseits habe ich wohl weniger von dem Grübeln, den Selbstzweifeln und dem Angstverhalten, die naheliegen würden, wenn einem den ganzen Tag jemand ins Ohr spricht; aber das führt vermutlich vom Thema weg.
- Entstehen in deinem Kopf überhaupt keine Gedanken auf sprachliche Weise? Ich frage mich, ob du einen Satz lesen und ihn im Kopf als Satz wahrnehmen kannst, oder ob auch das unmöglich ist.
  Ich zweifle nicht daran, ich bin wirklich neugierig. Als jemand mit sehr starkem inneren Monolog fällt es mir schwer, mir einen Zustand ohne ihn vorzustellen.
- Ernst gemeinte Frage aus Neugier: Wie funktioniert dann mehrstufiges Schlussfolgern?
  Wenn es zum Beispiel um eine Matheaufgabe wie 16 * 3 + 5 geht, bei der jeder Schritt einfach ist, aber mehrere Schritte nötig sind: Wie gelangt der Wert 16 * 3 = 48 in irgendein „Register“ des Gehirns, also ins Kurzzeitgedächtnis, und wie addierst du dann 5 dazu, um auf 53 zu kommen?
  16 * 3 + 5 ist so einfach, dass man es vielleicht einfach „sieht“, also nimm gern ein komplizierteres Problem; die Frage bleibt dieselbe.
  Funktioniert beim Nachdenken über weniger eindeutige Themen nicht derselbe Metaprozess?
- Ich habe einen inneren Monolog. Gleichzeitig kann ich auch in Bildern denken, und auch in reinen Gedanken, die keines von beidem sind.
  Ich vermute, die meisten Menschen sind mir ähnlich. Es gibt drei Denkmodi, und man hat wahrscheinlich einen bevorzugten Hauptmodus.
  Ich bevorzuge keinen besonders und wechsle je nach Lesen, Schreiben oder anderen Aufgaben zwischen den drei Modi.
  Die größere zweite Gruppe hat nur einen hauptsächlichen Denkmodus, nämlich den inneren Monolog.
  Diese Menschen können nur mit ihrer inneren Stimme denken, und ich habe oft gesehen, dass diese Stimme so stark ist, dass sie die innere Stimme selbst als Definition von Denken betrachten. Sie setzen Denken mit Chain of Thought gleich.
  Seltener gibt es Menschen, die Zahlen Farben zuordnen, oder Menschen, denen das Gefühl fehlt, überhaupt in Bildern zu denken.
  Jemanden, der gar keinen inneren Monolog haben kann, sehe ich zum ersten Mal.
- Es gibt ein interessantes Phänomen namens Aphantasie, bei dem man im Kopf keine Bilder erzeugen kann. Solche Menschen leben ganz normal und bemerken womöglich ihr Leben lang nicht, dass sie anders sind.
  Das wirkt auf mich wie ein ähnliches Konzept für die Fähigkeit, gesprochene Sprache im Kopf abzubilden.
  https://en.m.wikipedia.org/wiki/Aphantasia
  Allerdings besteht der Großteil meines Denkens nicht aus einem linearen Monolog, in dem ich mir die Schritte selbst „in Worte fasse“.
- Heißt das, du kannst nicht in Sprache denken? Ehrlich gesagt klingt das ein bisschen beängstigend.
Das stimmt zwar, aber mit sich selbst verbessernder KI geht eine ziemlich beunruhigende Denkweise einher
Die KI wechselt intern zu einer Sprache, die wie unsinniges Gemurmel wirkt, aber zwischen KIs offenbar Bedeutung transportiert; sie denkt in dieser Sprache und kommt dann zur richtigen Antwort.
Noch schlimmer: Wenn man mehrere Agenten einsetzt und KI-LLMs miteinander sprechen lässt, wechseln alle KI-Agenten in diese interne Sprache. Menschen verstehen überhaupt nicht, was vor sich geht, und trotzdem gibt es Fortschritte. Das wirkt sehr schlecht.
Beispiel: Wenn man fragt: „Wie viele r gibt es in strawberry?“, schaut sie sich das Wort buchstabenweise an, verarbeitet es etwa als a;dklsjaw; a;ewjraqwpeouypaads;lq qepwiouryaqeopw qewrpoiuyoiauysdqw145124rfa.nkjlwh ;45a8345a894ya4a q4p58q45jaq;lkjas;dlfkja;j und antwortet dann: „In strawberry gibt es 3 r.“
- Ich habe gehört, dass man das Neuralese nennt. Es klingt plausibel, dass es für interne Modellgespräche die Sprache mit der höchsten Dichte werden könnte. Wenn dieselben Gewichte geteilt werden, dürfte das auch für Gespräche zwischen LLMs gelten.
  Da Alignment-Strategien auf Deliberative Alignment setzen, würden sie solche Phänomene zwar bestrafen, aber ich denke, dass Neuralese irgendwann konzeptionell dichter ist und deshalb reale Performance-Kosten entstehen.
- Modelle werden nicht selbst neue Sprachen erfinden. Per Definition können sie in einer Sprache, die sie nie gesehen haben, nicht einmal „denken“.
  Sie können auch nicht auf die Idee kommen, dass die Sprache, die sie verwenden, nicht optimal sein könnte.
  Und selbst wenn es eine bessere Denkweise gäbe, ließe sie sich am Ende auf Englisch erklären.
  Der plausiblere Verlauf ist, dass wir von der Phase, in der wir LLMs beibringen, wie man schlussfolgert, allmählich in eine Phase übergehen, in der LLMs genug Daten tatsächlich aufgenommen und verarbeitet haben, um effektivere Schlussfolgerungsmethoden zu lernen und sie uns dann „beizubringen“.
  Trotzdem würde das nur widerspiegeln, wie das LLM trainiert und ausgerichtet wurde.
Es hieß: „vier zentrale kognitive Verhaltensweisen, die sowohl menschliche Experten beim Problemlösen als auch erfolgreiche Sprachmodelle nutzen — Verifikation, Zurückgehen, Setzen von Teilzielen und Rückwärts-Schlussfolgern“. Worauf stützt sich die Aussage, dass menschliche Experten beim Problemlösen solche Methoden verwenden?
- Wenn man das Misstrauen gegenüber KI kurz beiseitelässt, wirkt auch solche Pseudowissenschaft plötzlich plausibel.
Bedeutet das, dass die Leistung deutlich besser wird, wenn man einen besseren System-Prompt vorgibt, der solche Verhaltensweisen auslöst?
- Meiner Erfahrung nach halten sich Modelle nicht gut an solche Prompts.
  Kluge „Nicht-Reasoning“-Modelle wie Claude 3.5 konnten das, erzeugten beim Denken aber so viel Text, dass sie das Kontextfenster aufbrauchten.
Im Abstract wurde ``think'' geschrieben; dabei werden andere Zeichen als normale Anführungszeichen verwendet.
- Das ist LaTeX-Syntax für öffnende und schließende Anführungszeichen.
  In der gerenderten Paper-Version wird es allerdings seltsamerweise nicht so dargestellt.

Kognitive Verhaltensweisen, die selbstverbessernde Reasoner ermöglichen

Unterschiedliche Fähigkeit zur Selbstverbesserung trotz identischem Reinforcement Learning

Vier Reasoning-Verhaltensweisen, die Selbstverbesserung fördern

Anfängliche Verhaltensunterschiede zwischen Qwen und Llama

Verhaltens-Priming: Reasoning-Muster statt richtiger Antworten

Verhaltensverteilung durch Continued Pretraining verändern

Anfängliche Reasoning-Gewohnheiten bestimmen die Verbesserungsfähigkeit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare