Coconut von Meta AI – Verbesserung des LLM-Reasonings mit einer kontinuierlichen Gedankenkette

(aipapersacademy.com)

6 Punkte von GN⁺ 2025-01-01 | 1 Kommentare | Auf WhatsApp teilen

Große Sprachmodelle (LLMs) werden mit riesigen Mengen menschlicher Sprache vortrainiert und zeigen dadurch starke Reasoning-Fähigkeiten
Der Ansatz „Chain-of-Thought (CoT)“ hilft dabei, Antworten abzuleiten, indem das Modell seinen Denkprozess schrittweise erzeugt
Allerdings muss das Reasoning von LLMs in Form von Wörtern erzeugt werden, was dem Modell eine grundlegende Einschränkung auferlegt
Menschen drücken ihre Gedanken nicht immer in Sprache aus. Muss KI das auch?
Das Forschungspapier von Meta „Training Large Language Models to Reason in a Continuous Latent Space“ schlägt einen neuen Ansatz namens COCONUT (Chain of Continuous Thought) vor, um diese Grenze zu überwinden

Chain-of-Thought-(CoT)-Ansatz

CoT ist ein Verfahren, bei dem eine Frage als Eingabe dient und über schrittweises Reasoning die endgültige Antwort erzeugt wird
Das Modell verarbeitet die Eingabetokens und erzeugt das erste Antworttoken (den Beginn des Reasoning-Prozesses)
Anschließend werden die Frage und die vorherigen Reasoning-Tokens wiederholt erneut in das Modell eingespeist, bis der gesamte Reasoning-Prozess vervollständigt ist und zuletzt die Antwort erzeugt wird

Chain of Continuous Thought (COCONUT)

COCONUT verwendet abwechselnd den Sprachmodus und den Modus für latente Gedanken (latent thought)
- Sprachmodus: arbeitet wie ein Standard-Sprachmodell und erzeugt das nächste Token
- Modus für latente Gedanken: verwendet den letzten Hidden State, um den nächsten Schritt zu berechnen
Im Modus für latente Gedanken wird der letzte Hidden State als nächste Eingabe genutzt, was effizienteres Reasoning ermöglicht
Mit dem Token <bot> startet der Modus für latente Gedanken, mit <eot> endet er und es wird zurück in den Sprachmodus gewechselt

Trainingsverfahren

Das Modell wird auf Basis vorhandener CoT-Daten (Fragen, Reasoning-Schritte, endgültige Antworten) trainiert
Das Training erfolgt schrittweise:
- In der Anfangsphase lernt das Modell, sprachbasierte Reasoning-Schritte und Antworten zu erzeugen
- In späteren Phasen werden die Reasoning-Schritte entfernt und stattdessen latente Gedankentokens zum Training hinzugefügt
In jeder Phase wird der Loss für die verbleibenden sprachbasierten Reasoning-Schritte und die Antworten berechnet
Latente Gedanken sind vollständig differenzierbar, sodass Backpropagation möglich ist

Übergang von der Gedankenbildung zur Erzeugung von Worttokens

Es gibt zwei Strategien dafür, wie das Modell vom Modus latenter Gedanken in den Sprachmodus wechselt
Die erste Strategie lässt „das Modell mithilfe eines binären Klassifikators entscheiden“, die zweite verwendet „eine feste Anzahl latenter Gedankentokens“
Beide Strategien liefern ähnliche Ergebnisse, weshalb der einfachere Ansatz mit fester Anzahl übernommen wurde

Experimentelle Ergebnisse

Die Coconut-Methode zeigt auf allen Datensätzen bessere Leistung als No-CoT.
Im Vergleich zu CoT ist CoT bei Mathematik stärker, während Coconut bei ProsQA, wo Planungsfähigkeit gefragt ist, besser abschneidet.
Im Vergleich zu i-CoT zeigt Coconut in Mathematik eine bessere Genauigkeit.
Leistung von Coconut:
- GSM8K (Mathematik): schlechtere Leistung als CoT
- ProsQA (erfordert Planung): bessere Leistung als CoT
- No-CoT (direkte Antworterzeugung ohne Reasoning): auf allen Datensätzen bessere Leistung
- In puncto Effizienz werden weniger Tokens erzeugt als bei CoT
Vergleich mit i-CoT:
- Höhere Genauigkeit in Mathematik
- Ähnliche Leistung bei Planung und logischem Reasoning
Effekt des Curriculum Learning:
- Das Modell „ohne Curriculum (w/o curriculum)“ zeigt deutlich schlechtere Leistung

BFS-ähnliche Reasoning-Fähigkeit

Auf dem ProsQA-Datensatz erzielt COCONUT starke Ergebnisse bei der lösungsorientierten Bearbeitung planungszentrierter Probleme
Beispiel aus der Graphsuche:
- CoT: „halluziniert“ nicht existierende Beziehungen und führt dadurch zu einer falschen Antwort
- Coconut: kann mithilfe mehrerer latenter Gedankentokens den korrekten Pfad finden
Coconut kann mehrere mögliche Pfade erkunden und erzielt deshalb bei planungsintensiven Aufgaben bessere Leistung

Fazit und künftige Forschungsrichtungen

Fazit:
- Der COCONUT-Ansatz verbessert die Reasoning-Fähigkeiten von LLMs deutlich
- Reasoning im latenten Raum liefert bei planungszentrierten Aufgaben starke Leistung durch BFS-ähnliche Muster
Künftige Forschungsrichtungen:
- Kontinuierliches Denken bereits in die Vortrainingsphase integrieren
- Die Effizienz steigern, um mehrere sequenzielle Reasoning-Prozesse zu verarbeiten
- Die Möglichkeit einer Kombination von CoT und latenten Gedanken untersuchen

1 Kommentare

GN⁺ 2025-01-01

Hacker-News-Kommentar

Die Betonung auf BFS ist das Gegenteil von dem, was ich versucht habe. Menschen teilen Arbeit anhand von Instinkt und Intuition in kurze Schritte und längere Schritte auf, in denen der nächste Schritt zusammengefasst/gespeichert wird. Bei einem Fehlschlag wird der Baum des Fehlschlags zusammengefasst, um ihn bei künftigen Entscheidungen auszuschließen.
- Die Wirkung des Instinkts nimmt mit zunehmender Distanz stark ab. Wenn man BFS verwendet, verringert man den Wert des Instinkts und bevorzugt Berechnung. Je nach Problemtyp ist der Ansatz unterschiedlich.
- Wer gemeinsam einen Prototyp bauen möchte, kann sich gern melden.
Der nächste Schritt ist, Darstellungen ohne menschliche Sprache zu schaffen. Wenn LLMs nur über Embeddings ohne menschliche Texteingaben kommunizieren könnten, würde das ein neues Kapitel für KI eröffnen.
Meta beginnt mit einem vortrainierten Sprachmodell und führt anschließend ein Fine-Tuning mit schrittweisen Beispielen für Schlussfolgerungen durch. Es werden neue Tokens eingeführt, damit das Modell in einen Denkmodus im latenten Raum wechselt.
- Die letzte Hidden-Layer wird wiederholt in die Input-Layer kopiert, um mehr Einsichten zu gewinnen.
- Das Training ersetzt sprachliche Schlussfolgerungsschritte schrittweise durch autoregressive Schritte im latenten Raum. Das Modell lernt, den Denkmodus im latenten Raum selbst zu aktivieren und zu beenden.
Ich frage mich, ob das Überspringen der Embedding-/Unembedding-Schritte für internes Denken die große Verbesserung ist oder ob die Trainingsmethode, die den Wechsel zwischen CoT und „latentem Denken“ sowie der Textausgabe beibringt, der entscheidende Punkt ist.
- Interessant ist, dass eine feste Anzahl von „latentem Denken“ dieselbe Leistung wie ein binärer Klassifikator zeigt.
Das könnte der „It“-Moment für AI/LLMs sein. Menschen denken nicht in „Tokens“. Wenn das Modell im latenten Raum bleibt, kann es Ideen in höherer Auflösung als Sprache ausdrücken.
- Der latente Raum ist in der Ausführung kostengünstig. Es kann ohne Sprachkodierungs-/Dekodierungsschritte denken. Es kann mit verschiedenartigen Daten als Eingabe Schlussfolgerungen ziehen.
Die Konkurrenten holen schnell auf. Ich erwarte, dass mehrere SkyNets miteinander konkurrieren werden.
Ich frage mich, ob die Nutzerbasis von Facebooks KI-generierten Charakteren bessere Interaktionen haben könnte.
Die Seite behauptet, das Paper zu vereinfachen, aber sie ist voller Werbung, und auf der offiziellen Meta-FAIR-Seite lässt sich „Coconut“ nicht finden. Ich bin nicht sicher, ob diese Seite wirklich die beste zum Verlinken ist.
Doppelteintrag von vor 20 Tagen.

Coconut von Meta AI – Verbesserung des LLM-Reasonings mit einer kontinuierlichen Gedankenkette

Chain-of-Thought-(CoT)-Ansatz

Chain of Continuous Thought (COCONUT)

Trainingsverfahren

Übergang von der Gedankenbildung zur Erzeugung von Worttokens

Experimentelle Ergebnisse

BFS-ähnliche Reasoning-Fähigkeit

Fazit und künftige Forschungsrichtungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentar