- Große Sprachmodelle (LLMs) werden mit riesigen Mengen menschlicher Sprache vortrainiert und zeigen dadurch starke Reasoning-Fähigkeiten
- Der Ansatz „Chain-of-Thought (CoT)“ hilft dabei, Antworten abzuleiten, indem das Modell seinen Denkprozess schrittweise erzeugt
- Allerdings muss das Reasoning von LLMs in Form von Wörtern erzeugt werden, was dem Modell eine grundlegende Einschränkung auferlegt
- Menschen drücken ihre Gedanken nicht immer in Sprache aus. Muss KI das auch?
- Das Forschungspapier von Meta „Training Large Language Models to Reason in a Continuous Latent Space“ schlägt einen neuen Ansatz namens COCONUT (Chain of Continuous Thought) vor, um diese Grenze zu überwinden
Chain-of-Thought-(CoT)-Ansatz
- CoT ist ein Verfahren, bei dem eine Frage als Eingabe dient und über schrittweises Reasoning die endgültige Antwort erzeugt wird
- Das Modell verarbeitet die Eingabetokens und erzeugt das erste Antworttoken (den Beginn des Reasoning-Prozesses)
- Anschließend werden die Frage und die vorherigen Reasoning-Tokens wiederholt erneut in das Modell eingespeist, bis der gesamte Reasoning-Prozess vervollständigt ist und zuletzt die Antwort erzeugt wird
Chain of Continuous Thought (COCONUT)
- COCONUT verwendet abwechselnd den Sprachmodus und den Modus für latente Gedanken (latent thought)
- Sprachmodus: arbeitet wie ein Standard-Sprachmodell und erzeugt das nächste Token
- Modus für latente Gedanken: verwendet den letzten Hidden State, um den nächsten Schritt zu berechnen
- Im Modus für latente Gedanken wird der letzte Hidden State als nächste Eingabe genutzt, was effizienteres Reasoning ermöglicht
- Mit dem Token
<bot> startet der Modus für latente Gedanken, mit <eot> endet er und es wird zurück in den Sprachmodus gewechselt
Trainingsverfahren
- Das Modell wird auf Basis vorhandener CoT-Daten (Fragen, Reasoning-Schritte, endgültige Antworten) trainiert
- Das Training erfolgt schrittweise:
- In der Anfangsphase lernt das Modell, sprachbasierte Reasoning-Schritte und Antworten zu erzeugen
- In späteren Phasen werden die Reasoning-Schritte entfernt und stattdessen latente Gedankentokens zum Training hinzugefügt
- In jeder Phase wird der Loss für die verbleibenden sprachbasierten Reasoning-Schritte und die Antworten berechnet
- Latente Gedanken sind vollständig differenzierbar, sodass Backpropagation möglich ist
Übergang von der Gedankenbildung zur Erzeugung von Worttokens
- Es gibt zwei Strategien dafür, wie das Modell vom Modus latenter Gedanken in den Sprachmodus wechselt
- Die erste Strategie lässt „das Modell mithilfe eines binären Klassifikators entscheiden“, die zweite verwendet „eine feste Anzahl latenter Gedankentokens“
- Beide Strategien liefern ähnliche Ergebnisse, weshalb der einfachere Ansatz mit fester Anzahl übernommen wurde
Experimentelle Ergebnisse
- Die Coconut-Methode zeigt auf allen Datensätzen bessere Leistung als No-CoT.
- Im Vergleich zu CoT ist CoT bei Mathematik stärker, während Coconut bei ProsQA, wo Planungsfähigkeit gefragt ist, besser abschneidet.
- Im Vergleich zu i-CoT zeigt Coconut in Mathematik eine bessere Genauigkeit.
- Leistung von Coconut:
- GSM8K (Mathematik): schlechtere Leistung als CoT
- ProsQA (erfordert Planung): bessere Leistung als CoT
- No-CoT (direkte Antworterzeugung ohne Reasoning): auf allen Datensätzen bessere Leistung
- In puncto Effizienz werden weniger Tokens erzeugt als bei CoT
- Vergleich mit i-CoT:
- Höhere Genauigkeit in Mathematik
- Ähnliche Leistung bei Planung und logischem Reasoning
- Effekt des Curriculum Learning:
- Das Modell „ohne Curriculum (w/o curriculum)“ zeigt deutlich schlechtere Leistung
BFS-ähnliche Reasoning-Fähigkeit
- Auf dem ProsQA-Datensatz erzielt COCONUT starke Ergebnisse bei der lösungsorientierten Bearbeitung planungszentrierter Probleme
- Beispiel aus der Graphsuche:
- CoT: „halluziniert“ nicht existierende Beziehungen und führt dadurch zu einer falschen Antwort
- Coconut: kann mithilfe mehrerer latenter Gedankentokens den korrekten Pfad finden
- Coconut kann mehrere mögliche Pfade erkunden und erzielt deshalb bei planungsintensiven Aufgaben bessere Leistung
Fazit und künftige Forschungsrichtungen
- Fazit:
- Der COCONUT-Ansatz verbessert die Reasoning-Fähigkeiten von LLMs deutlich
- Reasoning im latenten Raum liefert bei planungszentrierten Aufgaben starke Leistung durch BFS-ähnliche Muster
- Künftige Forschungsrichtungen:
- Kontinuierliches Denken bereits in die Vortrainingsphase integrieren
- Die Effizienz steigern, um mehrere sequenzielle Reasoning-Prozesse zu verarbeiten
- Die Möglichkeit einer Kombination von CoT und latenten Gedanken untersuchen
1 Kommentare
Hacker-News-Kommentar
Die Betonung auf BFS ist das Gegenteil von dem, was ich versucht habe. Menschen teilen Arbeit anhand von Instinkt und Intuition in kurze Schritte und längere Schritte auf, in denen der nächste Schritt zusammengefasst/gespeichert wird. Bei einem Fehlschlag wird der Baum des Fehlschlags zusammengefasst, um ihn bei künftigen Entscheidungen auszuschließen.
Der nächste Schritt ist, Darstellungen ohne menschliche Sprache zu schaffen. Wenn LLMs nur über Embeddings ohne menschliche Texteingaben kommunizieren könnten, würde das ein neues Kapitel für KI eröffnen.
Meta beginnt mit einem vortrainierten Sprachmodell und führt anschließend ein Fine-Tuning mit schrittweisen Beispielen für Schlussfolgerungen durch. Es werden neue Tokens eingeführt, damit das Modell in einen Denkmodus im latenten Raum wechselt.
Ich frage mich, ob das Überspringen der Embedding-/Unembedding-Schritte für internes Denken die große Verbesserung ist oder ob die Trainingsmethode, die den Wechsel zwischen CoT und „latentem Denken“ sowie der Textausgabe beibringt, der entscheidende Punkt ist.
Das könnte der „It“-Moment für AI/LLMs sein. Menschen denken nicht in „Tokens“. Wenn das Modell im latenten Raum bleibt, kann es Ideen in höherer Auflösung als Sprache ausdrücken.
Die Konkurrenten holen schnell auf. Ich erwarte, dass mehrere SkyNets miteinander konkurrieren werden.
Ich frage mich, ob die Nutzerbasis von Facebooks KI-generierten Charakteren bessere Interaktionen haben könnte.
Die Seite behauptet, das Paper zu vereinfachen, aber sie ist voller Werbung, und auf der offiziellen Meta-FAIR-Seite lässt sich „Coconut“ nicht finden. Ich bin nicht sicher, ob diese Seite wirklich die beste zum Verlinken ist.
Doppelteintrag von vor 20 Tagen.