6 Punkte von GN⁺ 2025-01-01 | 1 Kommentare | Auf WhatsApp teilen
  • Große Sprachmodelle (LLMs) werden mit riesigen Mengen menschlicher Sprache vortrainiert und zeigen dadurch starke Reasoning-Fähigkeiten
  • Der Ansatz „Chain-of-Thought (CoT)“ hilft dabei, Antworten abzuleiten, indem das Modell seinen Denkprozess schrittweise erzeugt
  • Allerdings muss das Reasoning von LLMs in Form von Wörtern erzeugt werden, was dem Modell eine grundlegende Einschränkung auferlegt
  • Menschen drücken ihre Gedanken nicht immer in Sprache aus. Muss KI das auch?
  • Das Forschungspapier von Meta „Training Large Language Models to Reason in a Continuous Latent Space“ schlägt einen neuen Ansatz namens COCONUT (Chain of Continuous Thought) vor, um diese Grenze zu überwinden

Chain-of-Thought-(CoT)-Ansatz

  • CoT ist ein Verfahren, bei dem eine Frage als Eingabe dient und über schrittweises Reasoning die endgültige Antwort erzeugt wird
  • Das Modell verarbeitet die Eingabetokens und erzeugt das erste Antworttoken (den Beginn des Reasoning-Prozesses)
  • Anschließend werden die Frage und die vorherigen Reasoning-Tokens wiederholt erneut in das Modell eingespeist, bis der gesamte Reasoning-Prozess vervollständigt ist und zuletzt die Antwort erzeugt wird

Chain of Continuous Thought (COCONUT)

  • COCONUT verwendet abwechselnd den Sprachmodus und den Modus für latente Gedanken (latent thought)
    • Sprachmodus: arbeitet wie ein Standard-Sprachmodell und erzeugt das nächste Token
    • Modus für latente Gedanken: verwendet den letzten Hidden State, um den nächsten Schritt zu berechnen
  • Im Modus für latente Gedanken wird der letzte Hidden State als nächste Eingabe genutzt, was effizienteres Reasoning ermöglicht
  • Mit dem Token <bot> startet der Modus für latente Gedanken, mit <eot> endet er und es wird zurück in den Sprachmodus gewechselt

Trainingsverfahren

  • Das Modell wird auf Basis vorhandener CoT-Daten (Fragen, Reasoning-Schritte, endgültige Antworten) trainiert
  • Das Training erfolgt schrittweise:
    • In der Anfangsphase lernt das Modell, sprachbasierte Reasoning-Schritte und Antworten zu erzeugen
    • In späteren Phasen werden die Reasoning-Schritte entfernt und stattdessen latente Gedankentokens zum Training hinzugefügt
  • In jeder Phase wird der Loss für die verbleibenden sprachbasierten Reasoning-Schritte und die Antworten berechnet
  • Latente Gedanken sind vollständig differenzierbar, sodass Backpropagation möglich ist

Übergang von der Gedankenbildung zur Erzeugung von Worttokens

  • Es gibt zwei Strategien dafür, wie das Modell vom Modus latenter Gedanken in den Sprachmodus wechselt
  • Die erste Strategie lässt „das Modell mithilfe eines binären Klassifikators entscheiden“, die zweite verwendet „eine feste Anzahl latenter Gedankentokens“
  • Beide Strategien liefern ähnliche Ergebnisse, weshalb der einfachere Ansatz mit fester Anzahl übernommen wurde

Experimentelle Ergebnisse

  • Die Coconut-Methode zeigt auf allen Datensätzen bessere Leistung als No-CoT.
  • Im Vergleich zu CoT ist CoT bei Mathematik stärker, während Coconut bei ProsQA, wo Planungsfähigkeit gefragt ist, besser abschneidet.
  • Im Vergleich zu i-CoT zeigt Coconut in Mathematik eine bessere Genauigkeit.
  • Leistung von Coconut:
    • GSM8K (Mathematik): schlechtere Leistung als CoT
    • ProsQA (erfordert Planung): bessere Leistung als CoT
    • No-CoT (direkte Antworterzeugung ohne Reasoning): auf allen Datensätzen bessere Leistung
    • In puncto Effizienz werden weniger Tokens erzeugt als bei CoT
  • Vergleich mit i-CoT:
    • Höhere Genauigkeit in Mathematik
    • Ähnliche Leistung bei Planung und logischem Reasoning
  • Effekt des Curriculum Learning:
    • Das Modell „ohne Curriculum (w/o curriculum)“ zeigt deutlich schlechtere Leistung

BFS-ähnliche Reasoning-Fähigkeit

  • Auf dem ProsQA-Datensatz erzielt COCONUT starke Ergebnisse bei der lösungsorientierten Bearbeitung planungszentrierter Probleme
  • Beispiel aus der Graphsuche:
    • CoT: „halluziniert“ nicht existierende Beziehungen und führt dadurch zu einer falschen Antwort
    • Coconut: kann mithilfe mehrerer latenter Gedankentokens den korrekten Pfad finden
  • Coconut kann mehrere mögliche Pfade erkunden und erzielt deshalb bei planungsintensiven Aufgaben bessere Leistung

Fazit und künftige Forschungsrichtungen

  • Fazit:
    • Der COCONUT-Ansatz verbessert die Reasoning-Fähigkeiten von LLMs deutlich
    • Reasoning im latenten Raum liefert bei planungszentrierten Aufgaben starke Leistung durch BFS-ähnliche Muster
  • Künftige Forschungsrichtungen:
    • Kontinuierliches Denken bereits in die Vortrainingsphase integrieren
    • Die Effizienz steigern, um mehrere sequenzielle Reasoning-Prozesse zu verarbeiten
    • Die Möglichkeit einer Kombination von CoT und latenten Gedanken untersuchen

1 Kommentare

 
GN⁺ 2025-01-01
Hacker-News-Kommentar
  • Die Betonung auf BFS ist das Gegenteil von dem, was ich versucht habe. Menschen teilen Arbeit anhand von Instinkt und Intuition in kurze Schritte und längere Schritte auf, in denen der nächste Schritt zusammengefasst/gespeichert wird. Bei einem Fehlschlag wird der Baum des Fehlschlags zusammengefasst, um ihn bei künftigen Entscheidungen auszuschließen.

    • Die Wirkung des Instinkts nimmt mit zunehmender Distanz stark ab. Wenn man BFS verwendet, verringert man den Wert des Instinkts und bevorzugt Berechnung. Je nach Problemtyp ist der Ansatz unterschiedlich.
    • Wer gemeinsam einen Prototyp bauen möchte, kann sich gern melden.
  • Der nächste Schritt ist, Darstellungen ohne menschliche Sprache zu schaffen. Wenn LLMs nur über Embeddings ohne menschliche Texteingaben kommunizieren könnten, würde das ein neues Kapitel für KI eröffnen.

  • Meta beginnt mit einem vortrainierten Sprachmodell und führt anschließend ein Fine-Tuning mit schrittweisen Beispielen für Schlussfolgerungen durch. Es werden neue Tokens eingeführt, damit das Modell in einen Denkmodus im latenten Raum wechselt.

    • Die letzte Hidden-Layer wird wiederholt in die Input-Layer kopiert, um mehr Einsichten zu gewinnen.
    • Das Training ersetzt sprachliche Schlussfolgerungsschritte schrittweise durch autoregressive Schritte im latenten Raum. Das Modell lernt, den Denkmodus im latenten Raum selbst zu aktivieren und zu beenden.
  • Ich frage mich, ob das Überspringen der Embedding-/Unembedding-Schritte für internes Denken die große Verbesserung ist oder ob die Trainingsmethode, die den Wechsel zwischen CoT und „latentem Denken“ sowie der Textausgabe beibringt, der entscheidende Punkt ist.

    • Interessant ist, dass eine feste Anzahl von „latentem Denken“ dieselbe Leistung wie ein binärer Klassifikator zeigt.
  • Das könnte der „It“-Moment für AI/LLMs sein. Menschen denken nicht in „Tokens“. Wenn das Modell im latenten Raum bleibt, kann es Ideen in höherer Auflösung als Sprache ausdrücken.

    • Der latente Raum ist in der Ausführung kostengünstig. Es kann ohne Sprachkodierungs-/Dekodierungsschritte denken. Es kann mit verschiedenartigen Daten als Eingabe Schlussfolgerungen ziehen.
  • Die Konkurrenten holen schnell auf. Ich erwarte, dass mehrere SkyNets miteinander konkurrieren werden.

  • Ich frage mich, ob die Nutzerbasis von Facebooks KI-generierten Charakteren bessere Interaktionen haben könnte.

  • Die Seite behauptet, das Paper zu vereinfachen, aber sie ist voller Werbung, und auf der offiziellen Meta-FAIR-Seite lässt sich „Coconut“ nicht finden. Ich bin nicht sicher, ob diese Seite wirklich die beste zum Verlinken ist.

  • Doppelteintrag von vor 20 Tagen.