2 Punkte von GN⁺ 2024-03-17 | 1 Kommentare | Auf WhatsApp teilen

Quiet-STaR: Sprachmodellen kann beigebracht werden, vor dem Sprechen zu denken

  • Menschen halten beim Schreiben oder Sprechen manchmal inne, um nachzudenken; solche Schlussfolgerungen sind in fast allen schriftlichen Texten implizit enthalten.
  • Self-Taught Reasoner (STaR) zeigt anhand weniger Beispiele im Frage-Antwort-Format, wie Begründungen abgeleitet werden können, und schlägt eine Methode vor, nützliche Denkweisen zu lernen, indem aus Begründungen gelernt wird, die zur richtigen Antwort führen.
  • Quiet-STaR ist eine Verallgemeinerung von STaR und verbessert Vorhersagen, indem das Sprachmodell darauf trainiert wird, an jedem Token Begründungen zu erzeugen, um zukünftigen Text zu erklären.

Zentrale Herausforderungen und Lösungsansätze

  • Es gibt Herausforderungen wie die Rechenkosten kontinuierlicher Textgenerierung, das anfängliche Unwissen des Sprachmodells darüber, wie es interne Gedanken erzeugen oder nutzen soll, sowie die Notwendigkeit, über einzelne nächste Token hinaus vorherzusagen.
  • Um diese Probleme zu lösen, werden ein Token-paralleler Sampling-Algorithmus mit lernbaren Tokens zur Kennzeichnung von Beginn und Ende von Gedanken sowie eine erweiterte Teacher-Forcing-Technik vorgeschlagen.

Verbesserte Modellleistung

  • Die erzeugten Begründungen helfen dabei, schwierige Tokens vorherzusagen, und verbessern die Fähigkeit des Sprachmodells, schwierige Fragen direkt zu beantworten.
  • Nachdem ein Sprachmodell mit Quiet-STaR auf einem Internet-Textkorpus weiter vortrainiert wurde, wurden Zero-Shot-Verbesserungen bei GSM8K (5.9%→10.9%) und CommonsenseQA (36.3%→47.2%) festgestellt sowie Verbesserungen der Perplexity bei schwierigen Tokens in natürlichem Text beobachtet.
  • Diese Verbesserungen wurden ohne Fine-Tuning für die jeweiligen Aufgaben erreicht.

Meinung von GN⁺

  • Quiet-STaR zeigt einen weiteren Schritt in Richtung Sprachmodelle, die Schlussfolgern auf allgemeinere und besser skalierbare Weise lernen können.
  • Diese Forschung stellt einen wichtigen Fortschritt bei der Stärkung von Sprachverständnis und Schlussfolgerungsfähigkeit im Bereich der künstlichen Intelligenz dar und kann zur Weiterentwicklung der Natural Language Processing-Technologie beitragen.
  • Kritisch betrachtet könnte diese Technologie bei der Anwendung auf komplexe Probleme der realen Welt auch zu unerwarteten Ergebnissen führen, weshalb weitere Forschung und Sicherheitsmaßnahmen erforderlich sind.
  • Andere Projekte mit ähnlichen Funktionen sind etwa die GPT-Reihe von OpenAI oder Googles BERT; auch dort laufen Forschungen zur Verbesserung des Sprachverständnisses und der Textgenerierung.
  • Zu den Aspekten, die bei der Einführung der Technologie berücksichtigt werden sollten, gehören die Qualität und Vielfalt der Trainingsdaten, der ethische Einsatz des Modells und die Rechenkosten; ein Vorteil dieser Technologie ist die Erzeugung präziserer und differenzierterer Sprachmodelle.

1 Kommentare

 
GN⁺ 2024-03-17
Hacker-News-Kommentare
  • Wenn das Netzwerk ungefähr 50 Schichten tief ist, bedeutet das, dass dieses Netzwerk über 50 symbolische „Schritte“ hinweg schlussfolgern kann. Es könnte bedeuten, dass 50 Schritte in dem Unterraum, auf dem das Modell trainiert wurde, mehr erreichen können als ein einzelner menschlicher Schritt, aber wir wissen, dass Menschen die Fähigkeit haben, über solche Schritte hinaus zu denken und Dinge gründlich abzuwägen.
  • Edsger Dijkstra hatte, obwohl Niederländisch seine Muttersprache war, einen sehr präzisen englischen Stil. Er erinnerte sich, dass er schon in jungen Jahren gelernt hatte, dass man vor Beginn eines Satzes wissen sollte, wie man ihn beendet. Es gibt die Vermutung, dass zwischen diesen beiden Beobachtungen ein Kausalzusammenhang bestehen könnte.
  • Mir kam der Gedanke, dass das „Chain-of-Thought“-Muster, das zur Leistungssteigerung von LLM-basierten Systemen beiträgt, parallel zu dem Zwei-Systeme-Modell verläuft, das in Kahnemans Schnelles Denken, langsames Denken behandelt wird. „System 1“ steht für Gedanken, die mit geringem Aufwand und wenig Rechenleistung verarbeitet werden, „System 2“ wird für bewusste und anspruchsvolle kognitive Arbeit genutzt. Auf die Kritik, dass LLMs offenbar nur „System 1“ verwenden, könnte man sagen: Wenn man LLMs dazu bringt, Schritt für Schritt zu denken, ist das ähnlich, als würde man ihnen eine Art Entscheidungs-Sandbox wie „System 2“ bereitstellen.
  • Das ist der fehlende Baustein, mit dem sich KI für viele Aufgaben trainieren lässt, bei denen die bekannten Antworten vorliegen, aber die Schlussfolgerungsschritte fehlen. Mit dieser Methode könnte man schon mit kleinen Mengen annotierter Daten Schlussfolgerungsfähigkeit erreichen. Wenn die erzeugten Gedanken für Menschen schwer verständlich sind, aber erheblich hilfreicher dabei, zur richtigen Antwort zu gelangen, könnte man sagen, dass wir etwas erschaffen haben, das intelligenter ist als wir selbst.
  • Ein großer Teil der Bedeutung von Text verbirgt sich zwischen den Zeilen, und wenn ein Leser nicht versteht, warum Aussagen in einem Dokument auftauchen, hat er nur ein oberflächliches Verständnis. Die meisten Menschen verfügen jedoch über ein Weltmodell und wissen bis zu einem gewissen Grad, warum die Aussagen in einem Buch erscheinen. Wenn man zum Beispiel ein Lehrbuch über Strömungsmechanik liest, versteht man vielleicht die Mathematik nicht, weiß aber, warum die Aussagen dort stehen.
  • Es gibt die Frage, ob die Autoren dieser Arbeit mit dem von Gerüchten umgebenen Q*-Modell von OpenAI zu tun haben oder ob es sich einfach nur um einen zufälligen Namensgleichklang handelt.
  • Sie haben keinen Verweis auf eine Arbeit [1] aufgenommen, die ihrer Arbeit fast 8 Jahre zuvor vorausging und sich mit Sprachmodellierung unter Einsatz von (gelernt) variabler Berechnung in RNNs befasste. Microsoft hatte damals auch etwas Ähnliches für Bilderkennung.
  • Das ist im Grunde dasselbe, was ich heute Morgen auf Prompt-Ebene ausprobiert habe, nur dass ich noch einen Schritt weitergedacht habe und „Meta-Tokens“ einführe, die dem LLM helfen, seinen Kontext erneut zu durchsuchen. Einige dieser Meta-Tokens könnten Nebeneffekte haben, etwa Teile des Kontexts hervorzuheben, zu strukturieren, zusammenzufassen oder zu vergessen. Das könnte LLMs nicht nur logische bzw. Schlussfolgerungsfähigkeiten verleihen, sondern ihnen auch die Mittel geben, ihre eigene kognitive Struktur zu erzeugen.
  • Es gibt einen Fall, in dem das Intel-Team wie bei NeuralChat versucht hat, Base Mistral 7B auf eine Weise zu verwenden, die für die Evaluierung ungeeignet ist.
  • Diese Forschung wirkt sehr interessant, und es gibt die Frage, ob die Forscher den Code wahrscheinlich bald veröffentlichen werden.