Quiet-STaR: Sprachmodellen beibringen, vor dem Sprechen selbst nachzudenken

(arxiv.org)

2 Punkte von GN⁺ 2024-03-17 | 1 Kommentare | Auf WhatsApp teilen

Quiet-STaR ist eine Methode, die statt QA-Datensätzen mit richtigen Antworten allgemeinen Webtext als Lernsignal nutzt, um Sprachmodelle darauf zu trainieren, vor dem Sprechen interne Begründungen zu erzeugen
Während das bisherige STaR nur Begründungen auswählte und lernte, die zur richtigen Antwort führten, belohnt Quiet-STaR Begründungen, die die Vorhersage künftiger Texte verbessern, und nutzt so implizites Schlussfolgern in unstrukturiertem Text
An jeder Token-Position werden Begründungen parallel gesampelt; Vorhersagen mit und ohne Begründung werden gemischt, um das Modell darauf zu trainieren, den tatsächlich folgenden Text besser vorherzusagen
Bei fortgesetztem Pretraining von Mistral 7B auf OpenWebMath und C4 stieg die Genauigkeit ohne aufgabenspezifisches Fine-Tuning bei GSM8K von 5,9 % auf 10,9 % und bei CommonsenseQA von 36,3 % auf 47,2 %
Der Effekt zeigte sich stärker bei schwer vorherzusagenden Tokens; außerdem deutete sich an, dass mehr für interne Gedanken verwendete Tokens auch größere Verbesserungen bei der direkten Schlussfolgerungsleistung bringen

Allgemeinen Text als Lernziel für Schlussfolgern nutzen

Menschen halten beim Schreiben oder Sprechen kurz inne und denken nach; ein erheblicher Teil der Bedeutung von Text liegt in Gründen und Implikationen, die zwischen den Sätzen nicht explizit erscheinen
Bisherige Ansätze mit Fokus auf Schlussfolgern konzentrierten sich meist darauf, Fragen zu beantworten oder Agentenaufgaben abzuschließen; Quiet-STaR geht dagegen davon aus, dass Schlussfolgern in fast jedem Text implizit vorhanden ist
Beispiele für implizites Schlussfolgern sind:
- nicht explizit genannte Zwischenschritte in einem Beweis
- Theorien in Dialogen, die den mentalen Zustand des Gegenübers abschätzen

STaR auf Language Modeling erweitern

STaR(Self-Taught Reasoner) ist eine Methode, die in Frage-Antwort-Datensätzen auf Basis weniger Beispiele Begründungen sampelt und nur jene Begründungen lernt, die zur richtigen Antwort führen, sodass iterativ schwierigere Probleme gelöst werden können
STaR hat die Einschränkung, auf sorgfältig kuratierte Daten wie hochwertige QA-Datensätze angewiesen zu sein
- Solche Datensätze können nur bestimmte Schlussfolgerungsaufgaben abdecken
- In manchen Fällen müssen die Begründungen selbst oder bestimmte Schlussfolgerungs-Tasks bereitgestellt werden
Statt auf Tasks wie bestimmte Mathematik-QA zu setzen, trainiert Quiet-STaR Sprachmodelle darauf, in großem Internettext Begründungen zu erzeugen, die beim Schlussfolgern über künftigen Text helfen
Dieser Ansatz baut auf der Intuition des Language-Modeling-Paradigmas auf, dass „Sprachmodelle unüberwachte Multitask-Lerner“ sind

Trainingsablauf: think, talk, learn

Quiet-STaR funktioniert in drei Schritten
- think: Nach jedem Token im Text werden parallel Begründungen erzeugt, die künftigen Text erklären
- talk: Die Vorhersagen des nächsten Tokens mit und ohne Begründung werden gemischt
- learn: Mit REINFORCE-basierten Rewards wird die Wahrscheinlichkeit von Begründungen erhöht, die die Vorhersage künftiger Texte unterstützen; schädliche Begründungen werden verworfen
Während des Trainings markiert das Modell bei einem einzelnen thought den Anfang und das Ende des Gedankens mit lernbaren Meta-Tokens wie START und END
Nach der Erzeugung einer Begründung entscheidet ein mixing head, wie stark die auf dieser Begründung basierende Vorhersage in die Vorhersage künftiger Tokens einfließen soll

Implementierungsprobleme, damit das Modell bei jedem Token denkt

In allgemeinem Text müssen für jedes Token Begründungen erzeugt werden, was hohe Rechenkosten verursacht
Um diese zu senken, wird ein Algorithmus für tokenweises paralleles Sampling vorgeschlagen und implementiert, der an allen Token-Positionen innerhalb eines Strings Begründungen erzeugt
Ebenfalls behandelt wird das Problem, dass Sprachmodelle anfangs nicht wissen, wie sie interne Gedanken erzeugen oder nutzen sollen
- Es werden eigene Meta-Tokens eingeführt, die Anfang und Ende eines Gedankens markieren
- Das Modell lernt, wann es eine Begründung erzeugen und wann es auf Basis dieser Begründung eine Vorhersage treffen soll
Um kurzsichtiges Lernen zu vermeiden, das nur auf ein einzelnes nächstes Token blickt, wird ein nicht-myopischer Loss (non-myopic loss) verwendet, der mehrere vorausliegende Tokens einbezieht
Mit einer erweiterten Teacher-Forcing-Technik werden auch Vorhersagen über das einzelne nächste Token hinaus ins Training einbezogen

Experimentelles Setup und Ergebnisse

Die Experimente wurden durchgeführt, indem Quiet-STaR auf Mistral 7B angewendet wurde
Für das fortgesetzte Pretraining wurden die Webtext-Datensätze OpenWebMath und C4(Colossal Clean Crawled Corpus) verwendet
Die Zero-Shot-Leistung beim direkten Schlussfolgern verbesserte sich ohne aufgabenspezifisches Fine-Tuning
- GSM8K: 5,9 %→10,9 %
- CommonsenseQA: 36,3 %→47,2 %
Sowohl bei GSM8K als auch bei CommonsenseQA nahm die Leistungsverbesserung konsistent zu, je länger die Zahl der während des Quiet-STaR-Trainings verwendeten Gedanken-Tokens war
In natürlichem Text verbesserte sich die Perplexity schwer vorherzusagender Tokens
Die erzeugten Begründungen halfen unverhältnismäßig stark insbesondere bei schwer vorherzusagenden Tokens

Beiträge von Quiet-STaR

Quiet-STaR generalisiert STaR, sodass Schlussfolgern nicht aus kuratierten Reasoning-Tasks, sondern aus vielfältigen unstrukturierten Textdaten gelernt wird
Der Algorithmus für paralleles Sampling macht das Trainingsverfahren skalierbar, bei dem an jeder Token-Position eines gegebenen Strings Begründungen erzeugt werden
Eigene Meta-Tokens für Anfang und Ende eines Gedankens werden verwendet, damit das Modell das Timing von Begründungserzeugung und begründungsbasierter Vorhersage lernt
Der mixing head entscheidet nachträglich, wie stark die Vorhersage des nächsten Tokens aus einem bestimmten thought in die aktuelle Vorhersage einfließen soll
Ein Language-Modeling-Loss, der mehrere vorausliegende Tokens einbezieht, verbessert die Wirkung der Gedanken
Wenn Gedanken über mehrere Tasks hinweg genutzt werden, sagt das Modell schwierige Tokens besser vorher als ein mit demselben Webtext trainiertes Modell; bei längeren thoughts fällt die Verbesserung größer aus

1 Kommentare

GN⁺ 2024-03-17

Hacker-News-Meinungen

Zum Beispiel wirkt es intuitiv naheliegend, dass ein 50 Schichten tiefes Netzwerk bei symbolischen Fragen nur etwa 50 Schritte weit schlussfolgern kann.
Was komplexer aussieht, entsteht, weil das Modell in einem oder mehreren gelernten Teilräumen 50 Schritte ausführt, und ein solcher „Schritt“ kann mehr leisten als ein menschlicher Schritt.
Menschen können auch darüber hinaus schlussfolgern, aber dafür brauchen sie echtes Nachdenken und Abwägen, manchmal auch einen Notizblock.
Zu erwarten, dass ChatGPT ohne irgendeinen Gedanken oder „Papier“ eine vierstellige Multiplikation korrekt ausführt, ist ziemlich erstaunlich; tatsächlich können auch nicht viele Menschen solche Rechnungen im Kopf durchführen.
- Stimmt, aber man muss auch das autoregressive Element berücksichtigen.
  Im Beispiel sind es 50 Schritte pro Modellausführung, und pro ausgegebenem Token wird das Modell einmal ausgeführt.
  Deshalb ist es komplizierter zu berechnen, wie viel das Modell tatsächlich „denken“ kann.
  Natürlich ist das Modell, sobald ein Token ausgegeben wurde, in der Standardeinstellung auf dieses Token festgelegt, aber das heißt nicht, dass es beim Erzeugen der folgenden Tokens nicht weiter „denkt“.
  Der Kontext und die zuvor ausgegebenen Tokens sind die Eingabe für den nächsten Modellschritt und können daher als der erwähnte Notizblock betrachtet werden.
- Dieses Paper folgt dieser Intuition und untersucht die Grenzen von Transformern bei synthetischen Aufgaben. Dazu gehören auch Aufgaben, die wie Multiplikation mehrere Schlussfolgerungsschritte erfordern: https://arxiv.org/abs/2305.18654
  Die experimentellen Ergebnisse deuten darauf hin, dass Transformer-basierte große Sprachmodelle mehrstufiges kompositionales Schlussfolgern eher auf linearisiertes Teilgraph-Matching reduzieren, statt es als systematische Problemlösungsfähigkeit zu bewältigen.
  Außerdem zeigt eine theoretische Argumentation zu abstrakten mehrstufigen Schlussfolgerungsproblemen, dass die Leistung autoregressiver Generierung mit zunehmender Aufgabenkomplexität schnell abfallen kann.
- Dabei wird ein wichtiges Detail übersehen: die Anzahl der Tokens. Auch wenn die Netzwerktiefe 50 „Schritte“ hergibt, können zusätzliche Tokens verwendet werden.
  Solange man annimmt, dass das Band nicht ausgeht, gibt es keinen Grund, warum große Sprachmodelle auf einfache Operationen beschränkt sein sollten.
- Wenn man bedenkt, wie Backpropagation funktioniert, ergibt diese Erklärung nicht besonders viel Sinn. Die Schichten sind nicht darauf beschränkt, nur unabhängig voneinander zu arbeiten.
  Auch wenn man berücksichtigt, dass das Modell autoregressiv ist, passt das ebenso wenig.
Edsger Dijkstra hatte einen präzisen englischen Stil, und obwohl seine Muttersprache Niederländisch war, nutzte er Englisch meiner Ansicht nach besser als viele Muttersprachler.
In einem EWD erinnerte er sich daran, dass er als Kind gelernt hatte: „Fange nicht an zu sprechen, bevor du nicht schon weißt, wie du den Satz beenden wirst.“
Zwischen diesen beiden Beobachtungen scheint es einen kausalen Zusammenhang zu geben.
- Als ich jünger war, lebte ich eine Zeit lang im Ausland und nahm Sprachunterricht. In demselben Kurs war ein Mann mittleren Alters, der in der neuen Sprache sehr unbeholfen war, aber immer die Fähigkeit hatte, die Leute zum Lachen zu bringen.
  Ich fragte mich, wie er das machte, und eines Tages erklärte er es mir beim gemeinsamen Mittagessen ernsthaft.
  Er sagte, er spreche keinen einzigen Satz aus, bevor er ihn im Kopf vollständig durchgesprochen habe; er gehe die Wörter mehrfach durch, feile am Satz, stelle sich vor, wie sein Gegenüber reagieren würde, und spreche erst dann, wenn er sich die gewünschte Reaktion vorstellen könne.
  Dieser Rat wies mich zugleich ziemlich genau darauf hin, dass ich gedankenlos sprach, und es fühlte sich an, als hätte er die Frage, die ich gar nicht gestellt hatte, richtig gelesen und beantwortet.
  Wenn ich diese Methode ausprobierte, wurde die Mühe belohnt, aber ich habe sie nie zur Gewohnheit gemacht und rede immer noch eher schneller, als mein Kopf hinterherkommt.
- Das klingt für mich nach der Hölle. Spontaneität und das Gefühl, im Moment zu sein, verschwinden dabei völlig.
  Früher habe ich zwanghaft versucht, vor dem Sprechen darüber nachzudenken, was ich sagen will, und obwohl ich sozial eher unbeholfen bin, hat es überhaupt nicht geholfen.
  Schreiben mag ich, weil es asynchron ist und man Gedanken präzise ordnen und überarbeiten kann, aber in sozialen Situationen ist das ein großes Hindernis.
- Ich sehe zwei Dinge. Erstens sind Schreiben und Sprechen verschieden. Schreiben ist asynchron, sodass man vor dem Schreiben nachdenken und überarbeiten kann.
  Zweitens führt das Sprechen in einer Nicht-Muttersprache dazu, dass man gründlicher über das nachdenkt, was man als Nächstes sagen wird. Man verwendet weniger Redewendungen, konzentriert sich stärker darauf, ob die Bedeutung richtig ankommt, und wird offenbar sensibler dafür, ob man das Gegenüber vielleicht vor den Kopf stößt.
  Das ist auch nichts Neues. Auch Bereiche wie die Wissenschaft wurden oft in Sprachen betrieben, die nicht die Muttersprache der Forschenden waren, etwa Französisch, Deutsch oder Latein.
  Außerdem spielt Fachterminologie eine Rolle. Wenn ich einfach sagen würde: „Kubernetes is een open-bron houder orkestratiesysteem voor het automatiseren van de inzet, schalen, en het beheer van zachte waren“, wäre die Hälfte meines muttersprachlichen Publikums verwirrt.
- Ich lese seine EWDs gern. Ein Professor, der mit ihm zusammengearbeitet hatte, erzählte einmal, dass er Studierende in Prüfungen mit Füller schreiben ließ.
  Wollte er dadurch die Wahrscheinlichkeit verringern, dass die Studierenden Fehler machen?
- Ich habe Englisch ebenfalls aus Lehrbüchern gelernt, und eines der seltsamsten Dinge war für mich, dass Muttersprachler „their, there, they’re“ im Alltag regelmäßig verwechseln.
  Ich hätte nie gedacht, dass das ein Fehler sein könnte, den ich machen könnte; es fühlt sich für mich ähnlich an, als würde man „wet“ und „vet“ verwechseln.
  Es gibt definitiv Unterschiede im Sprachgebrauch von Muttersprachlern und Nicht-Muttersprachlern.
Mir kam vor ein paar Tagen der Gedanke, dass das Muster des Chain-of-Thought-Reasonings, das bei Systemen auf Basis großer Sprachmodelle zur Leistungssteigerung beiträgt, gut neben Kahnemans Modell der zwei Systeme des Denkens aus „Thinking, Fast and Slow“ passt.
Ich habe das Buch seit Jahren nicht mehr gelesen, aber ich meine mich zu erinnern, dass man für Denken mit geringem Aufwand und geringer Rechenlast vor allem „System 1“ nutzt. Zum Beispiel 1+1=? oder „Der Himmel ist ____“.
„System 2“ dagegen wird für absichtsvolle, bewusste und kognitiv belastende Aufgaben genutzt: große Multiplikationen, Schlussfolgerungsaufgaben, Tool-Nutzung und Entscheidungsfindung allgemein, also Dinge, die Konzentration oder mentale Ressourcen erfordern.
Die Kritik „große Sprachmodelle sind stochastische Papageien und haben keine Intelligenz“ wirkt für mich eigentlich wie die Beobachtung, dass die Modelle nur für „System 1“ ausgerüstet sind.
Wenn man ein großes Sprachmodell promptet, Schritt für Schritt zu denken, gibt man ihm einen Arbeitsbereich, in dem es seine Gedanken notieren und sie bei der Vorhersage des nächsten Tokens wieder berücksichtigen kann. Das wird zu einer Art grundlegendem System 2, also einer Sandbox zum Nachdenken.
Auch Menschen halten beim Einsatz von System 2 vorne im Geist ein Diorama der Welt fest und simulieren, wie die Umgebung auf bestimmte Handlungen reagieren würde. Man stellt sich vor, was ein Freund antworten wird, wie sich eine Stahlplatte unter Kraft verbiegt, wie Code kaputtgeht oder wie ein Reifen Grip bekommt, durchsucht einen Baum von Möglichkeiten und wählt die Handlung mit der höchsten Belohnung.
Ich bin kein Experte, aber diese Arbeit scheint einen ähnlichen Rahmen erkannt zu haben. Besonders in Handlungsmodellen aus der Robotik könnten künftig iterative Mechanismen für Überlegung/Simulation auftauchen.
- Vorweg: Das kann wie völlig ausgedachter Unsinn, eine unwissenschaftliche Anekdote oder naives beziehungsweise unreifes Gerede klingen. Zum Glück muss es niemand glauben.
  Vor ein paar Wochen geriet ich in einem Zustand, in dem ich weder ganz wach war noch schlief, in eine Schleife, in der ich bemerkte, wie mein schnell denkendes Gehirn mit Lichtgeschwindigkeit Wörter und Konzepte ausspuckte und mein langsam denkendes Gehirn sie in tatsächliche Sätze verwandelte.
  Es fühlte sich an, als sähe ich die Chain of Thought als Ideenliste; diese Liste wurde absurd schnell gefüllt und dann zu einem ordentlichen „Gedanken“ aus sorgfältig ausgewählten Wörtern zusammengefasst.
  Seitdem neige ich zu der Ansicht, dass das, was wir als Denken wahrnehmen, der selektierte Output aus einem unmittelbar vorhergehenden Brainstorming-Prozess ist.
- Ich würde nicht sagen, dass große Sprachmodelle überhaupt keine Intelligenz haben. Sie basieren auf Vorhersage, und ich glaube, dass die Fähigkeit, die wir als Intelligenz wahrnehmen, genau Vorhersagefähigkeit ist. Auch der Cortex hat sich entwickelt, um Vorhersagen zu machen.
  Trotzdem ist Intelligenz kein Alles-oder-nichts, sondern liegt auf einem Spektrum. Meine Definition ist „das Ausmaß der Fähigkeit, zukünftige Ergebnisse auf Basis vergangener Erfahrungen korrekt vorherzusagen“, und sie hängt von den Mechanismen ab, die ein biologisches oder künstliches System zur Mustererkennung und Vorhersage nutzen kann.
  Intelligenz hängt auch von Erfahrung ab. Was man nicht erfahren hat, kann man nicht erkennen und daher auch nicht vorhersagen. Allerdings wäre es vielleicht besser, ein Vokabular zu haben, das Vorhersagefähigkeit und Erfahrung trennt, statt beides unter „Intelligenz“ zu bündeln.
  Vergleicht man die Vorhersagemaschinerie großer Sprachmodelle mit dem menschlichen Gehirn, fehlt vieles. „Vor dem Sprechen denken“ ist eines davon, und Q*-Ansätze oder Tree-of-Thought-Methoden werden dabei helfen.
  Vielleicht lassen sich auch rekurrente Strukturen wie thalamo-kortikale Schleifen in den LLM-/Transformer-Ansatz einbauen, aber das für Fähigkeiten auf menschlichem Niveau entscheidend fehlende Puzzleteil ist meiner Ansicht nach Online Learning: die Fähigkeit zu handeln, die Folgen zu beobachten und daraus zu lernen.
  Mit dem aktuellen Ansatz kann man vielleicht eine „aus Büchern gelernte“ AGI bauen, aber Fähigkeiten kann man ohne Übung und Experimente nicht lernen. Ob als Entwickler oder in irgendeiner anderen Rolle: Man lernt nicht allein durch Bücherlesen oder durch Analyse von Ergebnissen anderer, sondern muss verstehen, welche Folgen die eigenen Vorhersagen und Handlungen in der Realität haben, und daraus lernen.
- Andrej Karpathy zitiert in seinem Video „[1hr Talk] Intro to Large Language Models“ vom November 2023 dasselbe Buch und sagt im Kern dasselbe.
  Link zur relevanten Stelle: https://youtu.be/zjkBMFhNj_g?t=2120
- Wurden die meisten Behauptungen dieses Buchs nicht widerlegt? Meines Wissens hat der Autor einige selbst widerlegt.
  Ich fand es unterhaltsam zu lesen und hatte das Gefühl, dass viele Einsichten darin stecken, aber später sagte mir ein Freund aus dem Fachgebiet, das Buch sei nicht korrekt und der Autor habe einige Aussagen „zurückgezogen“.
- Leute sagen oft, große Sprachmodelle erzeugten auf Basis zuvor gelesener Texte oder eines Teils des Fensters ihrer eigenen Antworten nur reflexhaft Wörter, genauer: Token-Ströme, und dächten daher nicht wirklich. Das stimmt.
  Aber wenn ich spreche, erlebe ich auch, dass ich nicht weiß, was ich sagen werde, bis ich mich selbst gehört habe.
  Manchmal überlege und plane ich, indem ich Formulierungen im Kopf ausprobiere, aber meistens wirke ich auf mich selbst eher wie ein großes Sprachmodell, das einfach einen Token-Strom erzeugt.
Wieder ein Reinforcement-Learning-Paper mit einer miserablen Baseline. Für GSM8k ist das Ausgabeformat ziemlich spezifisch, aber verwendet wurde ein zero-shot, nicht instruktionsgetuntes Mistral.
Nach der Verbesserung lag die Genauigkeit bei 11 %, während Few-Shot-Prompting 37 % erreicht[1]. GPT-4 kommt mit Prompting auf etwa 97 %.
[1]: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderb...
- Für ernsthafte Wissenschaftler ist es auch gute Wissenschaft, eine bekannte Methode und Baseline zu nehmen und sie zu verbessern.
  Man könnte das sicher auch auf den neuesten Leistungsstand skalieren, aber das Ziel kann sein, in einem einfachen Setup nur die Wirkung der eigenen Änderung zu messen.
  Das Kombinieren verschiedener Systeme, um State of the Art zu erreichen, kann man den Ingenieuren überlassen.
Hat das etwas mit OpenAIs gerüchteweise existierendem Q*, also dem q-star-Modell, zu tun? Die Autoren dieses Papers scheinen keinen Bezug dazu zu haben.
Ist das nur eine zufällige Namensüberschneidung?
- Sie scheinen mit demselben aufgeblasenen Begriff ein Wortspiel gemacht zu haben.
- Ich dachte dasselbe. Das STaR-Paper, das diese Arbeit erweitert, erschien 2022, also besteht zumindest die Möglichkeit, dass auch q-star darauf basiert.
  Allerdings könnte Q auch etwas anderes bedeuten.
Das ist das fehlende Puzzleteil, um KI mit Schlussfolgerungsfähigkeit zu trainieren.
Es gibt sehr viele Aufgaben, bei denen die Antwort bekannt ist, die Schlussfolgerungsschritte aber fehlen. Mit dieser Methode kann man diese Fähigkeit mit weniger annotierten Daten erreichen.
Interessant ist, dass die erzeugten Gedanken für Menschen schwer verständlich sein können, aber viel hilfreicher sein könnten, um zur richtigen Antwort zu kommen.
Wenn das passiert, hätten wir etwas geschaffen, das intelligenter ist als wir.
Ich habe heute Morgen auf Prompt-Ebene im Grunde etwas Ähnliches ausprobiert, aber die Ergebnisse waren miserabel. Die grobe Idee in meinem Kopf ging allerdings weiter: Meta-Tokens für den Kontrollfluss einzuführen, die großen Sprachmodellen helfen, ihren eigenen Kontext erneut zu erkunden.
Aus dieser Perspektive könnte man den Kontext als selbsteditierende, strukturierte Mindmap neu denken, und der lineare Kontext zu einem bestimmten Zeitpunkt T wäre die bisherige Ausführungsspur dieser Mindmap-Erkundung.
Einige Meta-Tokens könnten Nebenwirkungen haben, etwa Teile des Kontexts hervorzuheben, zu strukturieren, zusammenzufassen oder zu vergessen.
So könnten native strukturierte Ausgaben, Memory-Implementierungen usw. möglich werden, ohne syntaktische Formate wie JSON oder LMQL-artige Programmierkonstrukte.
Ziel wäre nicht nur, großen Sprachmodellen Logik-/Reasoning-Fähigkeiten zu geben, sondern ihnen Mittel an die Hand zu geben, ihre eigene kognitive Architektur zu erzeugen.
Wenn man mit ...-Tokens in strukturierten Ausgaben auch Memory oder Scratchpads implementiert, bekäme man als Bonus auch Prüfbarkeit solcher kognitiven Strukturen.
Natürlich habe ich überhaupt keine Ahnung, wie man das implementieren sollte. Ich bin nur ein Machine-Learning-Tourist.
Sie zitieren nicht die Arbeit zu gelerntem variablem Rechnen bei RNNs für Language Modeling [1], die ihrer eigenen Arbeit um fast acht Jahre vorausging.
[1] https://openreview.net/pdf?id=S1LVSrcge
Microsoft hatte damals etwas Ähnliches für Bilderkennung: ein CNN für die Eingabe und variables Rechnen in der Klassifikationsphase.
Base Mistral 7B für die Evaluation zu verwenden, ist kaum angemessen. Ein Team bei Intel hat bei NeuralChat versucht, mit genau demselben Trick zu arbeiten: https://huggingface.co/Intel/neural-chat-7b-v3#quantitative-...
Der Satz „Der größte Teil der Bedeutung eines Textes liegt zwischen den Zeilen. Wenn ein Leser nicht versteht, warum bestimmte Sätze in einem Dokument auftauchen, hat er nur ein oberflächliches Verständnis“ scheint für meine Art zu lesen und für die der meisten Menschen, die ich kenne, nicht zu stimmen.
Fast immer haben wir ein Weltmodell und wissen bis zu einem gewissen Grad, warum solche Sätze in einem Buch stehen.
Wenn ich ein Lehrbuch zur Fluiddynamik lese, verstehe ich vielleicht die Mathematik nicht, aber ich weiß, dass diese Sätze mathematische Aussagen sind, die beim Erlernen der Theorie helfen sollen, und dass sie einem Muster folgen, um wichtige Konzepte zu vermitteln.
Zum Beispiel bauen Konzepte auf früheren Konzepten auf. Die Bernoulli-Gleichung erscheint, weil zuvor der Energieerhaltungssatz behandelt wurde, und sie steht dort, weil angenommen wird, dass ich Letzteren verstehe.

Quiet-STaR: Sprachmodellen beibringen, vor dem Sprechen selbst nachzudenken

Allgemeinen Text als Lernziel für Schlussfolgern nutzen

STaR auf Language Modeling erweitern

Trainingsablauf: think, talk, learn

Implementierungsprobleme, damit das Modell bei jedem Token denkt

Experimentelles Setup und Ergebnisse

Beiträge von Quiet-STaR

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen