-
Der Einfluss prozeduralen Wissens auf das Schlussfolgern großer Sprachmodelle
-
Die Fähigkeiten und Grenzen großer Sprachmodelle (LLMs) wurden in den letzten Jahren eingehend untersucht. LLMs zeigen Problemlösungsfähigkeiten, doch im Vergleich zum Menschen besteht beim Schlussfolgern eine Lücke, was Fragen zur Robustheit ihrer Generalisierungsstrategien aufwirft.
-
Aufgrund der enormen Datenmengen, die beim Design von LLMs verwendet werden, ist die traditionelle Messmethode der Generalisierung über die Trennung von Trainings- und Testdatensätzen schwierig. Um dies zu überwinden, wird in den Pretraining-Daten untersucht, welche Generalisierungsstrategien LLMs bei der Bearbeitung von Schlussfolgerungsaufgaben nutzen.
-
Mithilfe von Modellen in zwei Größen (7B und 35B) und 2,5B Pretraining-Tokens werden für drei einfache mathematische Schlussfolgerungsaufgaben die Dokumente identifiziert, die die Modellausgaben beeinflussen, und mit den Daten verglichen, die die Beantwortung faktischer Fragen beeinflussen.
-
Für jede faktische Frage nutzt das Modell überwiegend getrennte Datensätze, doch auch bei verschiedenen Schlussfolgerungsfragen innerhalb derselben Aufgabe haben Dokumente oft einen ähnlichen Einfluss, was auf die Existenz prozeduralen Wissens hindeutet.
-
Die Antworten auf faktische Fragen erscheinen häufig in den einflussreichsten Daten, bei Schlussfolgerungsfragen zeigen jedoch weder die Antworten noch die Antworten auf Zwischenschritte des Schlussfolgerns einen hohen Einfluss.
-
Eine qualitative Analyse der Top-Dokumente für Schlussfolgerungsfragen zeigt, dass einflussreiche Dokumente oft prozedurales Wissen enthalten, das Lösungswege etwa durch Formeln oder Code demonstriert.
-
Diese Ergebnisse deuten darauf hin, dass der vom Modell verwendete Schlussfolgerungsansatz keine bloße Suche ist, sondern eine verallgemeinerbare Strategie, die prozedurales Wissen aus Dokumenten synthetisiert, die ähnliche Formen des Schlussfolgerns ausführen.
1 Kommentare
Hacker-News-Kommentare
Es wird darauf hingewiesen, dass LLMs nicht für jedes Problem ein Beispiel in den Trainingsdaten finden können und dass es nicht genug Beispiele für faktisches Nachschlagen gibt, wie sie für eine Suche im Stil der Informationsgewinnung nötig wären
Es wird darauf hingewiesen, dass Menschen Probleme Schritt für Schritt lösen müssen, damit neuronale Netze dies nachahmen können
Es wird erwähnt, dass LLMs zwar Problemlösungsfähigkeit zeigen, im Vergleich zu Menschen aber eine Lücke beim Schlussfolgern besteht
Es wird erklärt, dass Sprachmodelle bei der Beantwortung von Schlussfolgerungsfragen häufig Informationen aus einer begrenzten Menge von Dokumenten abrufen
Es wird behauptet, dass Googles Vortraining beim Chipdesign eine wichtige Rolle spielt
Es wird gefragt, warum erzeugte Bilder alptraumhaft wirken, und argumentiert, dass mehr Trainingsdaten zum Schlussfolgern nötig seien
Anhand des Vergleichs von AlphaGo und AlphaZero wird erläutert, dass menschliches prozedurales Wissen dem ML-Training hilft, aber Grenzen haben kann
Es wird vorgeschlagen, dass ein Training mit Mitschriften von Studierenden, Prüfungen und Buchrezensionen LLMs verbessern könnte, und erwähnt, dass dies sehr interessant wäre