1 Punkte von GN⁺ 2024-12-03 | 1 Kommentare | Auf WhatsApp teilen
  • Der Einfluss prozeduralen Wissens auf das Schlussfolgern großer Sprachmodelle

  • Die Fähigkeiten und Grenzen großer Sprachmodelle (LLMs) wurden in den letzten Jahren eingehend untersucht. LLMs zeigen Problemlösungsfähigkeiten, doch im Vergleich zum Menschen besteht beim Schlussfolgern eine Lücke, was Fragen zur Robustheit ihrer Generalisierungsstrategien aufwirft.

  • Aufgrund der enormen Datenmengen, die beim Design von LLMs verwendet werden, ist die traditionelle Messmethode der Generalisierung über die Trennung von Trainings- und Testdatensätzen schwierig. Um dies zu überwinden, wird in den Pretraining-Daten untersucht, welche Generalisierungsstrategien LLMs bei der Bearbeitung von Schlussfolgerungsaufgaben nutzen.

  • Mithilfe von Modellen in zwei Größen (7B und 35B) und 2,5B Pretraining-Tokens werden für drei einfache mathematische Schlussfolgerungsaufgaben die Dokumente identifiziert, die die Modellausgaben beeinflussen, und mit den Daten verglichen, die die Beantwortung faktischer Fragen beeinflussen.

  • Für jede faktische Frage nutzt das Modell überwiegend getrennte Datensätze, doch auch bei verschiedenen Schlussfolgerungsfragen innerhalb derselben Aufgabe haben Dokumente oft einen ähnlichen Einfluss, was auf die Existenz prozeduralen Wissens hindeutet.

  • Die Antworten auf faktische Fragen erscheinen häufig in den einflussreichsten Daten, bei Schlussfolgerungsfragen zeigen jedoch weder die Antworten noch die Antworten auf Zwischenschritte des Schlussfolgerns einen hohen Einfluss.

  • Eine qualitative Analyse der Top-Dokumente für Schlussfolgerungsfragen zeigt, dass einflussreiche Dokumente oft prozedurales Wissen enthalten, das Lösungswege etwa durch Formeln oder Code demonstriert.

  • Diese Ergebnisse deuten darauf hin, dass der vom Modell verwendete Schlussfolgerungsansatz keine bloße Suche ist, sondern eine verallgemeinerbare Strategie, die prozedurales Wissen aus Dokumenten synthetisiert, die ähnliche Formen des Schlussfolgerns ausführen.

1 Kommentare

 
GN⁺ 2024-12-03
Hacker-News-Kommentare
  • Es wird darauf hingewiesen, dass LLMs nicht für jedes Problem ein Beispiel in den Trainingsdaten finden können und dass es nicht genug Beispiele für faktisches Nachschlagen gibt, wie sie für eine Suche im Stil der Informationsgewinnung nötig wären

    • Dies widerspreche nicht dem Apple-LLM-Paper, und man glaube, dass LLMs nur leichte Abwandlungen vorhandener Beispiele schaffen
    • Es wird Unzufriedenheit mit der Verwendung des Begriffs „Schlussfolgern“ geäußert; dieser sei von LLM-Unternehmen geprägt worden, um die Technik emotional darzustellen
    • Es wird betont, dass die Fähigkeit, Maschinen in natürlicher Sprache anzuweisen, ein großer Fortschritt ist
  • Es wird darauf hingewiesen, dass Menschen Probleme Schritt für Schritt lösen müssen, damit neuronale Netze dies nachahmen können

    • Der unerwartete Nutzen von Code-Training wird erläutert
  • Es wird erwähnt, dass LLMs zwar Problemlösungsfähigkeit zeigen, im Vergleich zu Menschen aber eine Lücke beim Schlussfolgern besteht

    • Es wird darauf hingewiesen, dass viele Nutzer LLMs lediglich als Vorhersager des nächsten Tokens betrachten
  • Es wird erklärt, dass Sprachmodelle bei der Beantwortung von Schlussfolgerungsfragen häufig Informationen aus einer begrenzten Menge von Dokumenten abrufen

    • Im Gegensatz dazu wird vorgeschlagen, dass es eine stärker verallgemeinerte Schlussfolgerungsstrategie sein sollte, Informationen aus verschiedenen Dokumenten zu ziehen, die nur abstrakt mit der Frage zusammenhängen
  • Es wird behauptet, dass Googles Vortraining beim Chipdesign eine wichtige Rolle spielt

    • Es wird erläutert, dass Ergebnisse ohne Vortraining erwartungsgemäß nicht an den aktuellen Stand der Technik heranreichen
  • Es wird gefragt, warum erzeugte Bilder alptraumhaft wirken, und argumentiert, dass mehr Trainingsdaten zum Schlussfolgern nötig seien

    • Es wird erwähnt, dass mathematische Beweise die am leichtesten zugänglichen nicht-synthetischen Daten sein könnten
  • Anhand des Vergleichs von AlphaGo und AlphaZero wird erläutert, dass menschliches prozedurales Wissen dem ML-Training hilft, aber Grenzen haben kann

  • Es wird vorgeschlagen, dass ein Training mit Mitschriften von Studierenden, Prüfungen und Buchrezensionen LLMs verbessern könnte, und erwähnt, dass dies sehr interessant wäre