2 Punkte von GN⁺ 2025-03-08 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Wie kognitive Verhaltensweisen selbstverbessernde Reasoner ermöglichen, oder die vier Gewohnheiten hochwirksamer STaRs

  • Test-Time-Reasoning: ein leistungsstarkes Paradigma, das Sprachmodellen ermöglicht, über komplexe Probleme länger und sorgfältiger nachzudenken. Reinforcement Learning (RL) kann die Selbstverbesserung von Sprachmodellen bei verifizierbaren Aufgaben fördern, doch einige Modelle zeigen deutliche Fortschritte, während andere schnell stagnieren. So übertrifft Qwen-2.5-3B unter identischem RL-Training Llama-3.2-3B deutlich.

  • Intrinsische Eigenschaften: Dies wirft die Frage auf, welche intrinsischen Eigenschaften wirksame Selbstverbesserung ermöglichen. Um dies zu untersuchen, wird ein Framework eingeführt, das vier zentrale kognitive Verhaltensweisen analysiert: Verifikation, Backtracking, Setzen von Teilzielen und Rückwärtsverkettung. Diese Verhaltensweisen werden von erfahrenen menschlichen Problemlösern und erfolgreichen Sprachmodellen genutzt.

  • Experimentelle Ergebnisse: Qwen zeigt diese Reasoning-Verhaltensweisen auf natürliche Weise, während sie Llama anfangs fehlen. Systematische Experimente mit einem kontrollierten Verhaltensdatensatz zeigen, dass Llama durch Beispiele, die diese Reasoning-Verhaltensweisen enthalten, während des RL erheblich verbessert werden kann, sodass es die Leistung von Qwen erreicht oder übertrifft.

  • Bedeutung von Reasoning-Verhaltensweisen: Entscheidend ist eher das Vorhandensein von Reasoning-Verhaltensweisen als die Korrektheit der endgültigen Antwort. Ein Modell, das mit falschen Lösungen vorbereitet wurde, die jedoch die richtigen Reasoning-Muster enthalten, erreicht eine ähnliche Leistung wie ein Modell, das mit korrekten Lösungen trainiert wurde.

  • Fortgesetztes Pretraining: Durch Filterung mit OpenWebMath-Daten zur Verstärkung von Reasoning-Verhaltensweisen kann das Llama-Modell der Selbstverbesserungskurve von Qwen folgen. Dies stellt eine grundlegende Beziehung zwischen anfänglichen Reasoning-Verhaltensweisen und Verbesserungsfähigkeit her und erklärt, warum einige Sprachmodelle zusätzliche Rechenleistung effektiv nutzen.

Noch keine Kommentare.

Noch keine Kommentare.