GSM-Symbolic: Die Grenzen des mathematischen Schlussfolgerns großer Sprachmodelle verstehen
- Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben das Interesse an ihren Fähigkeiten zum formalen Schlussfolgern in der Mathematik geweckt.
- Der Benchmark GSM8K wird weithin genutzt, um das mathematische Schlussfolgern von Modellen anhand von Fragen auf Grundschulniveau zu bewerten.
- Die GSM8K-Leistung von LLMs hat sich in den letzten Jahren stark verbessert, doch ob sich ihre tatsächliche Fähigkeit zum mathematischen Schlussfolgern weiterentwickelt hat, bleibt unklar.
- Um dieses Problem anzugehen, wurde eine groß angelegte Studie mit mehreren aktuellen offenen und geschlossenen Modellen durchgeführt.
- Um die Grenzen bestehender Evaluierungen zu überwinden, wird GSM-Symbolic eingeführt, ein verbesserter Benchmark aus symbolischen Templates, die die Erzeugung vielfältiger Fragen ermöglichen.
- GSM-Symbolic erlaubt stärker kontrollierte Bewertungen und liefert damit einen zuverlässigeren Maßstab zur Messung von Schlussfolgerungsfähigkeiten.
- Die Studienergebnisse zeigen, dass LLMs bei Antworten auf unterschiedliche Instanzen derselben Frage auffällige Schwankungen aufweisen.
- Insbesondere sinkt bei allen Modellen die Leistung im GSM-Symbolic-Benchmark, selbst wenn nur die Zahlenwerte in den Fragen geändert werden.
- Darüber hinaus wird die Anfälligkeit des mathematischen Schlussfolgerns dieser Modelle untersucht, und es wird gezeigt, dass die Leistung deutlich abnimmt, je mehr Klauseln eine Frage enthält.
- Daraus wird die Hypothese abgeleitet, dass aktuelle LLMs nicht zu echtem logischem Schlussfolgern fähig sind, sondern stattdessen Schlussfolgerungsschritte aus den Trainingsdaten reproduzieren.
- Fügt man eine scheinbar relevante Klausel zu einer Frage hinzu, kommt es bei allen aktuellen Modellen zu Leistungseinbrüchen von bis zu 65 %, obwohl diese Klausel nicht zur für die endgültige Antwort nötigen Schlussfolgerungskette beiträgt.
Zusammenfassung von GN⁺
- Diese Studie ermöglicht ein differenzierteres Verständnis der Fähigkeiten und Grenzen großer Sprachmodelle beim mathematischen Schlussfolgern.
- Der GSM-Symbolic-Benchmark bietet ein Werkzeug, mit dem sich die Schlussfolgerungsfähigkeiten von Modellen anhand vielfältiger Fragen präziser bewerten lassen.
- Die Studie zeigt, dass LLMs eher dazu neigen, Schlussfolgerungsschritte aus den Trainingsdaten zu reproduzieren, als tatsächlich logisches Schlussfolgern zu betreiben.
- Als weitere Benchmarks zur Bewertung mathematischer Schlussfolgerungsfähigkeiten werden unter anderem MATH und MATHQA empfohlen.
1 Kommentare
Hacker-News-Kommentar