2 Punkte von GN⁺ 2024-10-13 | 1 Kommentare | Auf WhatsApp teilen

GSM-Symbolic: Die Grenzen des mathematischen Schlussfolgerns großer Sprachmodelle verstehen

  • Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben das Interesse an ihren Fähigkeiten zum formalen Schlussfolgern in der Mathematik geweckt.
  • Der Benchmark GSM8K wird weithin genutzt, um das mathematische Schlussfolgern von Modellen anhand von Fragen auf Grundschulniveau zu bewerten.
  • Die GSM8K-Leistung von LLMs hat sich in den letzten Jahren stark verbessert, doch ob sich ihre tatsächliche Fähigkeit zum mathematischen Schlussfolgern weiterentwickelt hat, bleibt unklar.
  • Um dieses Problem anzugehen, wurde eine groß angelegte Studie mit mehreren aktuellen offenen und geschlossenen Modellen durchgeführt.
  • Um die Grenzen bestehender Evaluierungen zu überwinden, wird GSM-Symbolic eingeführt, ein verbesserter Benchmark aus symbolischen Templates, die die Erzeugung vielfältiger Fragen ermöglichen.
  • GSM-Symbolic erlaubt stärker kontrollierte Bewertungen und liefert damit einen zuverlässigeren Maßstab zur Messung von Schlussfolgerungsfähigkeiten.
  • Die Studienergebnisse zeigen, dass LLMs bei Antworten auf unterschiedliche Instanzen derselben Frage auffällige Schwankungen aufweisen.
  • Insbesondere sinkt bei allen Modellen die Leistung im GSM-Symbolic-Benchmark, selbst wenn nur die Zahlenwerte in den Fragen geändert werden.
  • Darüber hinaus wird die Anfälligkeit des mathematischen Schlussfolgerns dieser Modelle untersucht, und es wird gezeigt, dass die Leistung deutlich abnimmt, je mehr Klauseln eine Frage enthält.
  • Daraus wird die Hypothese abgeleitet, dass aktuelle LLMs nicht zu echtem logischem Schlussfolgern fähig sind, sondern stattdessen Schlussfolgerungsschritte aus den Trainingsdaten reproduzieren.
  • Fügt man eine scheinbar relevante Klausel zu einer Frage hinzu, kommt es bei allen aktuellen Modellen zu Leistungseinbrüchen von bis zu 65 %, obwohl diese Klausel nicht zur für die endgültige Antwort nötigen Schlussfolgerungskette beiträgt.

Zusammenfassung von GN⁺

  • Diese Studie ermöglicht ein differenzierteres Verständnis der Fähigkeiten und Grenzen großer Sprachmodelle beim mathematischen Schlussfolgern.
  • Der GSM-Symbolic-Benchmark bietet ein Werkzeug, mit dem sich die Schlussfolgerungsfähigkeiten von Modellen anhand vielfältiger Fragen präziser bewerten lassen.
  • Die Studie zeigt, dass LLMs eher dazu neigen, Schlussfolgerungsschritte aus den Trainingsdaten zu reproduzieren, als tatsächlich logisches Schlussfolgern zu betreiben.
  • Als weitere Benchmarks zur Bewertung mathematischer Schlussfolgerungsfähigkeiten werden unter anderem MATH und MATHQA empfohlen.

1 Kommentare

 
GN⁺ 2024-10-13
Hacker-News-Kommentar
  • Der Leistungsabfall von LLMs ähnelt der Problemlösungsfähigkeit von Studienanfängern. Einfache Probleme lösen sie gut, aber bei Aufgaben, bei denen mehrere Schritte verknüpft werden müssen, sinkt die Genauigkeit. Das deutet darauf hin, dass LLMs zu logischem Denken auf dem Niveau von High-School-Absolventen fähig sind
    • Zum Beispiel verschlechtert sich die Leistung von LLMs bei Aufgaben mit irrelevanten Informationen stark. Das ist eine Situation, die auch bei Menschen auftreten kann, wenn sie Aufgaben mit unnötigen Informationen lesen
  • Untersuchungen zur Anfälligkeit mathematischen Schlussfolgerns zeigen, dass die Leistung mit zunehmender Zahl von Teilsätzen in einer Frage abnimmt. Das könnte daran liegen, dass LLMs zu echtem logischem Schlussfolgern nicht fähig sind
    • Im Tokenisierungsprozess werden Vorhersagen bei einfachen arithmetischen Aufgaben bedeutungslos. Das deutet auf die Notwendigkeit von Tool-Nutzung hin, ist aber negativ für echtes logisches Schlussfolgern
  • Es zeigen sich ähnliche Ergebnisse wie beim Problem "Alice in Wonderland". Das könnte ein Problem von Modellen sein, die sich in einem Zwischenzustand zwischen Pattern Matching und Schlussfolgern befinden
    • Das legt nahe, dass Ergebnisse von LLM-Benchmarks zu Mathematik und Schlussfolgern nicht verlässlich sind. Die Buchstaben, Zahlen und Satzstruktur einer Aufgabe haben großen Einfluss auf die Ergebnisse
  • Im GSM-Symbolic-Benchmark verschlechtert sich die Leistung aller Modelle schon dann, wenn nur Zahlenwerte geändert werden. Das ist ein Beleg für Overfitting und zeigt, dass LLMs grundlegende Grenzen beim Erlernen mathematischen Schlussfolgerns haben
  • Die Art und Weise, wie LLMs "denken", reicht aus, um den Großteil des schulischen Curriculums zu bestehen. Wenn aber Lehrkräfte Aufgaben stellen, die nicht auf Pattern Matching beruhen, können sie Schwierigkeiten haben
  • Bei bekannten Logikrätseln können LLMs das Problem nicht mehr lösen, wenn bestimmte Elemente verändert werden. Das zeigt, dass LLMs nicht zu formaler Schlussfolgerung fähig sind
  • LLMs können zwar nicht formal schlussfolgern, aber sie können viele logische Probleme lösen, indem sie "Schlussfolgerungsschritte" aus den Trainingsdaten anwenden. Das ist eine interessante Dichotomie
  • Eine Studie, die die Grenzen mathematischen Schlussfolgerns bei Menschen und Tieren zeigt, wäre interessant. Es könnte Ideen geben, die Menschen nicht verstehen können, und das wirft die Frage auf, ob sich Maschinen bauen lassen, die auf eine Weise schlussfolgern können, die Menschen nicht möglich ist