-
Vorstellung des Putnam-AXIOM-Benchmarks
- Putnam-AXIOM ist ein anspruchsvoller Benchmark zur Bewertung der mathematischen Schlussfolgerungsfähigkeit großer Sprachmodelle (LLM).
- Er umfasst 236 mathematische Probleme und schrittweise Lösungen aus dem William-Lowell-Putnam-Mathematical Competition.
- Um Datenkontamination zu vermeiden, wurde der Putnam-AXIOM Variation-Benchmark erstellt, bei dem 52 Probleme funktional modifiziert wurden.
- Durch die programmatische Änderung von Problemkomponenten wie Variablen und Konstanten lassen sich unendlich viele neue Aufgaben generieren, die online nicht verfügbar sind.
-
Bedeutung des Benchmarks und Ergebnisse
- Bei den meisten Modellen sinkt die Genauigkeit bei den veränderten Aufgaben deutlich gegenüber den Originalaufgaben.
- Das OpenAI-Modell o1-preview erreichte auf Putnam-AXIOM Original eine Genauigkeit von 41,95 % und verzeichnete bei dem modifizierten Datensatz einen Rückgang der Genauigkeit von etwa 30 %.
-
Feedback der Reviewer
- Reviewer 9XA: Der Benchmark wurde so konzipiert, dass Rauschen bei der Problemformulierung, der Prüfung der Antwortäquivalenz usw. minimiert wird, dennoch könnte der Schutz vor Datenkontamination nicht ausreichen. Da die funktionale Modifikation nur auf 53 Probleme angewendet wurde, könnte die Evaluationsstärke nachlassen.
- Reviewer krr4: Der Datensatz besteht aus 236 Beispielen, weshalb ihm als Benchmark möglicherweise nicht genügend Überzeugungskraft zukommt. Da die meisten Modelle niedrige Genauigkeit erreichen, sollte die Schwierigkeit der Aufgaben noch stärker gestuft sein.
- Reviewer Nbvs: Es ist ein guter Beitrag, da er eine anspruchsvolle Problemmenge zur Bewertung mathematischer Problemlösungsfähigkeiten bereitstellt. Die Problemvariation könnte eine gute Strategie sein, um Problemverlust in der aktuellen box-basierten Evaluationsstruktur zu reduzieren.
- Reviewer MsMi: Ein neues, anspruchsvolles Inferenz-Benchmark, bei dem selbst starke Modelle darin nicht besonders gut abschneiden. Die Vorgabe, den Befehl
\boxed{}zu verwenden, schränkt den Ausdrucksraum des Benchmarks ein.
-
Weitere Fragen und Vorschläge
- Frage zur Anzahl der Fragen, die falsch bewertet wurden, weil der Befehl
\boxed{}nicht korrekt genutzt wurde. - Frage nach einem algorithmischen Verfahren, um die Aufgaben kontinuierlich zu bearbeiten und einen Datensatz zu erhalten, den kein Modell auswendig gelernt haben kann.
- Frage zur Anzahl der Fragen, die falsch bewertet wurden, weil der Befehl
1 Kommentare
Hacker News Kommentare