1 Punkte von GN⁺ 2025-01-02 | 1 Kommentare | Auf WhatsApp teilen
  • Vorstellung des Putnam-AXIOM-Benchmarks

    • Putnam-AXIOM ist ein anspruchsvoller Benchmark zur Bewertung der mathematischen Schlussfolgerungsfähigkeit großer Sprachmodelle (LLM).
    • Er umfasst 236 mathematische Probleme und schrittweise Lösungen aus dem William-Lowell-Putnam-Mathematical Competition.
    • Um Datenkontamination zu vermeiden, wurde der Putnam-AXIOM Variation-Benchmark erstellt, bei dem 52 Probleme funktional modifiziert wurden.
    • Durch die programmatische Änderung von Problemkomponenten wie Variablen und Konstanten lassen sich unendlich viele neue Aufgaben generieren, die online nicht verfügbar sind.
  • Bedeutung des Benchmarks und Ergebnisse

    • Bei den meisten Modellen sinkt die Genauigkeit bei den veränderten Aufgaben deutlich gegenüber den Originalaufgaben.
    • Das OpenAI-Modell o1-preview erreichte auf Putnam-AXIOM Original eine Genauigkeit von 41,95 % und verzeichnete bei dem modifizierten Datensatz einen Rückgang der Genauigkeit von etwa 30 %.
  • Feedback der Reviewer

    • Reviewer 9XA: Der Benchmark wurde so konzipiert, dass Rauschen bei der Problemformulierung, der Prüfung der Antwortäquivalenz usw. minimiert wird, dennoch könnte der Schutz vor Datenkontamination nicht ausreichen. Da die funktionale Modifikation nur auf 53 Probleme angewendet wurde, könnte die Evaluationsstärke nachlassen.
    • Reviewer krr4: Der Datensatz besteht aus 236 Beispielen, weshalb ihm als Benchmark möglicherweise nicht genügend Überzeugungskraft zukommt. Da die meisten Modelle niedrige Genauigkeit erreichen, sollte die Schwierigkeit der Aufgaben noch stärker gestuft sein.
    • Reviewer Nbvs: Es ist ein guter Beitrag, da er eine anspruchsvolle Problemmenge zur Bewertung mathematischer Problemlösungsfähigkeiten bereitstellt. Die Problemvariation könnte eine gute Strategie sein, um Problemverlust in der aktuellen box-basierten Evaluationsstruktur zu reduzieren.
    • Reviewer MsMi: Ein neues, anspruchsvolles Inferenz-Benchmark, bei dem selbst starke Modelle darin nicht besonders gut abschneiden. Die Vorgabe, den Befehl \boxed{} zu verwenden, schränkt den Ausdrucksraum des Benchmarks ein.
  • Weitere Fragen und Vorschläge

    • Frage zur Anzahl der Fragen, die falsch bewertet wurden, weil der Befehl \boxed{} nicht korrekt genutzt wurde.
    • Frage nach einem algorithmischen Verfahren, um die Aufgaben kontinuierlich zu bearbeiten und einen Datensatz zu erhalten, den kein Modell auswendig gelernt haben kann.

1 Kommentare

 
GN⁺ 2025-01-02
Hacker News Kommentare
  • Es wird angemerkt, dass ChatGPT die Frage „10 Pfund Federn oder 10 Pfund Ziegelsteine, welches ist schwerer?“ früher korrekt beantwortet hat, dass die Leistung jedoch nach einer kleinen Veränderung der Aufgabe deutlich nachlässt.
    • Zum Beispiel lieferte es eine falsche Antwort auf die Frage, ob 9.99 Pfund Stahl oder 10.01 Pfund Baumwolle schwerer sei.
    • Um die wirklichen Fähigkeiten des Modells zu analysieren, müsse man sich von den Trainingsdaten entfernen.
  • Es gibt den Wunsch nach einem Experiment, bei dem das Modell auf allen digitalisierten Daten vor 1905 trainiert und zur Äquivalenz von Masse und Energie befragt wird.
    • Die Hoffnung ist, dass das helfen könnte zu klären, ob Mustererkennung eine Form von Intelligenz ist.
  • Ein Kommentar besagt, dass die echte Arbeitsleistung von LLMs dem Auswendiglernen für asiatisch geprägte Prüfungstypen ähnelt.
    • Es ist im Grunde nur die Fähigkeit, perfekt zu reproduzieren, ohne die Bedeutung zu verstehen.
  • Bereits eine geringe Änderung der Eingabe könne das Modell dazu bringen, zur erwarteten Frage zurückzukehren und eine falsche Antwort zu geben.
    • Wenn man die Aufgabe aus mehreren Perspektiven bewertet und zu einer Schlussfolgerung zwingt, lassen sich bessere Antworten erzielen.
  • Es wird gesagt, dass LLMs bei sehr schwierigen Mathematik- und Wettkampfprogrammieraufgaben immer noch exzellent sind.
    • Sie kommen jedoch mit bereits gesehenen Problemen deutlich besser zurecht.
  • Es wird die Frage aufgeworfen, ob es ein offenes Geheimnis sei, dass das Modell für aktuelle Zufalls-Benchmarks hart kodiert ist.
  • Es wird die Ansicht geäußert, dass eine Umformulierung einer Aufgabe auch Menschen verwirren kann.
    • Jemand möchte die Reffekte solcher Umformulierungen bei aktuellen Aufgaben sehen.
  • Es wird gesagt, dass Pattern Matching sehr effektiv ist, aber nicht funktioniert, wenn das Muster geändert wird.
    • Es wird darauf hingewiesen, dass auf klassische Weise trainiert wurde und keine Berechnung zur Laufzeit oder Monte-Carlo-Tree-Search stattfindet.
  • Es gibt einen Hinweis darauf, dass OpenAI keine Leistungssteigerung für einen bestimmten Datensatz behauptet habe.
    • Daraus lässt sich schlussfolgern, dass die Leistung für die Fragen in diesem Datensatz deutlich verbessert wurde.
  • Es wurde eine Leistungsverbesserung von o1-preview zu o1 berichtet, und bei modifizierten Aufgaben wurde die richtige Antwort gegeben.
    • Der SOTA-Zustand ändert sich schnell.