Leicht veränderte Putnam-Probleme senken die Genauigkeit von o1-preview um 30 %

(openreview.net)

1 Punkte von GN⁺ 2025-01-02 | 1 Kommentare | Auf WhatsApp teilen

Vorstellung des Putnam-AXIOM-Benchmarks
- Putnam-AXIOM ist ein anspruchsvoller Benchmark zur Bewertung der mathematischen Schlussfolgerungsfähigkeit großer Sprachmodelle (LLM).
- Er umfasst 236 mathematische Probleme und schrittweise Lösungen aus dem William-Lowell-Putnam-Mathematical Competition.
- Um Datenkontamination zu vermeiden, wurde der Putnam-AXIOM Variation-Benchmark erstellt, bei dem 52 Probleme funktional modifiziert wurden.
- Durch die programmatische Änderung von Problemkomponenten wie Variablen und Konstanten lassen sich unendlich viele neue Aufgaben generieren, die online nicht verfügbar sind.
Bedeutung des Benchmarks und Ergebnisse
- Bei den meisten Modellen sinkt die Genauigkeit bei den veränderten Aufgaben deutlich gegenüber den Originalaufgaben.
- Das OpenAI-Modell o1-preview erreichte auf Putnam-AXIOM Original eine Genauigkeit von 41,95 % und verzeichnete bei dem modifizierten Datensatz einen Rückgang der Genauigkeit von etwa 30 %.
Feedback der Reviewer
- Reviewer 9XA: Der Benchmark wurde so konzipiert, dass Rauschen bei der Problemformulierung, der Prüfung der Antwortäquivalenz usw. minimiert wird, dennoch könnte der Schutz vor Datenkontamination nicht ausreichen. Da die funktionale Modifikation nur auf 53 Probleme angewendet wurde, könnte die Evaluationsstärke nachlassen.
- Reviewer krr4: Der Datensatz besteht aus 236 Beispielen, weshalb ihm als Benchmark möglicherweise nicht genügend Überzeugungskraft zukommt. Da die meisten Modelle niedrige Genauigkeit erreichen, sollte die Schwierigkeit der Aufgaben noch stärker gestuft sein.
- Reviewer Nbvs: Es ist ein guter Beitrag, da er eine anspruchsvolle Problemmenge zur Bewertung mathematischer Problemlösungsfähigkeiten bereitstellt. Die Problemvariation könnte eine gute Strategie sein, um Problemverlust in der aktuellen box-basierten Evaluationsstruktur zu reduzieren.
- Reviewer MsMi: Ein neues, anspruchsvolles Inferenz-Benchmark, bei dem selbst starke Modelle darin nicht besonders gut abschneiden. Die Vorgabe, den Befehl \boxed{} zu verwenden, schränkt den Ausdrucksraum des Benchmarks ein.
Weitere Fragen und Vorschläge
- Frage zur Anzahl der Fragen, die falsch bewertet wurden, weil der Befehl \boxed{} nicht korrekt genutzt wurde.
- Frage nach einem algorithmischen Verfahren, um die Aufgaben kontinuierlich zu bearbeiten und einen Datensatz zu erhalten, den kein Modell auswendig gelernt haben kann.

1 Kommentare

GN⁺ 2025-01-02

Meinungen auf Hacker News

Ich erinnere mich, dass die Leute begeistert waren, als ChatGPT diese Frage gleich zu Beginn richtig beantwortete: „Was ist schwerer, 10 Pfund Federn oder 10 Pfund Ziegel?“
Aber natürlich lag es richtig, und die Aufgabe war sehr wahrscheinlich in den Trainingsdaten enthalten.
Wenn man nur die Substantive oder die Zahlen ändert, sodass tatsächlich eine Seite schwerer ist, wird die Leistung sprunghaft.
Ich habe gerade auf chatgpt.com gefragt: „Was ist schwerer, ein Sack mit 9,99 Pfund Stahlbarren oder ein Sack mit 10,01 Pfund flauschiger Baumwolle?“ In der ersten Antwort hieß es, die Stahlbarren seien schwerer, am Ende dann, die Baumwolle sei etwas schwerer – also eine zugleich richtige und falsche Antwort.
Um solche Fähigkeiten wirklich zu bewerten, muss man unbedingt außerhalb der Trainingsdaten gehen; Aufgaben, die einem in fünf Sekunden einfallen, sind meist schon häufig gesehen worden oder fallen auch anderen leicht ein.
Sobald man nur ein wenig vom vertrauten Pfad abweicht, wirkt die mathematische Leistung deutlich weniger beeindruckend.
- In einer neuen Session mit ChatGPT Plus und ohne Fangfragen antworten GPT-4, GPT-4o und GPT o1 alle schon in der ersten Antwort korrekt, dass der 10,01-Pfund-Sack Baumwolle schwerer ist als der 9,99-Pfund-Sack Stahlbarren.
  Sie erklären es damit, dass es unabhängig von Material oder Dichte ein Gewichtsvergleich in derselben Einheit ist, also 10,01 größer als 9,99 ist.
- https://chatgpt.com/share/67756897-8974-8010-a0e0-c9e3b3e91f...
  Bis jetzt bewältigt o1-mini alle Aufgaben, von denen Leute in diesem Thread sagen, LLMs könnten sie nicht.
- Wenn man es ohne Abo versucht, bekommt man derzeit vermutlich meistens Antworten, die mit 4o-mini erzeugt wurden.
  Das ist nicht die Reihe von Reasoning-Modellen, um die es im verlinkten Paper geht – o1, o1-mini oder das frühere o1-preview.
  Es ist möglicherweise nicht einmal das führende Nicht-Reasoning-Modell 4o; das in kostenlosen Accounts angezeigte „4o auto“ scheint kein Modellname zu sein, sondern ein Mechanismus, der Modelle kostenoptimiert automatisch auswählen soll.
  Ohne ChatGPT-Abo ist es inzwischen auch nicht mehr wie früher möglich, innerhalb von Nutzungslimits ein bestimmtes Modell auszuwählen.
- Ich habe Claude 3.5 Sonnet das klassische Arzt-Rätsel gestellt. Mit angehängtem Gedankengang wurde die Antwort zwar besser, zeigte aber auch Spuren davon, dass es sie nicht wirklich versteht.
  Auf die Frage: „Eine Frau und ihr Sohn haben einen Autounfall; die Frau stirbt, und der Arzt, der das Kind sieht, sagt: ‚Ich kann diesen Jungen nicht operieren, er ist mein Sohn.‘ Wie ist das möglich?“ antwortete es: „Der Arzt ist der Vater des Kindes“, und erklärte, dies sei ein klassisches Rätsel über Geschlechtervorurteile.
  Die ursprüngliche Pointe war jedoch, dass der Arzt die Mutter sein kann; es erwähnte zwar auch die Möglichkeit gleichgeschlechtlicher Eltern, verfehlte aber den Kern.
- Die erste Variante, die mir begegnete, war: „Was ist schwerer, 1 Pfund Federn oder 1 Pfund Gold?“ Das ist eine deutlich schwierigere Frage.
  Die Antwort, die ich hörte, lautete: Gold wird in Troy-Gewicht gemessen, Federn im Avoirdupois-System; ein Troy-Pfund hat 12 Unzen und ein Avoirdupois-Pfund 16 Unzen, also seien die Federn schwerer.
  Das ist alles wahr, aber die Antwort ist unvollständig.
  So wie ein Avoirdupois-Pfund schwerer ist als ein Troy-Pfund, ist eine Avoirdupois-Unze leichter als eine Troy-Unze.
  Nur ist dieser Unterschied nicht groß genug, um den Unterschied zwischen 16 Unzen und 12 Unzen umzukehren.
  Wenn man den Unterschied zwischen den Unzen nicht berücksichtigt, ist auch die offizielle Antwort genauso falsch wie die naive Antwort.
Ein Experiment, das in der Praxis zwar schwierig wäre, das ich aber gerne sehen würde: Man trainiert ein Modell auf allen digitalisierten Materialien vor 1905, also Papers, Briefen, Büchern, Sendungen, Vorlesungen usw., und fragt es dann nach der Masse-Energie-Äquivalenz.
Wenn dabei eine eindeutige Antwort herauskommt, könnte das die Debatte darüber beenden, ob Mustererkennung eine Form von Intelligenz ist.
- Sobald man auf die Idee kommt, dass Masse und Energie äquivalent sein könnten, bleiben allein durch Dimensionsanalyse nicht viele mögliche Formeln übrig.
  Das Interessante an E=mc^2 ist nicht die Formel selbst, sondern die Behauptung, dass Masse eine Form von Energie ist, sowie die begleitenden Beobachtungen über das Universum.
  Die eigentliche Einsicht von 1905 lag eher darin, die richtige Frage zu stellen und sich vorzustellen, dass das Äquivalenzprinzip tatsächlich gelten könnte.
  Ein erheblicher Teil der Mathematik existierte schon vor 1905 und könnte auch in AI-Trainingsdaten enthalten sein: https://en.m.wikipedia.org/wiki/History_of_Lorentz_transform...
- In einem Podcast mit Adam Brown habe ich eine ähnliche Idee gehört.
  Wenn eine AI allein aus Büchern und Papers von vor Einstein die spezielle Relativitätstheorie herleiten könnte, wäre damit der nächste Game-Changer-Meilenstein in der Entwicklung künstlichen Schlussfolgerns erreicht.
- Patentstreitigkeiten sollte man ebenfalls so beurteilen.
  Wenn ein LLM es herausfinden kann, sollte es als nicht neu gelten.
- Ich frage mich auch, ob Daten von vor 1905 überhaupt ausreichen, damit ein Modell zuverlässig „hello world“ sagen kann.
  Die für ein ordentliches LLM nötigen Trainingsdaten im Terabyte-Bereich gab es vermutlich nicht; es dürfte eher bei Gigabytes bleiben.
Bei realen Aufgaben fühlt sich die Leistung von LLMs sehr ähnlich an wie bei einem Schüler, der kurz vor einer asiatischen Prüfung paukt.
Es gibt die Fähigkeit, Dinge perfekt auszuspucken, aber kein semantisches Begriffsverständnis.
- o3 löst 25 % der ihm unbekannten FrontierMath-Aufgaben.
  Es stimmt, dass es besser abschneidet, wenn die Antwort direkt im Datensatz steht, aber bei der Neuartigkeit der zurückgehaltenen Aufgaben liegt es bereits über dem durchschnittlichen Menschen.
- Man muss sich nur JEE Advanced ansehen.
- Am Ende ist es eher ein weiterer Beleg dafür, dass es gelungen ist, menschliche Dummheit perfekt zu reproduzieren.
Wenn man die Eingabe nur ganz leicht verändert, scheint das Modell zur erwarteten Frage zurückzuspringen und deshalb falsch zu liegen.
Wenn man sie etwas stärker verändert und eine allgemeine Prompting-Technik hinzufügt wie: „Zerlege es zuerst in bekannte Fakten, hole das relevante Hintergrundwissen heran, bewerte es dann aus mehreren Blickwinkeln und ziehe eine Schlussfolgerung. Schreibe nicht sofort die naheliegendste erste Schlussfolgerung hin“, werden die Antworten deutlich besser.
Das wirkt weniger wie „LLMs sind dumme Reasoner, die ohne Auswendiglernen nicht einmal solche Aufgaben lösen können“, sondern eher wie „LLMs geben schlechte Sofortantworten, wenn man sie innerhalb eines erwarteten Musters täuschen will“.
LLMs memorieren zwar, aber das hat zwei Seiten.
Wenn man eine Aufgabe zu ähnlich zu einer auswendig gelernten macht, kann die Wahrnehmung ins Wanken geraten – ähnlich wie Menschen instinktiv auf etwas reagieren, das wie ein Gesicht aussieht, und es dann noch einmal neu bewerten.
Interessant, aber ein paar Dinge sollte man festhalten
Erstens kommt o1 auch bei abgewandelten Putnam-Problemen auf über 40 %, was eine Leistung ist, die selbst die meisten Mathematikstudierenden kaum erreichen würden
Zweitens hat o3 25 % des Epoch-AI-Datensatzes gelöst
Es gab zwar auch einen interessanten Beitrag, der infrage stellte, wie schwierig diese Aufgaben tatsächlich sind, aber es bleibt dennoch sehr beeindruckend
Eine faire Schlussfolgerung scheint zu sein: Reasoning-Modelle lösen weiterhin sehr schwierige Mathematik- und Competitive-Programming-Probleme gut, sind aber bei Problemen, die sie schon gesehen haben, stärker
- Die Kommentare in diesem Thread gehen völlig am Inhalt des Papers vorbei, und auch der Titel ist eher auf Empörung ausgelegt und spiegelt den Inhalt des Papers nicht wider
  Dass ein Modell einen beträchtlichen Teil solcher Aufgaben lösen kann, ist an sich schon eine ziemlich erstaunliche Leistung, selbst wenn es sich gelegentlich von kleinen Abwandlungen täuschen lässt
  Wörter wie „Betrug“ oder „Falschbehauptung“ in den Raum zu werfen, wirkt eher wie Wunschdenken oder Realitätsverweigerung
Ich frage mich, ob es ein offenes Geheimnis ist, dass Modelle derzeit auf beliebige Benchmarks hardcodiert werden
Schon die Idee, einem Chatbot Putnam-Aufgaben zu stellen, wirkt merkwürdig
- Weil Leute solchen Modellen ständig Mathematikaufgaben stellen und es, wenn sie richtig antworten, als Beleg dafür anführen, dass sie tatsächlich mathematisch schlussfolgern können
  Es ist schwer zu beurteilen, was ein Modell weiß, und ebenso schwer zu erkennen, wann es einfach speziell Gelerntes wiedergibt
- Es ist kein Hardcoding; ich halte es eher für wahrscheinlich, dass diese Aufgaben in irgendeiner Form in den Trainingsdaten enthalten sind
- Sie bestehen auch Tests, die schon vom Design her nicht hardcodiert werden können
  Es gibt weiterhin alle möglichen Schwächen und Konsistenzprobleme, aber sich darüber aufzuregen, dass ein Modell „2+2=4“ antwortet, nur weil jemand ihm die Antwort auf 2+2 beigebracht hat, ist unsinnig
- Diese Arbeit ähnelt der Anwendung des GSM-Symbolic-Papers auf Putnam: https://arxiv.org/html/2410.05229v1
  Künftig sollte die Leistung von LLMs auch auf gestörten Benchmarks mitberichtet werden
Das sind sehr effektive Pattern-Matcher
Ändert man das Muster, funktionieren sie nicht
Ich meine mich zu erinnern, dass jemand, vermutlich @tszzl (roon), auf X sagte, o1 oder o3 seien weiterhin auf traditionelle Weise trainiert worden und es gebe keine Test-Time Compute wie bei AlphaGo und keine Monte-Carlo Tree Search
Wenn das stimmt, sagen sie weiterhin auf Basis der Trainingsdaten das nächste Wort voraus und dürften auch bei kleinen Abwandlungen dem plausibelsten Pfad aus dem Training folgen
Falls Test-Time Compute aber noch nicht richtig erforscht ist, bleibt noch viel Spielraum für Leistungssteigerungen
Außerdem ist Spekulieren schwierig, weil wir nicht wissen, wie viel von dem, was wir fragen, in den Trainingsdaten steckt
Selbst bei ähnlichen Aufgaben können sie manche gut lösen und bei anderen scheitern
- Ich habe kürzlich zwei Interviews mit OpenAI-Forschern gesehen; dort wurde erklärt, der Durchbruch der o-series liege im Unterschied zur GPT series darin, dass sie auf Test-Time Compute ausgerichtet sei, um stärker zu „denken“, und insbesondere Pattern-Matching zu vermeiden
  Noam Brown https://youtu.be/OoL8K_AFqkw?si=ocIS0YDXLvaX9Xb6&t=195 und Mark Chen https://youtu.be/kO192K7_FaQ?si=moWiwYChj65osLGy
- Ich gehe davon aus, dass sie skalierbaren Test-Time Compute einsetzen
  Bei der o3-Ankündigung wurden getrennte Genauigkeitswerte für hohen und niedrigen Rechenaufwand veröffentlicht; es fühlt sich schwer vorstellbar an, das beim selben Modell ohne Test-Time Compute zu erreichen
  Auch das 200-Dollar-Abo dürfte meiner Ansicht nach dazu dienen, vor dem Erzwingen einer Antwort Test-Time Compute länger laufen zu lassen
  Wenn die Aussage, dass es keinen Test-Time Compute gebe, jedoch stimmt, dann ist das Verbesserungspotenzial angesichts der Experimente mit den 1B/3B-Modellen von Hugging Face enorm
- OpenAI hat öffentlich erklärt, dass o1 und o3 Test-Time Compute verwenden, und auch ein Diagramm mit logarithmischer Skala veröffentlicht, dem zufolge die Leistung linear besser wird, wenn der Rechenaufwand exponentiell steigt
  https://openai.com/index/learning-to-reason-with-llms/
  Gesichert ist nur, dass das Modell oder System eine Chain of Thought ausführt; der exponentielle Faktor und die Quelle der besseren Reasoning-Leistung könnten aber gut ein Tree of Thoughts sein, also eine Baumsuche über mehrere Reasoning-Ketten
  roon dürfte innerhalb von OpenAI namentlich gut bekannt sein und ist Mitarbeiter, daher kann man kaum erwarten, dass er auf Twitter Implementierungsdetails leakt
Dieser Workshop-Beitrag ist in Ordnung, und der Benchmark hat auch ohne den Teil zur Neuformulierung von Aufgaben einen gewissen Wert
Allerdings sind die wenigen neu formulierten Aufgaben teils durch schlechte Formulierungen (fig 3) oder unnötiges Brechen von Konventionen (fig 4; zweidimensionale Punkte bezeichnet man üblicherweise mit P und den Koordinaten x,y) auch für Menschen tatsächlich verwirrender
Es wäre hilfreich gewesen, den Effekt von Neuformulierungen bei zunehmendem Rauschen anhand aktueller Aufgaben oder solcher mit Datum nach dem Training zu zeigen, um einen Teil dieser Verwirrung zu isolieren
Ich frage mich auch, wie viel besser o3 auf demselben Benchmark wäre
Und der genaue Titel dieses Beitrags lautet „Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning“
Im Paper gibt es mehrere Beispiele für geänderte Fragen
Da es von o1-preview zu o1 einen erheblichen Sprung gab, habe ich einige Samples in o1 und o1-pro eingegeben, und die aktuelle o1-Familie liefert bei diesen geänderten Aufgaben die richtigen Antworten
Der aktuelle Stand der besten Leistung ändert sich schnell
- Das Paper sagt, dass LLMs selbst dann, wenn sie die richtige Antwort liefern, mehrfach große Sprünge ohne Begründung machen oder über unlogische Schritte am Ende zur richtigen Lösung gelangen
  Ich frage mich, ob du auch diesen Teil überprüft hast
- LLM-Befürworter sind wirklich ermüdend
  Das war keine strenge Evaluation, und dieses Set ist seit Oktober öffentlich, hätte also leicht in die Trainingsdaten aufgenommen werden können
Es gibt viel zu viele negative Kommentare, die ignorieren, dass o3 bei FrontierMath 25 % richtig gelöst hat
Das ist wirklich ein absurd beeindruckendes Ergebnis
Klar: Wenn die Antwort auf eine Aufgabe direkt in den Trainingsdaten steckt, schneidet ein LLM besser ab
Aber das heißt nicht, dass es scheitert, wenn die Antwort nicht in den Trainingsdaten enthalten ist
- EpochAI muss die Fragen zur Bewertung des Modells an OpenAI schicken, aber nicht die Musterlösungen
  Dass dieser Benchmark über Nacht von 2 % auf 25 % gesprungen ist, ist ein recht interessantes Phänomen
- Dass es bei FrontierMath gut abgeschnitten hat, stimmt zwar, aber darum geht es in diesem Thread nicht
  Deshalb ist diese Aussage nicht besonders relevant

Leicht veränderte Putnam-Probleme senken die Genauigkeit von o1-preview um 30 %

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News