- Ein experimentelles Reasoning-LLM von OpenAI erzielte bei der Internationalen Mathematik-Olympiade (IMO) 2025 ein Ergebnis auf Goldmedaillen-Niveau
- Unter denselben offiziellen IMO-Regeln löste es Aufgaben, verfasste natürlichsprachliche Beweise und erhielt nach einstimmiger Bewertung durch drei menschliche Korrektoren 35 von 42 Punkten (5 von 6 Aufgaben gelöst)
- IMO-Aufgaben verlangen hochgradig kreatives Denken und mehrstufige Beweise; das Ergebnis zeigt, dass LLMs über die Grenzen bisheriger RL-Ansätze hinaus logische Beweise auf menschlichem Niveau erzeugen könnten
- Besonders bedeutsam ist, dass dies nicht mit einem auf einzelne Aufgaben zugeschnittenen System, sondern durch allgemeines Reinforcement Learning und skalierte Test-Time-Compute erreicht wurde
- Das Modell ist eine Forschungsvariante und vom bald erscheinenden GPT-5 getrennt; eine Veröffentlichung dieser Spitzenleistung in Mathematik ist erst in einigen Monaten geplant
Überblick über die IMO-2025-Leistung des OpenAI-LLM
- Alexander Wei (@alexwei_) von OpenAI erklärte, dass das neueste experimentelle Reasoning-Sprachmodell bei der IMO 2025 ein Ergebnis auf Goldmedaillen-Niveau erzielt habe
- Die IMO ist ein anspruchsvoller Wettbewerb für mathematisch besonders begabte Jugendliche aus aller Welt und bekannt für Aufgaben, die komplexes logisches Denken und tiefes konzeptionelles Verständnis erfordern
- Die Bewertung erfolgte wie bei menschlichen Teilnehmenden: zwei Prüfungen à 4,5 Stunden, offizielle Aufgabenblätter, keine externen Hilfsmittel und Abgabe natürlichsprachlicher Beweise
- Jede Aufgabe wurde von drei ehemaligen IMO-Medaillengewinnern unabhängig bewertet; die endgültige Punktzahl wurde im einstimmigen Konsens festgelegt
Bedeutung des Ergebnisses und gestiegener Schwierigkeitsgrad
- IMO-Aufgaben verlangen deutlich längere Denkzeit, mehr Kreativität und komplexere Argumentationen als frühere Benchmarks (GSM8K, MATH, AIME)
- Das Modell löste fünf Aufgaben (P1~P5) vollständig, reichte P6 nicht ein und erzielte damit 35/42 Punkte, was den realen IMO-Goldstandard erfüllt
- Die Fähigkeit, mehrseitige logische Beweise zu erzeugen, geht über die bisherigen Grenzen des Reinforcement Learning (RL) hinaus
Forschungsansatz und Kontext der AI-Entwicklung
- Die hohe Leistung wurde nicht mit einem Modell nur für spezielle Problemtypen, sondern auf Basis allgemeinen RLs und skalierter Rechenleistung erreicht
- Trotz fehlender klarer Belohnungsstruktur, wie sie klassisches RL typischerweise bietet, gelang die Erzeugung komplexer kreativer Ergebnisse
- Das experimentelle Modell ist vom bald erscheinenden GPT-5 getrennt; Funktionen auf diesem mathematischen Niveau sollen der Allgemeinheit in den nächsten Monaten noch nicht zugänglich gemacht werden
Ausblick und Hinweise aus der Community
- Das Tempo des Fortschritts bei mathematischen AI-Fähigkeiten liegt deutlich über den Erwartungen (gegenüber einer Prognose von 30 % auf dem MATH-Benchmark im Jahr 2021 nun eine IMO-Goldmedaille)
- Alexander gratulierte allen Teilnehmenden der IMO 2025 und betonte zudem, dass sich im Team viele ehemalige IMO-Teilnehmende befinden
- Die Lösungen des Modells zu den IMO-Aufgaben 2025 sollen ebenfalls veröffentlicht werden, wenn auch in experimentellem Stil
1 Kommentare
Hacker-News-Kommentare
Noam Brown: Wenn man in einem führenden Forschungslabor arbeitet, erlebt man normalerweise, dass man neue Fähigkeiten ein paar Monate früher sieht, aber dieses Ergebnis war eine wirklich neue Leistung mit Techniken, die erst ganz kürzlich entwickelt wurden, und selbst für die internen Forschenden bei OpenAI war das überraschend; erst heute kann nun jeder sehen, wo die Grenze des State of the Art liegt
Außerdem wurde diese Leistung von einem kleinen Team getragen, wobei Alex Wei eine Forschungsidee, an die nur wenige glaubten, in ein echtes Ergebnis verwandelt hat; auch die langjährige Forschung und das Engineering von OpenAI und der AI-Community spielten eine große Rolle
Link: https://x.com/polynoamial/status/1946478258968531288
Interessant ist, dass die IMO-Lösungen ein ziemlich eingeschränktes Vokabular verwenden
Link: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt „Man muss nicht viele Worte machen, wenn weniger Worte wirksamer sind“
Bemerkenswert ist auch, dass Alex Wei selbst IOI-Goldmedaillengewinner ist
Wer das als bloßes Highschool-Niveau abtut, sollte einmal versuchen, ein IMO-Problem zu lösen; alle Aufgaben sind öffentlich, einschließlich der diesjährigen
Link: https://www.imo-official.org/problems.aspx
Mir schwirrt schon der Kopf
Zum Beispiel habe ich etwas wie das Problem
x+y=1, xy=1gesehen, und die Lösung nutzt nur grundlegende Algebra, die wir alle kennen (Faktorisierung, Mitternachtsformel usw.), aber selbst die Erklärung ist schönEs fühlt sich an, als könnte man die Antwort finden, wenn man nur lange genug nachdenkt, aber meiner Erfahrung nach stimmt das überhaupt nicht
Link: https://www.youtube.com/watch?v=csS4BjQuhCc
Es scheinen etwa 50 Sprachen zu sein, und bei so vielen fällt einem sofort auf, dass es deutlich schwieriger sein dürfte, Sicherheit zu gewährleisten und Leaks zu verhindern
Dass diese Probleme auf Highschool-Niveau sind, bezieht sich nur auf das Vorwissen; sie sind extrem schwierig
Selbst professionelle Mathematiker, die keinen IMO-Hintergrund haben, würden es schwer haben, eine solche Leistung zu bringen
Das bedeutet nicht, dass AI mathematisch besser ist als Menschen; Mathematiker konzentrieren sich darauf, die Frontiers der Mathematik zu erweitern
Es heißt, dass die richtigen Antworten nicht in den Trainingsdaten enthalten waren
Und es wird behauptet, dass dieses Modell nicht nur speziell auf IMO-Aufgaben zugeschnitten ist
Man optimiert den Trainingsprozess immer weiter, und wenn die Leistung auf dem Validierungsset steigt, wählt man entsprechend wieder Architektur und Daten aus
Selbst ohne Absicht sickert dadurch nach und nach etwas Information aus dem Validierungsset in das Modell
Schon wenn man ein anderes Validierungsset wählt, entsteht ein völlig anderes Modell
Auch die Art, wie es Antworten formuliert, fühlt sich genau so an
Beispiel: https://xcancel.com/alexwei_/status/1946477742855532918
Screenshot der tatsächlichen Antwort: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
Es sieht aus, als würde es im AlphaProof-Stil zwischen natürlicher Sprache und einem System wie Lean hin- und herwechseln
OpenAI wird solche Implementierungsdetails wohl nicht teilen
Im Thread heißt es: „Das Modell hat P1~P5 gelöst und für P6 keine Antwort abgegeben“
Das schwierigste Problem (P6) war auch für Menschen kaum lösbar; sogar das chinesische Team kam dort nur auf 21 von 42 Punkten, und in den meisten anderen Ländern hat es niemand gelöst
Normalerweise ist die beabsichtigte Schwierigkeitreihenfolge P1, P4, P2, P5, P3, P6, also P1 am leichtesten und P6 am schwersten
In der Praxis weicht das manchmal davon ab
Selbst wenn es nur mechanischer Zufall war, hätte sie auch falsche Antworten ausgeben können; daher fragt man sich, ob nicht nur die richtigen Antworten ausgewählt wurden, also ob nur erfolgreiche Ergebnisse herausgepickt wurden
Google hat ebenfalls an dieser IMO teilgenommen und Gold geholt
Link: https://x.com/natolambert/status/1946569475396120653
Da OAI zuerst angekündigt hat, wird Google wohl bald ebenfalls offiziell etwas veröffentlichen
Auf Twitter hieß es, Google habe Lean verwendet, während OpenAI nur ein LLM ohne Tools eingesetzt habe
Unabhängig vom Ansatz ist das Ergebnis selbst wichtiger, aber die Grenzen und die Entwicklung der konkreten Methoden sind ebenfalls interessante Hinweise
Bemerkenswert an OpenAIs Gold ist, dass es offenbar mit einem reinen LLM möglich war
Wenn Google offiziell etwas veröffentlicht, wird man sehen, welchen Ansatz sie verwendet haben
Der Vorteil des LLM-Ansatzes besteht darin, dass er sich wahrscheinlich nicht nur auf mathematische Beweise, sondern allgemeiner auf viele Arten von Reasoning-Problemen übertragen lässt
Noam Brown:
Das ist kein auf IMO spezialisiertes Modell, sondern ein Reasoning-LLM mit neuen experimentellen, allgemeinen Techniken
Es denkt sehr viel effizienter als o1 und o3, und die Effizienz zur Testzeit lässt sich künftig vermutlich noch weiter steigern
Die jüngsten Fortschritte in der AI waren schnell, und ich erwarte, dass das so weitergeht
Insbesondere scheinen wir dem Punkt näherzukommen, an dem AI ernsthaft zu wissenschaftlichen Entdeckungen beitragen kann
Bis vor Kurzem dachte ich, der Fortschritt verlangsame sich, aber aus mehreren Aussagen hier (kein spezialisiertes Modell und Potenzial für mehr Effizienz) ergibt sich ein sehr klarer Eindruck von echtem Fortschritt
Link: https://x.com/polynoamial/status/1946478249187377206
„Wenn der Gegner eine (feste) Antwortstrategie verfolgt, kann sie niemals verlieren. Damit sie gewinnt (also der Gegner verliert), müsste
Q_{even-1}>evengelten, also irgendeina_j> sqrt2, aber es gilt bereitsa_j<=c< sqrt2. Also kann sie nie verlieren“ und so weiterMan sieht deutlich den Versuch, mit wenigen Worten maximale Effizienz zu erreichen
Link: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
Das ist wirklich beeindruckend, aber ich würde gern wissen, wie es genau erreicht wurde
Wenn Wei mit „scaling up test-time compute“ recht hat, wurde vermutlich enorm viel Geld hineingesteckt
Falls sie es tausend- oder zehntausendfach parallel ausgeführt und nur das beste Ergebnis herausgepickt haben, wäre das enttäuschend
Wenn es wirklich eine saubere Leistung war, sollten sie transparent machen, welche Tools verwendet wurden und wie genau
Vermutlich stecken hier mehrere Techniken drin, die die Leistung bei schwer verifizierbaren Problemen verbessern
Das würde vielmehr bedeuten, dass es zwischen richtiger und strenger Lösung unterscheiden kann, und das unterscheidet sich nicht grundlegend davon, wie Menschen solche Probleme selten, aber eben doch lösen
So lief es auch beim frühen o3-ARC-Benchmark
Vielleicht war es auch eine kollaborative Multi-Agenten-Methode, wodurch man Grenzen der Kontextlänge (Tokenlimit) umgehen konnte
AI hat ohnehin schon 99,99 % der Menschen bei den meisten Matheproblemen übertroffen; dass sie dann auch noch 99,999 % schlägt, ist nicht mehr besonders überraschend
Wenn das LLM selbst verifiziert und ausgewählt hat, ähnelt das eher dem menschlichen Prozess, ein schwieriges Problem in mehreren Anläufen zu lösen
Der Unterschied ist, dass AI dank mehr Rechenressourcen parallel arbeiten kann, während Menschen nur sequenziell vorgehen können
Dieser Wettbewerb (IMO) ist so elitär, dass offenbar selbst in der Programmierer-Community viele nicht genau wissen, was das eigentlich ist
Wenn man grob rechnet, kommt man in den USA auf etwa 20 Personen, die für das Camp ausgewählt werden (also Goldpotenzial haben); bei rund 20 Millionen Highschool-Schülern pro Jahrgang ist das ein Talentniveau von „eine Person unter einer Million“
Ich selbst war auf einer Eliteschule, hatte aber bis zur Uni noch nie von der IMO gehört, bevor ich dort Teilnehmende traf
Die Zahl der Schülerinnen und Schüler, die den Wettbewerb überhaupt kennen und daran teilnehmen, ist in Wirklichkeit viel kleiner als die Gesamtzahl aller Schüler
Unabhängig vom Talent hätten wahrscheinlich viele mit den richtigen Chancen und Informationen ebenfalls gute Ergebnisse erzielen können
Ich habe vor Kurzem einen Bericht zur Bewertung von LLMs bei der IMO 2025 gesehen; o3 high hat nicht einmal Bronze-Niveau erreicht
Link: https://matharena.ai/imo/
Ich bin auch auf Terry Taos Meinung gespannt, aber ich finde, Fortschritte in diesem Bereich sind genau die Art positiver AI-Nutzung, die man sehen möchte
Statt ungebremster Innovation in einer Wirtschaft, die darauf noch gar nicht vorbereitet ist, wäre es wünschenswert, wenn AI eher zur Beschleunigung wissenschaftlichen Fortschritts beiträgt
Link: https://mathstodon.xyz/@tao/114881419368778558