OpenAI meldet Leistung auf Goldmedaillen-Niveau bei der Internationalen Mathematik-Olympiade (IMO) 2025

(twitter.com/alexwei_)

5 Punkte von GN⁺ 2025-07-20 | 1 Kommentare | Auf WhatsApp teilen

Ein experimentelles Reasoning-LLM von OpenAI erzielte bei der Internationalen Mathematik-Olympiade (IMO) 2025 ein Ergebnis auf Goldmedaillen-Niveau
Unter denselben offiziellen IMO-Regeln löste es Aufgaben, verfasste natürlichsprachliche Beweise und erhielt nach einstimmiger Bewertung durch drei menschliche Korrektoren 35 von 42 Punkten (5 von 6 Aufgaben gelöst)
IMO-Aufgaben verlangen hochgradig kreatives Denken und mehrstufige Beweise; das Ergebnis zeigt, dass LLMs über die Grenzen bisheriger RL-Ansätze hinaus logische Beweise auf menschlichem Niveau erzeugen könnten
Besonders bedeutsam ist, dass dies nicht mit einem auf einzelne Aufgaben zugeschnittenen System, sondern durch allgemeines Reinforcement Learning und skalierte Test-Time-Compute erreicht wurde
Das Modell ist eine Forschungsvariante und vom bald erscheinenden GPT-5 getrennt; eine Veröffentlichung dieser Spitzenleistung in Mathematik ist erst in einigen Monaten geplant

Überblick über die IMO-2025-Leistung des OpenAI-LLM

Alexander Wei (@alexwei_) von OpenAI erklärte, dass das neueste experimentelle Reasoning-Sprachmodell bei der IMO 2025 ein Ergebnis auf Goldmedaillen-Niveau erzielt habe
- Die IMO ist ein anspruchsvoller Wettbewerb für mathematisch besonders begabte Jugendliche aus aller Welt und bekannt für Aufgaben, die komplexes logisches Denken und tiefes konzeptionelles Verständnis erfordern
Die Bewertung erfolgte wie bei menschlichen Teilnehmenden: zwei Prüfungen à 4,5 Stunden, offizielle Aufgabenblätter, keine externen Hilfsmittel und Abgabe natürlichsprachlicher Beweise
Jede Aufgabe wurde von drei ehemaligen IMO-Medaillengewinnern unabhängig bewertet; die endgültige Punktzahl wurde im einstimmigen Konsens festgelegt

Bedeutung des Ergebnisses und gestiegener Schwierigkeitsgrad

IMO-Aufgaben verlangen deutlich längere Denkzeit, mehr Kreativität und komplexere Argumentationen als frühere Benchmarks (GSM8K, MATH, AIME)
Das Modell löste fünf Aufgaben (P1~P5) vollständig, reichte P6 nicht ein und erzielte damit 35/42 Punkte, was den realen IMO-Goldstandard erfüllt
Die Fähigkeit, mehrseitige logische Beweise zu erzeugen, geht über die bisherigen Grenzen des Reinforcement Learning (RL) hinaus

Forschungsansatz und Kontext der AI-Entwicklung

Die hohe Leistung wurde nicht mit einem Modell nur für spezielle Problemtypen, sondern auf Basis allgemeinen RLs und skalierter Rechenleistung erreicht
Trotz fehlender klarer Belohnungsstruktur, wie sie klassisches RL typischerweise bietet, gelang die Erzeugung komplexer kreativer Ergebnisse
Das experimentelle Modell ist vom bald erscheinenden GPT-5 getrennt; Funktionen auf diesem mathematischen Niveau sollen der Allgemeinheit in den nächsten Monaten noch nicht zugänglich gemacht werden

Ausblick und Hinweise aus der Community

Das Tempo des Fortschritts bei mathematischen AI-Fähigkeiten liegt deutlich über den Erwartungen (gegenüber einer Prognose von 30 % auf dem MATH-Benchmark im Jahr 2021 nun eine IMO-Goldmedaille)
Alexander gratulierte allen Teilnehmenden der IMO 2025 und betonte zudem, dass sich im Team viele ehemalige IMO-Teilnehmende befinden
Die Lösungen des Modells zu den IMO-Aufgaben 2025 sollen ebenfalls veröffentlicht werden, wenn auch in experimentellem Stil

1 Kommentare

GN⁺ 2025-07-20

Hacker-News-Kommentare

Noam Brown: Wenn man in einem führenden Forschungslabor arbeitet, erlebt man normalerweise, dass man neue Fähigkeiten ein paar Monate früher sieht, aber dieses Ergebnis war eine wirklich neue Leistung mit Techniken, die erst ganz kürzlich entwickelt wurden, und selbst für die internen Forschenden bei OpenAI war das überraschend; erst heute kann nun jeder sehen, wo die Grenze des State of the Art liegt
Außerdem wurde diese Leistung von einem kleinen Team getragen, wobei Alex Wei eine Forschungsidee, an die nur wenige glaubten, in ein echtes Ergebnis verwandelt hat; auch die langjährige Forschung und das Engineering von OpenAI und der AI-Community spielten eine große Rolle
Link: https://x.com/polynoamial/status/1946478258968531288
- Hoffentlich bestand die neue Wundertechnik nicht darin, auf den Testdaten zu trainieren /Scherz
Interessant ist, dass die IMO-Lösungen ein ziemlich eingeschränktes Vokabular verwenden
Link: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt „Man muss nicht viele Worte machen, wenn weniger Worte wirksamer sind“
Bemerkenswert ist auch, dass Alex Wei selbst IOI-Goldmedaillengewinner ist
- Einerseits ist es interessant, dass das echten Notizen ähnelt, die Teilnehmende beim Lösen hinterlassen; wenn man unnötige Worte weglässt, verringert das das Informationsrauschen und hilft der Konzentration, besonders da LLMs strukturell ein Token nach dem anderen erzeugen und eine Begrenzung der Kontextlänge haben; ich frage mich, ob nur bedeutungstragende Tokens zu längeren, konsistenteren Gedankengängen führen könnten
- Es ist lustig, dass er bei der IOI (Informatikolympiade) Gold geholt hat, während es hier in der Diskussion um die IMO (Mathematikolympiade) geht
- Terence Tao hat in einem aktuellen Podcast ebenfalls vorhergesagt, dass LLMs dieses Jahr Gold holen würden
- Bei Transformern dauert die Erzeugung jedes Tokens gleich lang, unabhängig davon, welche Bedeutung es trägt; wenn man sich wiederholende oder unnötige Teile aus dem Text entfernt, wird es deutlich schneller
- Ich würde gern fragen, ob mit „see the world“ „sieh die Welt“ gemeint ist oder ein Wortspiel wie „SeaWorld“
Wer das als bloßes Highschool-Niveau abtut, sollte einmal versuchen, ein IMO-Problem zu lösen; alle Aufgaben sind öffentlich, einschließlich der diesjährigen
Link: https://www.imo-official.org/problems.aspx
Mir schwirrt schon der Kopf
- Dazu passend gibt es Videos, die zeigen, wie man über solche Probleme tatsächlich nachdenkt und sie löst
  - Lösung des schwierigen IMO Q2 von 2011 auf dem 3Blue1Brown-Kanal: https://www.youtube.com/watch?v=M64HUIJFTZM
  - Video zu einem Putnam-Problem mit ähnlichem Schwierigkeitsgrad: https://www.youtube.com/watch?v=OkmNXy7er84
  - Timothy Gowers, Fields-Medaillist und IMO-Perfektscorer, löst die diesjährigen IMO-Aufgaben live
    - Q1: https://www.youtube.com/watch?v=1G1nySyVs2w
    - Q4: https://www.youtube.com/watch?v=O-vp4zGzwIs
- Ich schaue mir solche YouTube-Videos zu Problemlösungen gern an; oberflächlich wirken sie einfach, aber es ist fast wie Zauberei
  Zum Beispiel habe ich etwas wie das Problem x+y=1, xy=1 gesehen, und die Lösung nutzt nur grundlegende Algebra, die wir alle kennen (Faktorisierung, Mitternachtsformel usw.), aber selbst die Erklärung ist schön
  Es fühlt sich an, als könnte man die Antwort finden, wenn man nur lange genug nachdenkt, aber meiner Erfahrung nach stimmt das überhaupt nicht
  Link: https://www.youtube.com/watch?v=csS4BjQuhCc
- Ich frage mich, wie sich solche IMO-Probleme mit Leetcode-Problemen im Schwierigkeitsgrad Hard vergleichen lassen
- Mir war erst jetzt klar, dass es von IMO-Aufgaben Versionen in mehreren Sprachen gibt
  Es scheinen etwa 50 Sprachen zu sein, und bei so vielen fällt einem sofort auf, dass es deutlich schwieriger sein dürfte, Sicherheit zu gewährleisten und Leaks zu verhindern
Dass diese Probleme auf Highschool-Niveau sind, bezieht sich nur auf das Vorwissen; sie sind extrem schwierig
Selbst professionelle Mathematiker, die keinen IMO-Hintergrund haben, würden es schwer haben, eine solche Leistung zu bringen
Das bedeutet nicht, dass AI mathematisch besser ist als Menschen; Mathematiker konzentrieren sich darauf, die Frontiers der Mathematik zu erweitern
Es heißt, dass die richtigen Antworten nicht in den Trainingsdaten enthalten waren
Und es wird behauptet, dass dieses Modell nicht nur speziell auf IMO-Aufgaben zugeschnitten ist
- Das erinnert mich daran, dass es in der Data Science überraschend schwer ist, Leakage in den Validierungsdatensatz zu verhindern
  Man optimiert den Trainingsprozess immer weiter, und wenn die Leistung auf dem Validierungsset steigt, wählt man entsprechend wieder Architektur und Daten aus
  Selbst ohne Absicht sickert dadurch nach und nach etwas Information aus dem Validierungsset in das Modell
  Schon wenn man ein anderes Validierungsset wählt, entsteht ein völlig anderes Modell
- Ich bezweifle, dass es wirklich kein IMO-spezifisches Modell ist; im Twitter-Thread war von „general reasoning“ die Rede, und falls wirklich kein RL (Reinforcement Learning) auf Olympiaden-Matheaufgaben gemacht wurde, würde ich dazu gern eine offizielle Aussage von OpenAI hören
- Ich frage mich, worauf sich die Behauptung stützt, dass es „kein auf IMO spezialisiertes Modell“ sei
- Ich frage mich, welche Grundlage oder Evidenz es für „die Antworten waren nicht in den Trainingsdaten“ und „es ist kein IMO-spezifisches Modell“ gibt
- Für mich sieht es fast sicher nach einem auf IMO spezialisierten Modell aus
  Auch die Art, wie es Antworten formuliert, fühlt sich genau so an
  Beispiel: https://xcancel.com/alexwei_/status/1946477742855532918
  Screenshot der tatsächlichen Antwort: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
  Es sieht aus, als würde es im AlphaProof-Stil zwischen natürlicher Sprache und einem System wie Lean hin- und herwechseln
  OpenAI wird solche Implementierungsdetails wohl nicht teilen
Im Thread heißt es: „Das Modell hat P1~P5 gelöst und für P6 keine Antwort abgegeben“
Das schwierigste Problem (P6) war auch für Menschen kaum lösbar; sogar das chinesische Team kam dort nur auf 21 von 42 Punkten, und in den meisten anderen Ländern hat es niemand gelöst
- Bei der IMO sieht man am ersten Tag P1, P2, P3 und am zweiten Tag P4, P5, P6
  Normalerweise ist die beabsichtigte Schwierigkeitreihenfolge P1, P4, P2, P5, P3, P6, also P1 am leichtesten und P6 am schwersten
  In der Praxis weicht das manchmal davon ab
- Offenbar hat jemand aus dem kanadischen Team P6 gelöst, aber insgesamt waren es nur sehr wenige
- Dass die Maschine genau bei den Aufgaben scheitert, die Menschen ebenfalls als schwer empfinden, besonders P6, wirkt wie ein Hinweis darauf, dass Menschen beteiligt gewesen sein könnten
  Selbst wenn es nur mechanischer Zufall war, hätte sie auch falsche Antworten ausgeben können; daher fragt man sich, ob nicht nur die richtigen Antworten ausgewählt wurden, also ob nur erfolgreiche Ergebnisse herausgepickt wurden
Google hat ebenfalls an dieser IMO teilgenommen und Gold geholt
Link: https://x.com/natolambert/status/1946569475396120653
Da OAI zuerst angekündigt hat, wird Google wohl bald ebenfalls offiziell etwas veröffentlichen
- Wenn man Noam Browns Aussage liest, dass „selbst OpenAI-interne Forschende von diesem Ergebnis überrascht waren“, wäre es umso erstaunlicher, wenn mehrere Labore gleichzeitig solche Resultate erzielt hätten
  Auf Twitter hieß es, Google habe Lean verwendet, während OpenAI nur ein LLM ohne Tools eingesetzt habe
  Unabhängig vom Ansatz ist das Ergebnis selbst wichtiger, aber die Grenzen und die Entwicklung der konkreten Methoden sind ebenfalls interessante Hinweise
- Googles AlphaProof hat letztes Jahr Silber geholt und einen neural-symbolischen Ansatz verwendet
  Bemerkenswert an OpenAIs Gold ist, dass es offenbar mit einem reinen LLM möglich war
  Wenn Google offiziell etwas veröffentlicht, wird man sehen, welchen Ansatz sie verwendet haben
  Der Vorteil des LLM-Ansatzes besteht darin, dass er sich wahrscheinlich nicht nur auf mathematische Beweise, sondern allgemeiner auf viele Arten von Reasoning-Problemen übertragen lässt
Noam Brown:
Das ist kein auf IMO spezialisiertes Modell, sondern ein Reasoning-LLM mit neuen experimentellen, allgemeinen Techniken
Es denkt sehr viel effizienter als o1 und o3, und die Effizienz zur Testzeit lässt sich künftig vermutlich noch weiter steigern
Die jüngsten Fortschritte in der AI waren schnell, und ich erwarte, dass das so weitergeht
Insbesondere scheinen wir dem Punkt näherzukommen, an dem AI ernsthaft zu wissenschaftlichen Entdeckungen beitragen kann
Bis vor Kurzem dachte ich, der Fortschritt verlangsame sich, aber aus mehreren Aussagen hier (kein spezialisiertes Modell und Potenzial für mehr Effizienz) ergibt sich ein sehr klarer Eindruck von echtem Fortschritt
Link: https://x.com/polynoamial/status/1946478249187377206
- Ich denke, zwischen einem „Modell, das Prüfungsaufgaben löst“ und „AI, die zu wissenschaftlichen Entdeckungen beiträgt“ liegt noch ein ziemlich großer Sprung
- Es klingt traumhaft, aber wie bei auf bestimmte Prüfungen feinabgestimmten Modellen wie für das Bar Exam wurden wohl auch diese Modelle oft bereits auf frühere Versionen solcher Aufgaben trainiert
- Ich frage mich, ob während des Finetunings zusätzlich Tool-Use eingesetzt wurde, etwa automatische Beweissysteme
- Der Teil „effizienteres Denken als o1 und o3“
  „Wenn der Gegner eine (feste) Antwortstrategie verfolgt, kann sie niemals verlieren. Damit sie gewinnt (also der Gegner verliert), müsste Q_{even-1}>even gelten, also irgendein a_j> sqrt2, aber es gilt bereits a_j<=c< sqrt2. Also kann sie nie verlieren“ und so weiter
  Man sieht deutlich den Versuch, mit wenigen Worten maximale Effizienz zu erreichen
  Link: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
- Jetzt, da wir möglicherweise den Punkt von „Peak Data“ mit Datenknappheit erreicht haben, frage ich mich, worin der klare Pfad für weitere Effizienzsteigerungen besteht
Das ist wirklich beeindruckend, aber ich würde gern wissen, wie es genau erreicht wurde
Wenn Wei mit „scaling up test-time compute“ recht hat, wurde vermutlich enorm viel Geld hineingesteckt
Falls sie es tausend- oder zehntausendfach parallel ausgeführt und nur das beste Ergebnis herausgepickt haben, wäre das enttäuschend
Wenn es wirklich eine saubere Leistung war, sollten sie transparent machen, welche Tools verwendet wurden und wie genau
Vermutlich stecken hier mehrere Techniken drin, die die Leistung bei schwer verifizierbaren Problemen verbessern
- Selbst wenn es 10000-mal parallel lief, wäre es dadurch nicht viel weniger interessant
  Das würde vielmehr bedeuten, dass es zwischen richtiger und strenger Lösung unterscheiden kann, und das unterscheidet sich nicht grundlegend davon, wie Menschen solche Probleme selten, aber eben doch lösen
- Laut dem Twitter-Thread wurden keine separaten Tools bereitgestellt
- Ich halte es tatsächlich für wahrscheinlich, dass OpenAI es tausend- oder zehntausendfach parallel laufen ließ und dann nur die Ergebnisse auswählte
  So lief es auch beim frühen o3-ARC-Benchmark
  Vielleicht war es auch eine kollaborative Multi-Agenten-Methode, wodurch man Grenzen der Kontextlänge (Tokenlimit) umgehen konnte
  AI hat ohnehin schon 99,99 % der Menschen bei den meisten Matheproblemen übertroffen; dass sie dann auch noch 99,999 % schlägt, ist nicht mehr besonders überraschend
- Falls OpenAI es 10000-mal laufen ließ und ein Mensch die Ergebnisse manuell auswählte, wäre die Bedeutung eine ganz andere
  Wenn das LLM selbst verifiziert und ausgewählt hat, ähnelt das eher dem menschlichen Prozess, ein schwieriges Problem in mehreren Anläufen zu lösen
  Der Unterschied ist, dass AI dank mehr Rechenressourcen parallel arbeiten kann, während Menschen nur sequenziell vorgehen können
Dieser Wettbewerb (IMO) ist so elitär, dass offenbar selbst in der Programmierer-Community viele nicht genau wissen, was das eigentlich ist
Wenn man grob rechnet, kommt man in den USA auf etwa 20 Personen, die für das Camp ausgewählt werden (also Goldpotenzial haben); bei rund 20 Millionen Highschool-Schülern pro Jahrgang ist das ein Talentniveau von „eine Person unter einer Million“
- Das soll die enorme Schwierigkeit des Wettbewerbs nicht kleinreden
  Ich selbst war auf einer Eliteschule, hatte aber bis zur Uni noch nie von der IMO gehört, bevor ich dort Teilnehmende traf
  Die Zahl der Schülerinnen und Schüler, die den Wettbewerb überhaupt kennen und daran teilnehmen, ist in Wirklichkeit viel kleiner als die Gesamtzahl aller Schüler
  Unabhängig vom Talent hätten wahrscheinlich viele mit den richtigen Chancen und Informationen ebenfalls gute Ergebnisse erzielen können
Ich habe vor Kurzem einen Bericht zur Bewertung von LLMs bei der IMO 2025 gesehen; o3 high hat nicht einmal Bronze-Niveau erreicht
Link: https://matharena.ai/imo/
Ich bin auch auf Terry Taos Meinung gespannt, aber ich finde, Fortschritte in diesem Bereich sind genau die Art positiver AI-Nutzung, die man sehen möchte
Statt ungebremster Innovation in einer Wirtschaft, die darauf noch gar nicht vorbereitet ist, wäre es wünschenswert, wenn AI eher zur Beschleunigung wissenschaftlichen Fortschritts beiträgt
- Hier ist Terry Taos Reaktion
  Link: https://mathstodon.xyz/@tao/114881419368778558

OpenAI meldet Leistung auf Goldmedaillen-Niveau bei der Internationalen Mathematik-Olympiade (IMO) 2025

Überblick über die IMO-2025-Leistung des OpenAI-LLM

Bedeutung des Ergebnisses und gestiegener Schwierigkeitsgrad

Forschungsansatz und Kontext der AI-Entwicklung

Ausblick und Hinweise aus der Community

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare