5 Punkte von GN⁺ 2025-07-20 | 1 Kommentare | Auf WhatsApp teilen
  • Ein experimentelles Reasoning-LLM von OpenAI erzielte bei der Internationalen Mathematik-Olympiade (IMO) 2025 ein Ergebnis auf Goldmedaillen-Niveau
  • Unter denselben offiziellen IMO-Regeln löste es Aufgaben, verfasste natürlichsprachliche Beweise und erhielt nach einstimmiger Bewertung durch drei menschliche Korrektoren 35 von 42 Punkten (5 von 6 Aufgaben gelöst)
  • IMO-Aufgaben verlangen hochgradig kreatives Denken und mehrstufige Beweise; das Ergebnis zeigt, dass LLMs über die Grenzen bisheriger RL-Ansätze hinaus logische Beweise auf menschlichem Niveau erzeugen könnten
  • Besonders bedeutsam ist, dass dies nicht mit einem auf einzelne Aufgaben zugeschnittenen System, sondern durch allgemeines Reinforcement Learning und skalierte Test-Time-Compute erreicht wurde
  • Das Modell ist eine Forschungsvariante und vom bald erscheinenden GPT-5 getrennt; eine Veröffentlichung dieser Spitzenleistung in Mathematik ist erst in einigen Monaten geplant

Überblick über die IMO-2025-Leistung des OpenAI-LLM

  • Alexander Wei (@alexwei_) von OpenAI erklärte, dass das neueste experimentelle Reasoning-Sprachmodell bei der IMO 2025 ein Ergebnis auf Goldmedaillen-Niveau erzielt habe
    • Die IMO ist ein anspruchsvoller Wettbewerb für mathematisch besonders begabte Jugendliche aus aller Welt und bekannt für Aufgaben, die komplexes logisches Denken und tiefes konzeptionelles Verständnis erfordern
  • Die Bewertung erfolgte wie bei menschlichen Teilnehmenden: zwei Prüfungen à 4,5 Stunden, offizielle Aufgabenblätter, keine externen Hilfsmittel und Abgabe natürlichsprachlicher Beweise
  • Jede Aufgabe wurde von drei ehemaligen IMO-Medaillengewinnern unabhängig bewertet; die endgültige Punktzahl wurde im einstimmigen Konsens festgelegt

Bedeutung des Ergebnisses und gestiegener Schwierigkeitsgrad

  • IMO-Aufgaben verlangen deutlich längere Denkzeit, mehr Kreativität und komplexere Argumentationen als frühere Benchmarks (GSM8K, MATH, AIME)
  • Das Modell löste fünf Aufgaben (P1~P5) vollständig, reichte P6 nicht ein und erzielte damit 35/42 Punkte, was den realen IMO-Goldstandard erfüllt
  • Die Fähigkeit, mehrseitige logische Beweise zu erzeugen, geht über die bisherigen Grenzen des Reinforcement Learning (RL) hinaus

Forschungsansatz und Kontext der AI-Entwicklung

  • Die hohe Leistung wurde nicht mit einem Modell nur für spezielle Problemtypen, sondern auf Basis allgemeinen RLs und skalierter Rechenleistung erreicht
  • Trotz fehlender klarer Belohnungsstruktur, wie sie klassisches RL typischerweise bietet, gelang die Erzeugung komplexer kreativer Ergebnisse
  • Das experimentelle Modell ist vom bald erscheinenden GPT-5 getrennt; Funktionen auf diesem mathematischen Niveau sollen der Allgemeinheit in den nächsten Monaten noch nicht zugänglich gemacht werden

Ausblick und Hinweise aus der Community

  • Das Tempo des Fortschritts bei mathematischen AI-Fähigkeiten liegt deutlich über den Erwartungen (gegenüber einer Prognose von 30 % auf dem MATH-Benchmark im Jahr 2021 nun eine IMO-Goldmedaille)
  • Alexander gratulierte allen Teilnehmenden der IMO 2025 und betonte zudem, dass sich im Team viele ehemalige IMO-Teilnehmende befinden
  • Die Lösungen des Modells zu den IMO-Aufgaben 2025 sollen ebenfalls veröffentlicht werden, wenn auch in experimentellem Stil

1 Kommentare

 
GN⁺ 2025-07-20
Hacker-News-Kommentare
  • Noam Brown: Wenn man in einem führenden Forschungslabor arbeitet, erlebt man normalerweise, dass man neue Fähigkeiten ein paar Monate früher sieht, aber dieses Ergebnis war eine wirklich neue Leistung mit Techniken, die erst ganz kürzlich entwickelt wurden, und selbst für die internen Forschenden bei OpenAI war das überraschend; erst heute kann nun jeder sehen, wo die Grenze des State of the Art liegt
    Außerdem wurde diese Leistung von einem kleinen Team getragen, wobei Alex Wei eine Forschungsidee, an die nur wenige glaubten, in ein echtes Ergebnis verwandelt hat; auch die langjährige Forschung und das Engineering von OpenAI und der AI-Community spielten eine große Rolle
    Link: https://x.com/polynoamial/status/1946478258968531288

    • Hoffentlich bestand die neue Wundertechnik nicht darin, auf den Testdaten zu trainieren /Scherz
  • Interessant ist, dass die IMO-Lösungen ein ziemlich eingeschränktes Vokabular verwenden
    Link: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt „Man muss nicht viele Worte machen, wenn weniger Worte wirksamer sind“
    Bemerkenswert ist auch, dass Alex Wei selbst IOI-Goldmedaillengewinner ist

    • Einerseits ist es interessant, dass das echten Notizen ähnelt, die Teilnehmende beim Lösen hinterlassen; wenn man unnötige Worte weglässt, verringert das das Informationsrauschen und hilft der Konzentration, besonders da LLMs strukturell ein Token nach dem anderen erzeugen und eine Begrenzung der Kontextlänge haben; ich frage mich, ob nur bedeutungstragende Tokens zu längeren, konsistenteren Gedankengängen führen könnten
    • Es ist lustig, dass er bei der IOI (Informatikolympiade) Gold geholt hat, während es hier in der Diskussion um die IMO (Mathematikolympiade) geht
    • Terence Tao hat in einem aktuellen Podcast ebenfalls vorhergesagt, dass LLMs dieses Jahr Gold holen würden
    • Bei Transformern dauert die Erzeugung jedes Tokens gleich lang, unabhängig davon, welche Bedeutung es trägt; wenn man sich wiederholende oder unnötige Teile aus dem Text entfernt, wird es deutlich schneller
    • Ich würde gern fragen, ob mit „see the world“ „sieh die Welt“ gemeint ist oder ein Wortspiel wie „SeaWorld“
  • Wer das als bloßes Highschool-Niveau abtut, sollte einmal versuchen, ein IMO-Problem zu lösen; alle Aufgaben sind öffentlich, einschließlich der diesjährigen
    Link: https://www.imo-official.org/problems.aspx
    Mir schwirrt schon der Kopf

    • Dazu passend gibt es Videos, die zeigen, wie man über solche Probleme tatsächlich nachdenkt und sie löst
    • Ich schaue mir solche YouTube-Videos zu Problemlösungen gern an; oberflächlich wirken sie einfach, aber es ist fast wie Zauberei
      Zum Beispiel habe ich etwas wie das Problem x+y=1, xy=1 gesehen, und die Lösung nutzt nur grundlegende Algebra, die wir alle kennen (Faktorisierung, Mitternachtsformel usw.), aber selbst die Erklärung ist schön
      Es fühlt sich an, als könnte man die Antwort finden, wenn man nur lange genug nachdenkt, aber meiner Erfahrung nach stimmt das überhaupt nicht
      Link: https://www.youtube.com/watch?v=csS4BjQuhCc
    • Ich frage mich, wie sich solche IMO-Probleme mit Leetcode-Problemen im Schwierigkeitsgrad Hard vergleichen lassen
    • Mir war erst jetzt klar, dass es von IMO-Aufgaben Versionen in mehreren Sprachen gibt
      Es scheinen etwa 50 Sprachen zu sein, und bei so vielen fällt einem sofort auf, dass es deutlich schwieriger sein dürfte, Sicherheit zu gewährleisten und Leaks zu verhindern
  • Dass diese Probleme auf Highschool-Niveau sind, bezieht sich nur auf das Vorwissen; sie sind extrem schwierig
    Selbst professionelle Mathematiker, die keinen IMO-Hintergrund haben, würden es schwer haben, eine solche Leistung zu bringen
    Das bedeutet nicht, dass AI mathematisch besser ist als Menschen; Mathematiker konzentrieren sich darauf, die Frontiers der Mathematik zu erweitern
    Es heißt, dass die richtigen Antworten nicht in den Trainingsdaten enthalten waren
    Und es wird behauptet, dass dieses Modell nicht nur speziell auf IMO-Aufgaben zugeschnitten ist

    • Das erinnert mich daran, dass es in der Data Science überraschend schwer ist, Leakage in den Validierungsdatensatz zu verhindern
      Man optimiert den Trainingsprozess immer weiter, und wenn die Leistung auf dem Validierungsset steigt, wählt man entsprechend wieder Architektur und Daten aus
      Selbst ohne Absicht sickert dadurch nach und nach etwas Information aus dem Validierungsset in das Modell
      Schon wenn man ein anderes Validierungsset wählt, entsteht ein völlig anderes Modell
    • Ich bezweifle, dass es wirklich kein IMO-spezifisches Modell ist; im Twitter-Thread war von „general reasoning“ die Rede, und falls wirklich kein RL (Reinforcement Learning) auf Olympiaden-Matheaufgaben gemacht wurde, würde ich dazu gern eine offizielle Aussage von OpenAI hören
    • Ich frage mich, worauf sich die Behauptung stützt, dass es „kein auf IMO spezialisiertes Modell“ sei
    • Ich frage mich, welche Grundlage oder Evidenz es für „die Antworten waren nicht in den Trainingsdaten“ und „es ist kein IMO-spezifisches Modell“ gibt
    • Für mich sieht es fast sicher nach einem auf IMO spezialisierten Modell aus
      Auch die Art, wie es Antworten formuliert, fühlt sich genau so an
      Beispiel: https://xcancel.com/alexwei_/status/1946477742855532918
      Screenshot der tatsächlichen Antwort: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
      Es sieht aus, als würde es im AlphaProof-Stil zwischen natürlicher Sprache und einem System wie Lean hin- und herwechseln
      OpenAI wird solche Implementierungsdetails wohl nicht teilen
  • Im Thread heißt es: „Das Modell hat P1~P5 gelöst und für P6 keine Antwort abgegeben“
    Das schwierigste Problem (P6) war auch für Menschen kaum lösbar; sogar das chinesische Team kam dort nur auf 21 von 42 Punkten, und in den meisten anderen Ländern hat es niemand gelöst

    • Bei der IMO sieht man am ersten Tag P1, P2, P3 und am zweiten Tag P4, P5, P6
      Normalerweise ist die beabsichtigte Schwierigkeitreihenfolge P1, P4, P2, P5, P3, P6, also P1 am leichtesten und P6 am schwersten
      In der Praxis weicht das manchmal davon ab
    • Offenbar hat jemand aus dem kanadischen Team P6 gelöst, aber insgesamt waren es nur sehr wenige
    • Dass die Maschine genau bei den Aufgaben scheitert, die Menschen ebenfalls als schwer empfinden, besonders P6, wirkt wie ein Hinweis darauf, dass Menschen beteiligt gewesen sein könnten
      Selbst wenn es nur mechanischer Zufall war, hätte sie auch falsche Antworten ausgeben können; daher fragt man sich, ob nicht nur die richtigen Antworten ausgewählt wurden, also ob nur erfolgreiche Ergebnisse herausgepickt wurden
  • Google hat ebenfalls an dieser IMO teilgenommen und Gold geholt
    Link: https://x.com/natolambert/status/1946569475396120653
    Da OAI zuerst angekündigt hat, wird Google wohl bald ebenfalls offiziell etwas veröffentlichen

    • Wenn man Noam Browns Aussage liest, dass „selbst OpenAI-interne Forschende von diesem Ergebnis überrascht waren“, wäre es umso erstaunlicher, wenn mehrere Labore gleichzeitig solche Resultate erzielt hätten
      Auf Twitter hieß es, Google habe Lean verwendet, während OpenAI nur ein LLM ohne Tools eingesetzt habe
      Unabhängig vom Ansatz ist das Ergebnis selbst wichtiger, aber die Grenzen und die Entwicklung der konkreten Methoden sind ebenfalls interessante Hinweise
    • Googles AlphaProof hat letztes Jahr Silber geholt und einen neural-symbolischen Ansatz verwendet
      Bemerkenswert an OpenAIs Gold ist, dass es offenbar mit einem reinen LLM möglich war
      Wenn Google offiziell etwas veröffentlicht, wird man sehen, welchen Ansatz sie verwendet haben
      Der Vorteil des LLM-Ansatzes besteht darin, dass er sich wahrscheinlich nicht nur auf mathematische Beweise, sondern allgemeiner auf viele Arten von Reasoning-Problemen übertragen lässt
  • Noam Brown:
    Das ist kein auf IMO spezialisiertes Modell, sondern ein Reasoning-LLM mit neuen experimentellen, allgemeinen Techniken
    Es denkt sehr viel effizienter als o1 und o3, und die Effizienz zur Testzeit lässt sich künftig vermutlich noch weiter steigern
    Die jüngsten Fortschritte in der AI waren schnell, und ich erwarte, dass das so weitergeht
    Insbesondere scheinen wir dem Punkt näherzukommen, an dem AI ernsthaft zu wissenschaftlichen Entdeckungen beitragen kann
    Bis vor Kurzem dachte ich, der Fortschritt verlangsame sich, aber aus mehreren Aussagen hier (kein spezialisiertes Modell und Potenzial für mehr Effizienz) ergibt sich ein sehr klarer Eindruck von echtem Fortschritt
    Link: https://x.com/polynoamial/status/1946478249187377206

    • Ich denke, zwischen einem „Modell, das Prüfungsaufgaben löst“ und „AI, die zu wissenschaftlichen Entdeckungen beiträgt“ liegt noch ein ziemlich großer Sprung
    • Es klingt traumhaft, aber wie bei auf bestimmte Prüfungen feinabgestimmten Modellen wie für das Bar Exam wurden wohl auch diese Modelle oft bereits auf frühere Versionen solcher Aufgaben trainiert
    • Ich frage mich, ob während des Finetunings zusätzlich Tool-Use eingesetzt wurde, etwa automatische Beweissysteme
    • Der Teil „effizienteres Denken als o1 und o3“
      „Wenn der Gegner eine (feste) Antwortstrategie verfolgt, kann sie niemals verlieren. Damit sie gewinnt (also der Gegner verliert), müsste Q_{even-1}>even gelten, also irgendein a_j> sqrt2, aber es gilt bereits a_j<=c< sqrt2. Also kann sie nie verlieren“ und so weiter
      Man sieht deutlich den Versuch, mit wenigen Worten maximale Effizienz zu erreichen
      Link: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
    • Jetzt, da wir möglicherweise den Punkt von „Peak Data“ mit Datenknappheit erreicht haben, frage ich mich, worin der klare Pfad für weitere Effizienzsteigerungen besteht
  • Das ist wirklich beeindruckend, aber ich würde gern wissen, wie es genau erreicht wurde
    Wenn Wei mit „scaling up test-time compute“ recht hat, wurde vermutlich enorm viel Geld hineingesteckt
    Falls sie es tausend- oder zehntausendfach parallel ausgeführt und nur das beste Ergebnis herausgepickt haben, wäre das enttäuschend
    Wenn es wirklich eine saubere Leistung war, sollten sie transparent machen, welche Tools verwendet wurden und wie genau
    Vermutlich stecken hier mehrere Techniken drin, die die Leistung bei schwer verifizierbaren Problemen verbessern

    • Selbst wenn es 10000-mal parallel lief, wäre es dadurch nicht viel weniger interessant
      Das würde vielmehr bedeuten, dass es zwischen richtiger und strenger Lösung unterscheiden kann, und das unterscheidet sich nicht grundlegend davon, wie Menschen solche Probleme selten, aber eben doch lösen
    • Laut dem Twitter-Thread wurden keine separaten Tools bereitgestellt
    • Ich halte es tatsächlich für wahrscheinlich, dass OpenAI es tausend- oder zehntausendfach parallel laufen ließ und dann nur die Ergebnisse auswählte
      So lief es auch beim frühen o3-ARC-Benchmark
      Vielleicht war es auch eine kollaborative Multi-Agenten-Methode, wodurch man Grenzen der Kontextlänge (Tokenlimit) umgehen konnte
      AI hat ohnehin schon 99,99 % der Menschen bei den meisten Matheproblemen übertroffen; dass sie dann auch noch 99,999 % schlägt, ist nicht mehr besonders überraschend
    • Falls OpenAI es 10000-mal laufen ließ und ein Mensch die Ergebnisse manuell auswählte, wäre die Bedeutung eine ganz andere
      Wenn das LLM selbst verifiziert und ausgewählt hat, ähnelt das eher dem menschlichen Prozess, ein schwieriges Problem in mehreren Anläufen zu lösen
      Der Unterschied ist, dass AI dank mehr Rechenressourcen parallel arbeiten kann, während Menschen nur sequenziell vorgehen können
  • Dieser Wettbewerb (IMO) ist so elitär, dass offenbar selbst in der Programmierer-Community viele nicht genau wissen, was das eigentlich ist
    Wenn man grob rechnet, kommt man in den USA auf etwa 20 Personen, die für das Camp ausgewählt werden (also Goldpotenzial haben); bei rund 20 Millionen Highschool-Schülern pro Jahrgang ist das ein Talentniveau von „eine Person unter einer Million“

    • Das soll die enorme Schwierigkeit des Wettbewerbs nicht kleinreden
      Ich selbst war auf einer Eliteschule, hatte aber bis zur Uni noch nie von der IMO gehört, bevor ich dort Teilnehmende traf
      Die Zahl der Schülerinnen und Schüler, die den Wettbewerb überhaupt kennen und daran teilnehmen, ist in Wirklichkeit viel kleiner als die Gesamtzahl aller Schüler
      Unabhängig vom Talent hätten wahrscheinlich viele mit den richtigen Chancen und Informationen ebenfalls gute Ergebnisse erzielen können
  • Ich habe vor Kurzem einen Bericht zur Bewertung von LLMs bei der IMO 2025 gesehen; o3 high hat nicht einmal Bronze-Niveau erreicht
    Link: https://matharena.ai/imo/
    Ich bin auch auf Terry Taos Meinung gespannt, aber ich finde, Fortschritte in diesem Bereich sind genau die Art positiver AI-Nutzung, die man sehen möchte
    Statt ungebremster Innovation in einer Wirtschaft, die darauf noch gar nicht vorbereitet ist, wäre es wünschenswert, wenn AI eher zur Beschleunigung wissenschaftlichen Fortschritts beiträgt