DeepMinds KI löst Aufgaben der Internationalen Mathematik-Olympiade auf Silbermedaillen-Niveau
(deepmind.google)- Google DeepMinds AlphaProof und AlphaGeometry 2 haben Aufgaben der Internationalen Mathematik-Olympiade gelöst
- AlphaProof: ein auf Reinforcement Learning basierendes System für mathematisches Schlussfolgern
- AlphaGeometry 2: ein verbessertes System zum Lösen von Geometrieaufgaben
- Die beiden Systeme lösten bei der diesjährigen Internationalen Mathematik-Olympiade (IMO) 4 von 6 Aufgaben und erreichten damit ein Ergebnis auf Silbermedaillen-Niveau
KI-Erfolg beim Lösen komplexer mathematischer Probleme
-
Einführung in die IMO
- Der älteste und renommierteste Mathematikwettbewerb für Jugendliche, der seit 1959 jährlich stattfindet
- Die Wettbewerbsaufgaben stammen aus Algebra, Kombinatorik, Geometrie und Zahlentheorie
- Viele Fields-Medaillen-Gewinner haben an der IMO teilgenommen
-
Die IMO-Herausforderung für die KI-Systeme
- AlphaProof und AlphaGeometry 2 lösten die diesjährigen IMO-Aufgaben
- Die Aufgaben wurden nach den offiziellen Wettbewerbsregeln bewertet
- AlphaProof löste 2 Algebra-Aufgaben und 1 zahlentheoretische Aufgabe
- AlphaGeometry 2 löste 1 Geometrieaufgabe
- Die 2 kombinatorischen Aufgaben konnten nicht gelöst werden
- Insgesamt wurden 28 von 42 Punkten erreicht, was einem Ergebnis auf Silbermedaillen-Niveau entspricht
AlphaProof: ein formaler Ansatz für Schlussfolgerungen
-
Wie AlphaProof funktioniert
- Beweist mathematische Aussagen in der formalen Sprache Lean
- Kombination aus einem vortrainierten Sprachmodell und dem AlphaZero-Reinforcement-Learning-Algorithmus
- Übersetzt Aufgaben in natürlicher Sprache in formale Aussagen, um Probleme unterschiedlicher Schwierigkeit zu lösen
- Wenn eine Aufgabe vorgegeben wird, erzeugt AlphaProof Lösungskandidaten und beweist oder widerlegt sie
- Bewiesene Ergebnisse stärken das Sprachmodell von AlphaProof und verbessern so die Fähigkeit, schwierigere Probleme zu lösen
-
Trainingsprozess
- Trainiert durch das Beweisen oder Widerlegen von Millionen Aufgaben
- Auch während des Wettbewerbs wurde ein Trainingsloop angewendet, um Varianten der Aufgaben zu beweisen
Das wettbewerbsfähigere AlphaGeometry 2
-
Verbesserungen bei AlphaGeometry 2
- Ein auf Gemini basierendes Sprachmodell und ein neuro-symbolisches Hybridsystem
- Mit zehnmal mehr synthetischen Daten als die Vorgängerversion trainiert
- Verbesserte Geschwindigkeit und Genauigkeit beim Lösen von Geometrieaufgaben
- Verwendet beim Lösen neuer Aufgaben einen Mechanismus zum Wissensaustausch
-
Ergebnisse bei der IMO 2024
- Löste 83 % der Geometrieaufgaben der IMO aus den vergangenen 25 Jahren
- Löste Aufgabe 4 des diesjährigen Wettbewerbs in 19 Sekunden
Eine neue Frontier des mathematischen Schlussfolgerns
-
Experimente mit Systemen für Schlussfolgern in natürlicher Sprache
- Experimente mit einem auf Gemini basierenden System für Schlussfolgern in natürlicher Sprache
- Kann Probleme lösen, ohne sie in eine formale Sprache zu übersetzen
- Untersuchung der Möglichkeit, es mit anderen KI-Systemen zu kombinieren
-
Ausblick
- Mathematiker könnten gemeinsam mit KI-Tools neue Hypothesen erforschen, neue Lösungsansätze ausprobieren und den Beweisprozess verkürzen
- KI-Systeme wie Gemini verbessern mathematische und allgemeine Fähigkeiten zum Schlussfolgern
Zusammenfassung von GN⁺
- AlphaProof und AlphaGeometry 2 zeigen das Potenzial von KI im mathematischen Schlussfolgern
- Das Ergebnis auf Silbermedaillen-Niveau bei der Internationalen Mathematik-Olympiade belegt die Fähigkeit von KI, mathematische Probleme zu lösen
- Es eröffnet Mathematikern die Möglichkeit, gemeinsam mit KI neue Lösungsansätze für Probleme zu erforschen
- Ein Projekt mit ähnlicher Funktionalität sind Modelle zur Verarbeitung natürlicher Sprache wie OpenAIs GPT-3
3 Kommentare
Je mehr Mathematiker zur Entwicklung formaler Mathematikbibliotheken beitragen, desto leichter wird es sein, leistungsfähige Mathematik-KI zu entwickeln. Soweit ich weiß, gibt es derzeit in Korea drei Personen, die mathematische Theorien, die sie selbst in der Sprache des Beweisassistenten Lean formalisiert haben, in Leans Mathematikbibliothek Mathlib übertragen.
Ich habe mich im vergangenen Jahr ein wenig an der Portierung von Mathlib von Lean 3 auf Lean 4 beteiligt und in diesem Jahr einen bislang unbewiesenen Satz in der Lean-4-Batteries-Bibliothek bewiesen.
Hacker-News-Kommentare
Erster Kommentar
Zweiter Kommentar
Dritter Kommentar
Vierter Kommentar
Fünfter Kommentar
Sechster Kommentar
Siebter Kommentar
Achter Kommentar
Neunter Kommentar
Zehnter Kommentar
Diese beste Diskussion ist hier zu finden: https://leanprover.zulipchat.com/#narrow/stream/219941-Machine-Learnin…