- Vorstellung von OpenAI o1, einem neuen großen Sprachmodell, das mit Reinforcement Learning darauf trainiert wurde, komplexe Schlussfolgerungen durchzuführen
- o1 kann vor der Antwort an den Nutzer eine lange interne Gedankenkette (
chain of thought) erzeugen
- o1 erreicht das 89. Perzentil bei Wettbewerbsprogrammierungsaufgaben (Codeforces), das Niveau eines der besten 500 US-Schüler in der Qualifikation zur American Invitational Mathematics Examination (AIME) und übertrifft bei den Benchmarks für Physik-, Biologie- und Chemiefragen (GPQA) die Genauigkeit von menschlichen Promovierten
- Zwar wird noch daran gearbeitet, das Modell so einfach nutzbar zu machen wie die aktuellen Modelle, aber eine frühe Version dieses Modells, OpenAI o1-preview, wird sofort in ChatGPT und für vertrauenswürdige API-Nutzer verfügbar gemacht
Bewertung
- Gegenüber GPT-4o zeigt o1 bei den meisten schlussfolgerungszentrierten Aufgaben eine deutlich bessere Leistung
- In der AIME-Prüfung 2024 löste GPT-4o im Durchschnitt nur 12 % der Aufgaben (1,8/15), während o1 mit einer einzelnen Stichprobe im Schnitt 74 % (11,1/15), mit Konsens über 64 Stichproben 83 % (12,5/15) und mit einer Neusortierung von 1000 Stichproben anhand einer trainierten Bewertungsfunktion 93 % (13,9/15) erreichte
- Bei GPQA Diamond übertraf o1 die Leistung menschlicher Experten, die Fachwissen in Chemie, Physik und Biologie testen, und ist damit das erste Modell, dem dies in diesem Benchmark gelingt
- Mit aktivierter visueller Wahrnehmung erreichte o1 78,2 % bei MMMU und ist damit das erste Modell, das mit menschlichen Experten konkurrieren kann
- In 54 von 57 MMLU-Unterkategorien zeigte o1 bessere Leistungen als GPT-4o
Gedankenkette (chain of thought)
- So wie Menschen bei schwierigen Fragen lange nachdenken können, bevor sie antworten, nutzt o1 eine Gedankenkette, wenn es versucht, Probleme zu lösen
- Durch Reinforcement Learning hat o1 gelernt, seine Gedankenkette zu verfeinern und die Strategien zu ihrer Nutzung zu verbessern
- Es lernt, Fehler zu erkennen und zu korrigieren
- Es lernt, knifflige Schritte in einfachere Schritte zu zerlegen
- Es lernt, andere Ansätze auszuprobieren, wenn der aktuelle Ansatz nicht funktioniert
Coding
- Durch zusätzliches Training zur weiteren Verbesserung der Programmierfähigkeiten wurde ein Modell trainiert, das bei der Internationalen Informatik-Olympiade 2024 (IOI) 213 Punkte erzielte und im 49. Perzentil rangierte
- Dieses Modell nahm unter denselben Bedingungen wie menschliche Teilnehmer an der IOI 2024 teil
- Es erhielt 10 Stunden Zeit, um 6 anspruchsvolle algorithmische Probleme zu lösen, und pro Problem waren 50 Einreichungen erlaubt
- Wenn 10.000 Einreichungen erlaubt sind, verbessert sich die Modellleistung erheblich
- Auch ohne eine Testzeit-Auswahlstrategie wurden 362,14 Punkte erreicht, womit die Goldmedaillenschwelle überschritten wurde
- Zur Bestätigung der Coding-Fähigkeiten dieses Modells wurden von Codeforces ausgerichtete Wettbewerbsprogrammierturniere simuliert
- GPT-4o erreichte ein ELO-Rating von 808, was dem 11. Perzentil menschlicher Wettbewerber entspricht
- Dieses Modell übertraf GPT-4o und o1 deutlich, erreichte ein ELO-Rating von 1807 und zeigte eine bessere Leistung als 93 % der Wettbewerber
Sicherheit
- Schlussfolgerung per Gedankenkette eröffnet neue Möglichkeiten für Alignment und Sicherheit
- Es wurde festgestellt, dass die Integration von Richtlinien für das Modellverhalten in die Gedankenkette des Schlussfolgerungsmodells eine wirksame Methode ist, menschliche Werte und Prinzipien robust zu vermitteln
- Es wurden Hinweise gefunden, dass Schlussfolgerungsfähigkeit der Robustheit des Modells direkt zugutekommt, indem dem Modell beigebracht wird, über Sicherheitsregeln und kontextabhängig zu schlussfolgern
- Es wird angenommen, dass die Nutzung von Gedankenkette einen erheblichen Fortschritt bei Sicherheit und Alignment bringt, da beobachtet werden kann, wie das Modell auf legitime Weise denkt, und weil das Schlussfolgern über Sicherheitsregeln in Out-of-Distribution-Szenarien robuster ist
- Vor der Bereitstellung wurden Sicherheitstests und Red-Teaming durchgeführt, um die Verbesserungen hervorzuheben
- Es zeigte sich, dass Schlussfolgerung per Gedankenkette in allen Bewertungen zur Leistungssteigerung beigetragen hat
Fazit
- o1 bringt den Stand der Technik beim KI-Schlussfolgern deutlich voran
- Es ist geplant, im Zuge weiterer Iterationen verbesserte Versionen dieses Modells zu veröffentlichen
- Es wird erwartet, dass o1 und seine Nachfolgemodelle viele neue Anwendungsfälle für KI in Wissenschaft, Coding, Mathematik und verwandten Bereichen eröffnen
- Man freut sich darauf, dass Nutzer und API-Entwickler entdecken, wie o1 ihre tägliche Arbeit verbessern kann
Meinung von GN⁺
- OpenAI o1 ist ein Modell mit herausragender Fähigkeit zur Lösung komplexer Probleme und zum Schlussfolgern und zeigt Leistungen, die über das menschliche Niveau hinausgehen. Besonders in Mathematik, Wissenschaft und Programmierung verfügt es über Fachkompetenz auf Expertenniveau und dürfte Forschung und Anwendungen in diesen Bereichen stark voranbringen
- Eindrucksvoll ist, dass durch den Ansatz der Gedankenkette (
Chain of Thought) der Denkprozess des Modells beobachtet und verstanden werden kann. Das dürfte sehr dabei helfen, das Verhalten des Modells zu verstehen und zu steuern. Allerdings ist es umstritten, dass entschieden wurde, den erzeugten Denkprozess den Nutzern nicht unverändert offenzulegen
- Bemerkenswert ist auch die Integration von Richtlinienregeln in den Denkprozess zur Verbesserung der Modellsicherheit. Sie wirkt jedoch noch nicht vollkommen, weshalb kontinuierliches Monitoring und weitere Verbesserungen nötig scheinen
- o1 ist ein sehr leistungsfähiges Modell, aber nicht makellos. Einschränkungen wie Verzerrungen oder ethische Fragen, die KI-Modelle allgemein betreffen, bestehen weiterhin. Neben dem technischen Fortschritt sind fortlaufende Anstrengungen nötig, um diese Grenzen zu überwinden
1 Kommentare
Hacker-News-Kommentare
Erster Kommentar
Zweiter Kommentar
Dritter Kommentar
Vierter Kommentar
Fünfter Kommentar
Sechster Kommentar
Siebter Kommentar
Achter Kommentar
Neunter Kommentar
Zehnter Kommentar