Das von OpenAI unterstützte FrontierMath-Projekt

(lesswrong.com)

2 Punkte von GN⁺ 2025-01-20 | 1 Kommentare | Auf WhatsApp teilen

Kürzlich stellte OpenAI das neue Modell o3 vor und kündigte an, im Bereich Mathematik eine bahnbrechende Leistung erreicht zu haben
Besonders viel Aufmerksamkeit erhielt die Meldung, dass auf dem FrontierMath-Benchmark, auf dem frühere Modelle 2 % erreichten, nun 25 % erzielt wurden
Nach der Ankündigung wurde kritisiert, dass es im Zusammenhang mit der Entstehung dieses Benchmarks an Transparenz gefehlt habe
Daraus lassen sich Lehren für künftige AI-Benchmarks, Evaluierungen und Sicherheitsdebatten ziehen

Überblick über den Vorfall

Vor November 2024 begann Epoch AI mit dem Aufbau des Mathematik-Benchmarks FrontierMath
Externe Mathematiker wurden mit der Erstellung von Aufgaben beauftragt und mit etwa 300 bis 1000 Dollar vergütet
Damals war nicht klar erkennbar, wer die Finanzierung stellte und wer die Aufgaben und Lösungen einsehen konnte
Am 7. November 2024 veröffentlichte Epoch AI die erste Version des Papers auf arXiv, ohne die Finanzierungsquelle überhaupt zu erwähnen
Am 20. Dezember 2024 stellte OpenAI das Modell o3 vor und erklärte, auf FrontierMath 25 % erreicht zu haben
Am selben Tag wurde v5 des Epoch-AI-Papers auf arXiv aktualisiert; dort wurde offengelegt, dass OpenAI das Projekt vollständig finanziert hatte und Zugang zu den meisten schwierigen Aufgaben und Lösungen hatte

Weitere Details

Schon unmittelbar nach dem Dezember-Update gab es Bedenken zu diesem Thema, und zuletzt wurden weitere relevante Informationen bekannt
FrontierMath teilt den Schwierigkeitsgrad auf in (a) Olympiadeniveau (25 %), (b) mittlere Schwierigkeit (50 %) und (c) ein Niveau, für das selbst Experten mehrere Wochen benötigen (25 %)
Die Ankündigung, dass o3 25 % erreicht habe, kann missverständlich sein, weil nicht offengelegt wurde, welche Schwierigkeitsstufen hauptsächlich gelöst wurden
Es wird vermutet, dass OpenAI zwar Zugang zu allen Aufgaben und Lösungen hatte, diesen Datensatz aber gemäß einer mündlichen Vereinbarung nicht direkt für das Training verwendet hat
Gleichzeitig wird angemerkt, dass es für Außenstehende schwer ist, genau zu wissen, auf welche Weise ein Modell intern trainiert wird

Warum das noch aus anderen Gründen problematisch ist

Wer FrontierMath-Aufgaben besitzen oder darauf zugreifen kann, könnte dadurch indirekt zur Leistungssteigerung eines Modells beitragen
Insbesondere gibt es Bedenken, dass sich über unveröffentlichte, sehr schwierige Aufgaben Modellvalidierung oder Suchverfahren verfeinern lassen
Ob die Meldung über 25 % tatsächlich bedeutet, dass schwierige Aufgaben gelöst wurden, oder ob vor allem leichtere Aufgaben gemeint sind, bleibt unklar

Ein Datensatz, der Fähigkeiten auch ohne explizites Training steigern kann

Über die interne Struktur von o3 ist wenig bekannt, doch einige andere Arbeiten verfolgen einen „Scale at inference“-Ansatz
Vorgestellt wurde Forschung, die MCMC-basiertes Chain-of-thought-Scoring automatisch lernt oder Reward Models (PRM) an Zwischenschritte ansetzt, um die Suche zu verstärken
Schwierige Benchmarks wie FrontierMath können für die Validierung solcher Reward Models nützlich sein
Anders gesagt: Selbst wenn der Datensatz nicht direkt fürs Training genutzt wird, könnte er zum Tuning von Suchstrategien oder Validierungsmethoden verwendet werden
Wenn das Ziel eine unabhängige und faire Evaluierung ist, sollte man ihn idealerweise nur einmal zur Bewertung verwenden und nicht für andere Zwecke einsetzen

Bedenken zur AI-Sicherheit

Epoch AI ist als Organisation bekannt, die Entwicklungstrends von AI verfolgt und sich mit Sicherheitsfragen beschäftigt
Unter den Mathematikern, die Aufgaben für FrontierMath beigesteuert haben, könnte es Menschen geben, die nicht mitgewirkt hätten, wenn sie gewusst hätten, dass ihre Arbeit zur Verbesserung von AI-Fähigkeiten genutzt werden könnte
Am Ende, so die Kritik, habe OpenAI auf indirektem Weg Aufgaben von Personen erhalten, die dies nicht wollten, und damit Modelle validiert oder weiterentwickelt
Diese mangelnde Transparenz weckt Bedenken im Hinblick auf AI-Sicherheit und Forschungsethik

Kommentar von meemi, einem AI Safety Researcher

FrontierMath wurde von OpenAI finanziert
Kritisiert wird, dass dieser Umstand vor dem 20. Dezember nicht nach außen transparent offengelegt wurde
Hintergrund ist, dass die frühen auf arXiv veröffentlichten Versionen (v1–v4) keinen Hinweis auf die Unterstützung durch OpenAI enthielten und dies erst in einer nach dem 20. Dezember veröffentlichten Version erwähnt wurde
Es ist nicht klar bekannt, welche Vereinbarung Epoch AI mit OpenAI getroffen hatte, doch es wird vermutet, dass die Finanzierung bis zum Zeitpunkt der o3-Ankündigung am 20. Dezember vertraulich bleiben sollte
Es wird erwähnt, dass den Mathematikern, die an der Erstellung der Aufgaben beteiligt waren, die Finanzierung durch OpenAI nicht aktiv mitgeteilt wurde
Vertraglich eingebundene Mitwirkende unterlagen einer NDA, und die Sicherheit wurde streng gehandhabt, etwa indem das Teilen von Aufgaben und Lösungen per E-Mail oder Overleaf untersagt war
Kritisiert wird jedoch, dass diesen Personen weder die Finanzierung durch OpenAI noch mögliche Formen der Datennutzung klar vermittelt wurden
Es wird behauptet, dass selbst einige Autoren möglicherweise nicht wussten, dass OpenAI die Finanzierung übernahm
Die meisten Beteiligten und vertraglich eingebundenen Mitwirkenden gingen offenbar davon aus: „Die Aufgaben und Antworten dieses Benchmarks bleiben vollständig nicht öffentlich, und nur Epoch nutzt sie“
Derzeit legen weder Epoch AI noch OpenAI öffentlich offen, dass OpenAI Zugang zu Aufgaben oder Lösungen hat; zugleich kursieren Gerüchte, dass OpenAI sie tatsächlich nutzt
Es wird angemerkt, dass unklar ist, ob es eine ausdrückliche Vereinbarung gibt, die eine Nutzung dieses Datensatzes zu Trainingszwecken untersagt
Daraus ergibt sich die kritische Sicht, dass Finanzierung und potenzielle Datennutzung klar hätten offengelegt und den vertraglich eingebundenen Aufgabenerstellern ausreichend Informationen hätten gegeben werden müssen

Kommentar von Tamay von Epoch AI

Tamay von Epoch AI räumt die Transparenzprobleme direkt ein
- Es gab eine vertragliche Bedingung, nach der die Beteiligung von OpenAI bis vor dem Start von o3 nicht offengelegt werden durfte
- Danach wurde eingeräumt, dass es an Transparenz fehlte, und gesagt, dass die Mitwirkenden früher hätten informiert werden sollen
- Eigenes Fehlverhalten wurde hinsichtlich der Punkte eingeräumt, bei denen Finanzierungsquelle und Datenzugriffsrechte nicht ausdrücklich mitgeteilt werden konnten
Zusage, die Transparenz bei künftigen Kooperationen zu verbessern
- Künftig wolle man sich bemühen, dass Mitwirkende von Anfang an Finanzierungsquelle, Datenzugang und Nutzungsabsicht klar kennen
- Gegenüber einigen Mathematikern sei erwähnt worden, dass die Finanzierung aus einem Forschungslabor komme, dies sei aber nicht systematisch kommuniziert worden
- Problematisch sei gewesen, dass der Name des konkreten Forschungslabors, also OpenAI, nicht genannt wurde
- Man hätte stärker darauf drängen sollen, diese Kooperationsbeziehung von Beginn an offenzulegen
Das Problem der eingeschränkten Offenlegung bis zum o3-Start
- Aufgrund vertraglicher Pflichten konnte die Partnerschaft mit OpenAI bis ungefähr zum o3-Launch nicht bekannt gemacht werden
- Die Mathematiker, die die Aufgaben erstellten, hatten ein Recht darauf zu wissen, an wen ihre Arbeit weitergegeben werden konnte
- Es wurde selbstkritisch eingeräumt, dass dies den Mitwirkenden wegen des Vertrags nicht richtig erklärt werden konnte
Datenzugang und mögliche Nutzung fürs Training
- OpenAI kann auf einen erheblichen Teil der FrontierMath-Aufgaben und -Lösungen zugreifen
- Zugleich heißt es, es gebe eine mündliche Vereinbarung, sie nicht für Trainingszwecke zu verwenden
- OpenAI-Mitarbeiter bezeichneten FrontierMath öffentlich als ein „strongly held out set“
- Zusätzlich existiert ein separates Holdout-Set für unabhängige Validierung, auf das OpenAI keinen Zugriff hat
- Damit soll übermäßiges Modelltraining oder Overfitting verhindert und eine objektive Leistungsmessung erhalten werden
Der ursprüngliche Zweck von FrontierMath
- FrontierMath wurde von Anfang an als Projekt für Evaluierungszwecke geplant und veröffentlicht
- Auch OpenAI habe die Entscheidung unterstützt, ein tatsächliches Test-Set beizubehalten
- Es wird betont, dass sowohl Wissenschaft als auch Forschungslabore echte, nicht kontaminierte, also nicht im Training verwendete Test-Sets benötigen
[Korrektur] Umfang des Datenzugriffs von OpenAI
- Um Missverständnisse zu reduzieren, wird ausdrücklich klargestellt, dass OpenAI letztlich keinen Zugriff auf das separate Holdout-Set für unabhängige Validierung hat

1 Kommentare

GN⁺ 2025-01-20

Hacker-News-Kommentare

Es wird darauf hingewiesen, dass mündliche Vereinbarungen oft gebrochen werden können, obwohl versprochen wurde, dass sie nicht für das Modelltraining verwendet würden
- Es wird skeptisch gesehen, dass OpenAI Zugriff auf Benchmark-Daten hatte, aber nur mündlich vereinbart wurde, sie nicht für das Training zu verwenden
Ein Mitgründer von Epoch räumte ein, dass OpenAI Zugriff auf FrontierMath-Probleme und -Lösungen hatte, erwähnte jedoch, dass mündlich vereinbart worden sei, sie nicht für das Training zu verwenden
- Die Verlässlichkeit mündlicher Vereinbarungen wird infrage gestellt, und es wird darauf hingewiesen, dass es viele Wege gibt, wie OpenAI technisch die Vereinbarung einhalten und dennoch einen unlauteren Vorteil beim Benchmark erhalten könnte
Kritik an Menschen, die OpenAIs Marketing ungeprüft glauben
- Als Beispiel wird angeführt, dass bei der Sora-Demo nicht erwähnt wurde, dass sie manuelle Nachbearbeitung enthielt
Tamay von Epoch AI räumte ein, dass man hinsichtlich der Beteiligung von OpenAI nicht transparenter gewesen sei
- Die vertraglichen Vorgaben hätten die Offenlegung eingeschränkt, und man bedaure, nicht härter verhandelt zu haben, um Benchmark-Mitwirkenden früher Transparenz zu bieten
Es wird erwähnt, dass OpenAIs Benchmark-Ergebnisse an Vertrauen verloren hätten und andere AI-Unternehmen die Chance gehabt hätten, bei FrontierMath wichtige Ergebnisse zu erzielen
Es wird argumentiert, dass man, um zu überprüfen, ob LLMs oder AI tatsächlich intelligent sind, nachweisen müsse, dass die Fragen nicht im Trainingssatz enthalten waren
- Wenn man nicht weiß, ob Fragen oder Antworten im Trainingssatz enthalten waren, solle man nicht behaupten, dass die AI intelligent sei
Es wird darauf hingewiesen, dass selbst ohne absichtliches Betrügen bei Benchmarks Overfitting oder p-Hacking auftreten kann, wenn derselbe Test wiederholt verwendet wird
- Kleine Veränderungen könnten schwer als echte Verbesserung oder als Rauschen zu beurteilen sein, und Forschende könnten glauben, eine Optimierung gefunden zu haben, die in Wirklichkeit auf Rauschen basiert
Es wird Unmut darüber geäußert, dass OpenAI die Öffentlichkeit in die Irre führt
- Es wird erwähnt, dass das Verhalten des CEO dem Ruf von FrontierMath und Epoch AI schaden werde
Es wird betont, dass AI-Unternehmen mit hoher Wahrscheinlichkeit ihre eigenen Evaluierungen aufbauen werden, dass öffentliche Benchmarks ausgeschöpft sind und dass mehr in Frontier-Benchmarks investiert werden muss
Es wird behauptet, dass die von AI-Unternehmen präsentierten Evaluationsergebnisse nicht vertrauenswürdig sind

Das von OpenAI unterstützte FrontierMath-Projekt

Überblick über den Vorfall

Weitere Details

Warum das noch aus anderen Gründen problematisch ist

Ein Datensatz, der Fähigkeiten auch ohne explizites Training steigern kann

Bedenken zur AI-Sicherheit

Kommentar von meemi, einem AI Safety Researcher

Kommentar von Tamay von Epoch AI

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare