2 Punkte von GN⁺ 2025-01-20 | 1 Kommentare | Auf WhatsApp teilen
  • Kürzlich stellte OpenAI das neue Modell o3 vor und kündigte an, im Bereich Mathematik eine bahnbrechende Leistung erreicht zu haben
  • Besonders viel Aufmerksamkeit erhielt die Meldung, dass auf dem FrontierMath-Benchmark, auf dem frühere Modelle 2 % erreichten, nun 25 % erzielt wurden
  • Nach der Ankündigung wurde kritisiert, dass es im Zusammenhang mit der Entstehung dieses Benchmarks an Transparenz gefehlt habe
  • Daraus lassen sich Lehren für künftige AI-Benchmarks, Evaluierungen und Sicherheitsdebatten ziehen

Überblick über den Vorfall

  • Vor November 2024 begann Epoch AI mit dem Aufbau des Mathematik-Benchmarks FrontierMath
  • Externe Mathematiker wurden mit der Erstellung von Aufgaben beauftragt und mit etwa 300 bis 1000 Dollar vergütet
  • Damals war nicht klar erkennbar, wer die Finanzierung stellte und wer die Aufgaben und Lösungen einsehen konnte
  • Am 7. November 2024 veröffentlichte Epoch AI die erste Version des Papers auf arXiv, ohne die Finanzierungsquelle überhaupt zu erwähnen
  • Am 20. Dezember 2024 stellte OpenAI das Modell o3 vor und erklärte, auf FrontierMath 25 % erreicht zu haben
  • Am selben Tag wurde v5 des Epoch-AI-Papers auf arXiv aktualisiert; dort wurde offengelegt, dass OpenAI das Projekt vollständig finanziert hatte und Zugang zu den meisten schwierigen Aufgaben und Lösungen hatte

Weitere Details

  • Schon unmittelbar nach dem Dezember-Update gab es Bedenken zu diesem Thema, und zuletzt wurden weitere relevante Informationen bekannt
  • FrontierMath teilt den Schwierigkeitsgrad auf in (a) Olympiadeniveau (25 %), (b) mittlere Schwierigkeit (50 %) und (c) ein Niveau, für das selbst Experten mehrere Wochen benötigen (25 %)
  • Die Ankündigung, dass o3 25 % erreicht habe, kann missverständlich sein, weil nicht offengelegt wurde, welche Schwierigkeitsstufen hauptsächlich gelöst wurden
  • Es wird vermutet, dass OpenAI zwar Zugang zu allen Aufgaben und Lösungen hatte, diesen Datensatz aber gemäß einer mündlichen Vereinbarung nicht direkt für das Training verwendet hat
  • Gleichzeitig wird angemerkt, dass es für Außenstehende schwer ist, genau zu wissen, auf welche Weise ein Modell intern trainiert wird

Warum das noch aus anderen Gründen problematisch ist

  • Wer FrontierMath-Aufgaben besitzen oder darauf zugreifen kann, könnte dadurch indirekt zur Leistungssteigerung eines Modells beitragen
  • Insbesondere gibt es Bedenken, dass sich über unveröffentlichte, sehr schwierige Aufgaben Modellvalidierung oder Suchverfahren verfeinern lassen
  • Ob die Meldung über 25 % tatsächlich bedeutet, dass schwierige Aufgaben gelöst wurden, oder ob vor allem leichtere Aufgaben gemeint sind, bleibt unklar

Ein Datensatz, der Fähigkeiten auch ohne explizites Training steigern kann

  • Über die interne Struktur von o3 ist wenig bekannt, doch einige andere Arbeiten verfolgen einen „Scale at inference“-Ansatz
  • Vorgestellt wurde Forschung, die MCMC-basiertes Chain-of-thought-Scoring automatisch lernt oder Reward Models (PRM) an Zwischenschritte ansetzt, um die Suche zu verstärken
  • Schwierige Benchmarks wie FrontierMath können für die Validierung solcher Reward Models nützlich sein
  • Anders gesagt: Selbst wenn der Datensatz nicht direkt fürs Training genutzt wird, könnte er zum Tuning von Suchstrategien oder Validierungsmethoden verwendet werden
  • Wenn das Ziel eine unabhängige und faire Evaluierung ist, sollte man ihn idealerweise nur einmal zur Bewertung verwenden und nicht für andere Zwecke einsetzen

Bedenken zur AI-Sicherheit

  • Epoch AI ist als Organisation bekannt, die Entwicklungstrends von AI verfolgt und sich mit Sicherheitsfragen beschäftigt
  • Unter den Mathematikern, die Aufgaben für FrontierMath beigesteuert haben, könnte es Menschen geben, die nicht mitgewirkt hätten, wenn sie gewusst hätten, dass ihre Arbeit zur Verbesserung von AI-Fähigkeiten genutzt werden könnte
  • Am Ende, so die Kritik, habe OpenAI auf indirektem Weg Aufgaben von Personen erhalten, die dies nicht wollten, und damit Modelle validiert oder weiterentwickelt
  • Diese mangelnde Transparenz weckt Bedenken im Hinblick auf AI-Sicherheit und Forschungsethik

Kommentar von meemi, einem AI Safety Researcher

  • FrontierMath wurde von OpenAI finanziert
  • Kritisiert wird, dass dieser Umstand vor dem 20. Dezember nicht nach außen transparent offengelegt wurde
  • Hintergrund ist, dass die frühen auf arXiv veröffentlichten Versionen (v1–v4) keinen Hinweis auf die Unterstützung durch OpenAI enthielten und dies erst in einer nach dem 20. Dezember veröffentlichten Version erwähnt wurde
  • Es ist nicht klar bekannt, welche Vereinbarung Epoch AI mit OpenAI getroffen hatte, doch es wird vermutet, dass die Finanzierung bis zum Zeitpunkt der o3-Ankündigung am 20. Dezember vertraulich bleiben sollte
  • Es wird erwähnt, dass den Mathematikern, die an der Erstellung der Aufgaben beteiligt waren, die Finanzierung durch OpenAI nicht aktiv mitgeteilt wurde
  • Vertraglich eingebundene Mitwirkende unterlagen einer NDA, und die Sicherheit wurde streng gehandhabt, etwa indem das Teilen von Aufgaben und Lösungen per E-Mail oder Overleaf untersagt war
  • Kritisiert wird jedoch, dass diesen Personen weder die Finanzierung durch OpenAI noch mögliche Formen der Datennutzung klar vermittelt wurden
  • Es wird behauptet, dass selbst einige Autoren möglicherweise nicht wussten, dass OpenAI die Finanzierung übernahm
  • Die meisten Beteiligten und vertraglich eingebundenen Mitwirkenden gingen offenbar davon aus: „Die Aufgaben und Antworten dieses Benchmarks bleiben vollständig nicht öffentlich, und nur Epoch nutzt sie“
  • Derzeit legen weder Epoch AI noch OpenAI öffentlich offen, dass OpenAI Zugang zu Aufgaben oder Lösungen hat; zugleich kursieren Gerüchte, dass OpenAI sie tatsächlich nutzt
  • Es wird angemerkt, dass unklar ist, ob es eine ausdrückliche Vereinbarung gibt, die eine Nutzung dieses Datensatzes zu Trainingszwecken untersagt
  • Daraus ergibt sich die kritische Sicht, dass Finanzierung und potenzielle Datennutzung klar hätten offengelegt und den vertraglich eingebundenen Aufgabenerstellern ausreichend Informationen hätten gegeben werden müssen

Kommentar von Tamay von Epoch AI

  • Tamay von Epoch AI räumt die Transparenzprobleme direkt ein
    • Es gab eine vertragliche Bedingung, nach der die Beteiligung von OpenAI bis vor dem Start von o3 nicht offengelegt werden durfte
    • Danach wurde eingeräumt, dass es an Transparenz fehlte, und gesagt, dass die Mitwirkenden früher hätten informiert werden sollen
    • Eigenes Fehlverhalten wurde hinsichtlich der Punkte eingeräumt, bei denen Finanzierungsquelle und Datenzugriffsrechte nicht ausdrücklich mitgeteilt werden konnten
  • Zusage, die Transparenz bei künftigen Kooperationen zu verbessern
    • Künftig wolle man sich bemühen, dass Mitwirkende von Anfang an Finanzierungsquelle, Datenzugang und Nutzungsabsicht klar kennen
    • Gegenüber einigen Mathematikern sei erwähnt worden, dass die Finanzierung aus einem Forschungslabor komme, dies sei aber nicht systematisch kommuniziert worden
    • Problematisch sei gewesen, dass der Name des konkreten Forschungslabors, also OpenAI, nicht genannt wurde
    • Man hätte stärker darauf drängen sollen, diese Kooperationsbeziehung von Beginn an offenzulegen
  • Das Problem der eingeschränkten Offenlegung bis zum o3-Start
    • Aufgrund vertraglicher Pflichten konnte die Partnerschaft mit OpenAI bis ungefähr zum o3-Launch nicht bekannt gemacht werden
    • Die Mathematiker, die die Aufgaben erstellten, hatten ein Recht darauf zu wissen, an wen ihre Arbeit weitergegeben werden konnte
    • Es wurde selbstkritisch eingeräumt, dass dies den Mitwirkenden wegen des Vertrags nicht richtig erklärt werden konnte
  • Datenzugang und mögliche Nutzung fürs Training
    • OpenAI kann auf einen erheblichen Teil der FrontierMath-Aufgaben und -Lösungen zugreifen
    • Zugleich heißt es, es gebe eine mündliche Vereinbarung, sie nicht für Trainingszwecke zu verwenden
    • OpenAI-Mitarbeiter bezeichneten FrontierMath öffentlich als ein „strongly held out set“
    • Zusätzlich existiert ein separates Holdout-Set für unabhängige Validierung, auf das OpenAI keinen Zugriff hat
    • Damit soll übermäßiges Modelltraining oder Overfitting verhindert und eine objektive Leistungsmessung erhalten werden
  • Der ursprüngliche Zweck von FrontierMath
    • FrontierMath wurde von Anfang an als Projekt für Evaluierungszwecke geplant und veröffentlicht
    • Auch OpenAI habe die Entscheidung unterstützt, ein tatsächliches Test-Set beizubehalten
    • Es wird betont, dass sowohl Wissenschaft als auch Forschungslabore echte, nicht kontaminierte, also nicht im Training verwendete Test-Sets benötigen
  • [Korrektur] Umfang des Datenzugriffs von OpenAI
    • Um Missverständnisse zu reduzieren, wird ausdrücklich klargestellt, dass OpenAI letztlich keinen Zugriff auf das separate Holdout-Set für unabhängige Validierung hat

1 Kommentare

 
GN⁺ 2025-01-20
Hacker-News-Kommentare
  • Es wird darauf hingewiesen, dass mündliche Vereinbarungen oft gebrochen werden können, obwohl versprochen wurde, dass sie nicht für das Modelltraining verwendet würden

    • Es wird skeptisch gesehen, dass OpenAI Zugriff auf Benchmark-Daten hatte, aber nur mündlich vereinbart wurde, sie nicht für das Training zu verwenden
  • Ein Mitgründer von Epoch räumte ein, dass OpenAI Zugriff auf FrontierMath-Probleme und -Lösungen hatte, erwähnte jedoch, dass mündlich vereinbart worden sei, sie nicht für das Training zu verwenden

    • Die Verlässlichkeit mündlicher Vereinbarungen wird infrage gestellt, und es wird darauf hingewiesen, dass es viele Wege gibt, wie OpenAI technisch die Vereinbarung einhalten und dennoch einen unlauteren Vorteil beim Benchmark erhalten könnte
  • Kritik an Menschen, die OpenAIs Marketing ungeprüft glauben

    • Als Beispiel wird angeführt, dass bei der Sora-Demo nicht erwähnt wurde, dass sie manuelle Nachbearbeitung enthielt
  • Tamay von Epoch AI räumte ein, dass man hinsichtlich der Beteiligung von OpenAI nicht transparenter gewesen sei

    • Die vertraglichen Vorgaben hätten die Offenlegung eingeschränkt, und man bedaure, nicht härter verhandelt zu haben, um Benchmark-Mitwirkenden früher Transparenz zu bieten
  • Es wird erwähnt, dass OpenAIs Benchmark-Ergebnisse an Vertrauen verloren hätten und andere AI-Unternehmen die Chance gehabt hätten, bei FrontierMath wichtige Ergebnisse zu erzielen

  • Es wird argumentiert, dass man, um zu überprüfen, ob LLMs oder AI tatsächlich intelligent sind, nachweisen müsse, dass die Fragen nicht im Trainingssatz enthalten waren

    • Wenn man nicht weiß, ob Fragen oder Antworten im Trainingssatz enthalten waren, solle man nicht behaupten, dass die AI intelligent sei
  • Es wird darauf hingewiesen, dass selbst ohne absichtliches Betrügen bei Benchmarks Overfitting oder p-Hacking auftreten kann, wenn derselbe Test wiederholt verwendet wird

    • Kleine Veränderungen könnten schwer als echte Verbesserung oder als Rauschen zu beurteilen sein, und Forschende könnten glauben, eine Optimierung gefunden zu haben, die in Wirklichkeit auf Rauschen basiert
  • Es wird Unmut darüber geäußert, dass OpenAI die Öffentlichkeit in die Irre führt

    • Es wird erwähnt, dass das Verhalten des CEO dem Ruf von FrontierMath und Epoch AI schaden werde
  • Es wird betont, dass AI-Unternehmen mit hoher Wahrscheinlichkeit ihre eigenen Evaluierungen aufbauen werden, dass öffentliche Benchmarks ausgeschöpft sind und dass mehr in Frontier-Benchmarks investiert werden muss

  • Es wird behauptet, dass die von AI-Unternehmen präsentierten Evaluationsergebnisse nicht vertrauenswürdig sind