3 Punkte von GN⁺ 2024-09-13 | 1 Kommentare | Auf WhatsApp teilen
  • Vorstellung von OpenAI o1, einem neuen großen Sprachmodell, das mit Reinforcement Learning darauf trainiert wurde, komplexe Schlussfolgerungen durchzuführen
  • o1 kann vor der Antwort an den Nutzer eine lange interne Gedankenkette (chain of thought) erzeugen
  • o1 erreicht das 89. Perzentil bei Wettbewerbsprogrammierungsaufgaben (Codeforces), das Niveau eines der besten 500 US-Schüler in der Qualifikation zur American Invitational Mathematics Examination (AIME) und übertrifft bei den Benchmarks für Physik-, Biologie- und Chemiefragen (GPQA) die Genauigkeit von menschlichen Promovierten
  • Zwar wird noch daran gearbeitet, das Modell so einfach nutzbar zu machen wie die aktuellen Modelle, aber eine frühe Version dieses Modells, OpenAI o1-preview, wird sofort in ChatGPT und für vertrauenswürdige API-Nutzer verfügbar gemacht

Bewertung

  • Gegenüber GPT-4o zeigt o1 bei den meisten schlussfolgerungszentrierten Aufgaben eine deutlich bessere Leistung
    • In der AIME-Prüfung 2024 löste GPT-4o im Durchschnitt nur 12 % der Aufgaben (1,8/15), während o1 mit einer einzelnen Stichprobe im Schnitt 74 % (11,1/15), mit Konsens über 64 Stichproben 83 % (12,5/15) und mit einer Neusortierung von 1000 Stichproben anhand einer trainierten Bewertungsfunktion 93 % (13,9/15) erreichte
    • Bei GPQA Diamond übertraf o1 die Leistung menschlicher Experten, die Fachwissen in Chemie, Physik und Biologie testen, und ist damit das erste Modell, dem dies in diesem Benchmark gelingt
    • Mit aktivierter visueller Wahrnehmung erreichte o1 78,2 % bei MMMU und ist damit das erste Modell, das mit menschlichen Experten konkurrieren kann
    • In 54 von 57 MMLU-Unterkategorien zeigte o1 bessere Leistungen als GPT-4o

Gedankenkette (chain of thought)

  • So wie Menschen bei schwierigen Fragen lange nachdenken können, bevor sie antworten, nutzt o1 eine Gedankenkette, wenn es versucht, Probleme zu lösen
  • Durch Reinforcement Learning hat o1 gelernt, seine Gedankenkette zu verfeinern und die Strategien zu ihrer Nutzung zu verbessern
    • Es lernt, Fehler zu erkennen und zu korrigieren
    • Es lernt, knifflige Schritte in einfachere Schritte zu zerlegen
    • Es lernt, andere Ansätze auszuprobieren, wenn der aktuelle Ansatz nicht funktioniert

Coding

  • Durch zusätzliches Training zur weiteren Verbesserung der Programmierfähigkeiten wurde ein Modell trainiert, das bei der Internationalen Informatik-Olympiade 2024 (IOI) 213 Punkte erzielte und im 49. Perzentil rangierte
    • Dieses Modell nahm unter denselben Bedingungen wie menschliche Teilnehmer an der IOI 2024 teil
    • Es erhielt 10 Stunden Zeit, um 6 anspruchsvolle algorithmische Probleme zu lösen, und pro Problem waren 50 Einreichungen erlaubt
  • Wenn 10.000 Einreichungen erlaubt sind, verbessert sich die Modellleistung erheblich
    • Auch ohne eine Testzeit-Auswahlstrategie wurden 362,14 Punkte erreicht, womit die Goldmedaillenschwelle überschritten wurde
  • Zur Bestätigung der Coding-Fähigkeiten dieses Modells wurden von Codeforces ausgerichtete Wettbewerbsprogrammierturniere simuliert
    • GPT-4o erreichte ein ELO-Rating von 808, was dem 11. Perzentil menschlicher Wettbewerber entspricht
    • Dieses Modell übertraf GPT-4o und o1 deutlich, erreichte ein ELO-Rating von 1807 und zeigte eine bessere Leistung als 93 % der Wettbewerber

Sicherheit

  • Schlussfolgerung per Gedankenkette eröffnet neue Möglichkeiten für Alignment und Sicherheit
    • Es wurde festgestellt, dass die Integration von Richtlinien für das Modellverhalten in die Gedankenkette des Schlussfolgerungsmodells eine wirksame Methode ist, menschliche Werte und Prinzipien robust zu vermitteln
    • Es wurden Hinweise gefunden, dass Schlussfolgerungsfähigkeit der Robustheit des Modells direkt zugutekommt, indem dem Modell beigebracht wird, über Sicherheitsregeln und kontextabhängig zu schlussfolgern
  • Es wird angenommen, dass die Nutzung von Gedankenkette einen erheblichen Fortschritt bei Sicherheit und Alignment bringt, da beobachtet werden kann, wie das Modell auf legitime Weise denkt, und weil das Schlussfolgern über Sicherheitsregeln in Out-of-Distribution-Szenarien robuster ist
  • Vor der Bereitstellung wurden Sicherheitstests und Red-Teaming durchgeführt, um die Verbesserungen hervorzuheben
    • Es zeigte sich, dass Schlussfolgerung per Gedankenkette in allen Bewertungen zur Leistungssteigerung beigetragen hat

Fazit

  • o1 bringt den Stand der Technik beim KI-Schlussfolgern deutlich voran
  • Es ist geplant, im Zuge weiterer Iterationen verbesserte Versionen dieses Modells zu veröffentlichen
  • Es wird erwartet, dass o1 und seine Nachfolgemodelle viele neue Anwendungsfälle für KI in Wissenschaft, Coding, Mathematik und verwandten Bereichen eröffnen
  • Man freut sich darauf, dass Nutzer und API-Entwickler entdecken, wie o1 ihre tägliche Arbeit verbessern kann

Meinung von GN⁺

  • OpenAI o1 ist ein Modell mit herausragender Fähigkeit zur Lösung komplexer Probleme und zum Schlussfolgern und zeigt Leistungen, die über das menschliche Niveau hinausgehen. Besonders in Mathematik, Wissenschaft und Programmierung verfügt es über Fachkompetenz auf Expertenniveau und dürfte Forschung und Anwendungen in diesen Bereichen stark voranbringen
  • Eindrucksvoll ist, dass durch den Ansatz der Gedankenkette (Chain of Thought) der Denkprozess des Modells beobachtet und verstanden werden kann. Das dürfte sehr dabei helfen, das Verhalten des Modells zu verstehen und zu steuern. Allerdings ist es umstritten, dass entschieden wurde, den erzeugten Denkprozess den Nutzern nicht unverändert offenzulegen
  • Bemerkenswert ist auch die Integration von Richtlinienregeln in den Denkprozess zur Verbesserung der Modellsicherheit. Sie wirkt jedoch noch nicht vollkommen, weshalb kontinuierliches Monitoring und weitere Verbesserungen nötig scheinen
  • o1 ist ein sehr leistungsfähiges Modell, aber nicht makellos. Einschränkungen wie Verzerrungen oder ethische Fragen, die KI-Modelle allgemein betreffen, bestehen weiterhin. Neben dem technischen Fortschritt sind fortlaufende Anstrengungen nötig, um diese Grenzen zu überwinden

1 Kommentare

 
GN⁺ 2024-09-13
Hacker-News-Kommentare
  • Erster Kommentar

    • Zusammenfassung der praktischen Informationen aus der Dokumentation
      • Für den Zugriff muss man sich auf Stufe 5 befinden, insgesamt 1.000 $ bezahlt haben und seit der ersten erfolgreichen Zahlung müssen mehr als 30 Tage vergangen sein
      • Der Preis beträgt 15 $ pro 1 Million Eingabe-Token und 60 $ pro 1 Million Ausgabe-Token
      • Das Kontextfenster beträgt 128k Token, die maximale Ausgabe 32.768 Token
      • Es gibt auch eine Mini-Version mit doppelt so vielen maximalen Ausgabe-Token; der Preis beträgt 3 $ pro 1 Million Eingabe-Token und 12 $ pro 1 Million Ausgabe-Token
      • Die im Blogbeitrag erwähnte spezialisierte Coding-Version ist nicht verfügbar
      • Es ist unklar, ob verborgenes Chain-of-Thought-Reasoning als kostenpflichtige Ausgabe-Token abgerechnet wird
  • Zweiter Kommentar

    • Ich bin skeptisch, weil die ersten beiden Genauigkeitsdiagramme keine konkreten Beschriftungen haben
      • Es ist nicht ersichtlich, wie lange das Testergebnis von 80 % Genauigkeit gedauert hat
      • Es ist unklar, ob die Grafiken am Anfang des Artikels mit der 10-stündigen Problemlösung im Coding-Abschnitt zusammenhängen
      • Es gibt viele Daten, aber die Daten in den ersten beiden Grafiken sind intransparent, daher wirkt das wenig vertrauenswürdig
  • Dritter Kommentar

    • Das Beispiel zur „Sicherheit“ ist absurd
      • OpenAI sagt, es sei inakzeptabel, dass ein LLM detaillierte Anweisungen zur Synthese von Strychnin liefert, veröffentlicht aber zugleich zuvor generierte „unsichere“ Anweisungen
      • Eine übertriebene Sicherheitsfixierung in Bezug darauf, dass LLMs Wissen teilen
  • Vierter Kommentar

    • Die Modellleistung wird vom Chain of Thought bestimmt, aber aus Gründen wie Wettbewerbsvorteilen nicht an Nutzer weitergegeben
      • Seit dem Release von GPT-4 ist es üblich geworden, nicht von OpenAI stammende Modelle anhand von GPT-4-Ausgaben feinzujustieren
      • Der Grund, warum OpenAI keine Chain-of-Thought-Antworten bereitstellt, ist, die Reproduktion der Ergebnisse zu erschweren
  • Fünfter Kommentar

    • Ich habe das GPT-4-Modell genutzt, um beim Reverse Engineering des binären Bluetooth-Protokolls einer Küchenpfanne zu helfen
      • Die Modelle o1-preview und o1-mini verstanden die Muster und dekodierten sie
      • Das Modell GPT4o lieferte dieselben Ergebnisse wie zuvor
      • Erstaunlicher Fortschritt
  • Sechster Kommentar

    • Viele Kommentare scheinen den Unterschied zwischen Chain-of-Thought-Prompting und dem Erlernen von Chain-of-Thought-Strategien durch Reinforcement Learning nicht zu verstehen
      • Durch Reinforcement Learning verfeinert o1 seinen Chain of Thought und verbessert seine Strategien
  • Siebter Kommentar

    • Es ist interessant, den Chain of Thought im Cipher-Beispiel zu lesen
      • Logik langsam aufzuschreiben und darauf aufbauend zu schlussfolgern verbessert das logische Denken
  • Achter Kommentar

    • o1 funktioniert gut dabei, ein Untertitelproblem in einer niederländischen TV-Show zu verstehen
      • Auf die Frage, warum das Umlaut-u in den Untertiteln als 1/4 angezeigt wird, erklärte es den Encoding-Fehler korrekt
  • Neunter Kommentar

    • Beim Entschlüsseln eines ROT-Geheimtexts bekam ich enttäuschende Ergebnisse
      • Viele Schritte waren falsch oder wurden nicht befolgt
      • Es ist schwer, ein Muster zu finden, mit dem sich aus einer Chain-of-Thought-Engine Nutzen ziehen lässt
  • Zehnter Kommentar

    • Die technische Leistung ist groß, aber ich mache mir Sorgen um den Nutzen des Werkzeugs, weil LLMs weiterhin anfällig für Halluzinationen sind
      • Es besteht das Risiko, dass nicht fachkundige Nutzer sich auf falsche Antworten verlassen
      • Zum Beispiel lieferte es bei der Bewertung eines Algorithmus zur Optimierung der Reihenfolge von Datenbank-Joins falsche Informationen