Notizen zu OpenAIs o1, einem Chain-of-Thought-Modell
(simonwillison.net)- OpenAI hat die neuen Preview-Modelle o1-preview und o1-mini veröffentlicht (mini ist keine Preview), zuvor unter dem Codenamen „strawberry“ bekannt
Mit der Chain-of-Thought-Methode trainiert
- OpenAI erklärt, dass diese Modelle so konzipiert wurden, vor einer Antwort mehr Zeit zum „Nachdenken“ aufzuwenden
- Diese neuen Modelle können als spezialisierte Erweiterung des Prompting-Musters „Schritt für Schritt denken“ betrachtet werden
- In OpenAIs Artikel „Learning to Reason with LLMs“ wird erklärt, dass die neuen Modelle durch Reinforcement Learning lernen, ihre Gedankenkette zu verbessern und Strategien zu verfeinern
- Das bedeutet, dass das Modell komplexe Prompts besser verarbeiten kann, die Backtracking und mehr „Denken“ als bloße Next-Token-Vorhersage erfordern
Low-Level-Details der API-Dokumentation
- Für Bildinput, Function Calling und Anwendungen, die konsistent schnelle Antwortzeiten benötigen, bleiben GPT-4o und GPT-4o mini weiterhin geeignete Optionen
- Wenn du Anwendungen entwickelst, die tiefes Reasoning erfordern und längere Antwortzeiten tolerieren können, kann das o1-Modell eine ausgezeichnete Wahl sein
- Der API-Zugang zu den neuen Modellen
o1-previewundo1-miniist derzeit auf Konten der Stufe 5 beschränkt - Keine Unterstützung für System Prompts – das Modell verwendet zwar die bestehende Chat Completions API, aber es können nur
user- undassistant-Nachrichten gesendet werden - Ebenfalls keine Unterstützung für Streaming, Tool-Nutzung, Batch-Aufrufe oder Bildinput
- Die Verarbeitung einer Anfrage kann je nach benötigtem Reasoning-Aufwand von einigen Sekunden bis zu mehreren Minuten dauern
Versteckte Reasoning-Tokens
- Es werden „Reasoning-Tokens“ eingeführt, die in API-Antworten nicht sichtbar sind, aber dennoch abgerechnet und als Output-Tokens gezählt werden
- Für Prompts, die mit den neuen Modellen gut funktionieren, empfiehlt OpenAI, für diese Tokens ein Budget von etwa 25.000 einzuplanen
- Das erlaubte Kontingent an Output-Tokens steigt deutlich auf 32.768 bei
o1-previewund 65.536 beio1-mini - Letzter Tipp aus der API-Dokumentation: Bei Retrieval-Augmented Generation (RAG) sollte bei zusätzlichem Kontext nur die relevanteste Information enthalten sein, damit das Modell die Antwort nicht unnötig verkompliziert
Versteckte Reasoning-Tokens
- Reasoning-Tokens sind in der API nicht sichtbar – sie werden abgerechnet, aber man kann nicht sehen, was sie tatsächlich sind
- OpenAI nennt dafür zwei Hauptgründe:
- Sicherheit und Policy-Compliance – um Fälle zu vermeiden, in denen Zwischenschritte Informationen enthalten könnten, die gegen Richtlinien verstoßen
- Wettbewerbsvorteil – um zu verhindern, dass andere Modelle aus der von OpenAI investierten Reasoning-Arbeit lernen
- Diese Policy-Entscheidung stößt auf Unzufriedenheit – Interpretierbarkeit und Transparenz sind wichtig, und dass zentrale Details der Prompt-Auswertung verborgen werden, wirkt wie ein Rückschritt
Beispiele
- OpenAI nennt als frühe Beispiele die Erzeugung von Bash-Skripten, das Lösen von Kreuzworträtseln und die Berechnung des pH-Werts chemischer Lösungen
- Diese Beispiele zeigen, dass die Modellversion in der ChatGPT-UI Details zur Gedankenkette offenlegt, aber nicht die rohen Reasoning-Tokens
- OpenAI hat außerdem zwei neue Cookbooks, die zeigen, wie Reasoning für Datenvalidierung und Routinen-Erstellung genutzt werden kann
- Auf Twitter wird nach Prompt-Beispielen gefragt, die bei GPT-4o scheitern, aber mit
o1-previewfunktionieren-
"How many words are in your response to this prompt?" "There are seven words in this sentence."
-
Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
-
- OpenAI-Forscher Jason Wei merkt an, dass die Ergebnisse bei AIME und GPQA zwar sehr gut sind, sich aber nicht unbedingt in etwas übersetzen, das Nutzer unmittelbar spüren
Was daran neu ist
- Es wird einige Zeit dauern, bis die Community Best Practices dafür herausarbeitet, wann und wo diese Modelle eingesetzt werden sollten
- Ich erwarte, dass ich weiterhin hauptsächlich GPT-4o (und Claude 3.5 Sonnet) verwenden werde, aber es ist wirklich spannend zu sehen, wie diese neue Art von Modell unser gemeinsames Denkmodell darüber erweitert, welche Arten von Aufgaben sich mit LLMs lösen lassen
- Es ist zu erwarten, dass auch andere AI-Labore beginnen werden, einige dieser Ergebnisse mit eigenen Versionen von Modellen zu reproduzieren, die speziell für diesen Stil des Chain-of-Thought-Reasonings trainiert wurden
Meinung von GN⁺
- Mit der Chain-of-Thought-Methode trainierte Modelle könnten helfen, die Grenzen bisheriger Modelle beim Lösen komplexer Probleme zu überwinden. Insbesondere bei Aufgaben, die schrittweises Reasoning und Backtracking erfordern, sind Leistungsverbesserungen zu erwarten
- Dass die Reasoning-Tokens in der API verborgen werden, ist jedoch im Hinblick auf Interpretierbarkeit und Transparenz bedenklich. Für Nutzer könnte es schwieriger werden, den Reasoning-Prozess des Modells zu verstehen und zu überprüfen
- Derzeit ist noch nicht klar, für welche Aufgaben diese Modelle am besten geeignet sind und welche Vor- und Nachteile sie im Vergleich zu bestehenden Modellen haben. Es scheint ein Prozess nötig zu sein, in dem die Community verschiedene Anwendungsfälle und Best Practices herausarbeitet
- Andere AI-Unternehmen wie Anthropic mit Claude oder die Modelle von Cohere könnten ebenfalls ähnliche Chain-of-Thought-Trainingsmethoden einführen. Der Wettbewerb im Markt für Reasoning-Modelle dürfte dadurch noch intensiver werden
- Insgesamt ist OpenAIs Ankündigung bedeutsam, weil sie einen neuen Ansatz zur Verbesserung der Reasoning-Fähigkeiten von LLMs präsentiert. Es gibt jedoch auch einige bedenkliche Aspekte wie die versteckten Reasoning-Tokens, sodass künftig weitere Verbesserungen und Nachbesserungen nötig erscheinen
2 Kommentare
Da ist ein Tippfehler :)
„Chai-of-Thought-Methode“ → „Chain-of-Thought-Methode“
Hacker-News-Kommentar
Probleme des o1-preview-Modells
Zitat des OpenAI-Forschers Jason Wei
Versuch eines Rust-Code-Refactorings
enumzu entfernen und nur noch den DatentypU8zu verwendenZwei zentrale Faktoren
Schwierigkeiten bei der Bewertung komplexer Prompts
Qualitäts- und Kostenprobleme bei o1
Vergleich von GPT-4o und o1-preview
Schwierigkeiten beim Lösen grundlegender Mathematikaufgaben
Test mit einer Rechtsfrage
Probleme bei der Verarbeitung von Markdown-Inhalten