Notizen zu OpenAIs o1, einem Chain-of-Thought-Modell

(simonwillison.net)

6 Punkte von GN⁺ 2024-09-14 | 2 Kommentare | Auf WhatsApp teilen

OpenAI hat die neuen Preview-Modelle o1-preview und o1-mini veröffentlicht (mini ist keine Preview), zuvor unter dem Codenamen „strawberry“ bekannt

Mit der Chain-of-Thought-Methode trainiert

OpenAI erklärt, dass diese Modelle so konzipiert wurden, vor einer Antwort mehr Zeit zum „Nachdenken“ aufzuwenden
Diese neuen Modelle können als spezialisierte Erweiterung des Prompting-Musters „Schritt für Schritt denken“ betrachtet werden
In OpenAIs Artikel „Learning to Reason with LLMs“ wird erklärt, dass die neuen Modelle durch Reinforcement Learning lernen, ihre Gedankenkette zu verbessern und Strategien zu verfeinern
Das bedeutet, dass das Modell komplexe Prompts besser verarbeiten kann, die Backtracking und mehr „Denken“ als bloße Next-Token-Vorhersage erfordern

Low-Level-Details der API-Dokumentation

Für Bildinput, Function Calling und Anwendungen, die konsistent schnelle Antwortzeiten benötigen, bleiben GPT-4o und GPT-4o mini weiterhin geeignete Optionen
Wenn du Anwendungen entwickelst, die tiefes Reasoning erfordern und längere Antwortzeiten tolerieren können, kann das o1-Modell eine ausgezeichnete Wahl sein
Der API-Zugang zu den neuen Modellen o1-preview und o1-mini ist derzeit auf Konten der Stufe 5 beschränkt
Keine Unterstützung für System Prompts – das Modell verwendet zwar die bestehende Chat Completions API, aber es können nur user- und assistant-Nachrichten gesendet werden
Ebenfalls keine Unterstützung für Streaming, Tool-Nutzung, Batch-Aufrufe oder Bildinput
Die Verarbeitung einer Anfrage kann je nach benötigtem Reasoning-Aufwand von einigen Sekunden bis zu mehreren Minuten dauern

Versteckte Reasoning-Tokens

Es werden „Reasoning-Tokens“ eingeführt, die in API-Antworten nicht sichtbar sind, aber dennoch abgerechnet und als Output-Tokens gezählt werden
Für Prompts, die mit den neuen Modellen gut funktionieren, empfiehlt OpenAI, für diese Tokens ein Budget von etwa 25.000 einzuplanen
Das erlaubte Kontingent an Output-Tokens steigt deutlich auf 32.768 bei o1-preview und 65.536 bei o1-mini
Letzter Tipp aus der API-Dokumentation: Bei Retrieval-Augmented Generation (RAG) sollte bei zusätzlichem Kontext nur die relevanteste Information enthalten sein, damit das Modell die Antwort nicht unnötig verkompliziert

Versteckte Reasoning-Tokens

Reasoning-Tokens sind in der API nicht sichtbar – sie werden abgerechnet, aber man kann nicht sehen, was sie tatsächlich sind
OpenAI nennt dafür zwei Hauptgründe:
1. Sicherheit und Policy-Compliance – um Fälle zu vermeiden, in denen Zwischenschritte Informationen enthalten könnten, die gegen Richtlinien verstoßen
2. Wettbewerbsvorteil – um zu verhindern, dass andere Modelle aus der von OpenAI investierten Reasoning-Arbeit lernen
Diese Policy-Entscheidung stößt auf Unzufriedenheit – Interpretierbarkeit und Transparenz sind wichtig, und dass zentrale Details der Prompt-Auswertung verborgen werden, wirkt wie ein Rückschritt

Beispiele

OpenAI nennt als frühe Beispiele die Erzeugung von Bash-Skripten, das Lösen von Kreuzworträtseln und die Berechnung des pH-Werts chemischer Lösungen
Diese Beispiele zeigen, dass die Modellversion in der ChatGPT-UI Details zur Gedankenkette offenlegt, aber nicht die rohen Reasoning-Tokens
OpenAI hat außerdem zwei neue Cookbooks, die zeigen, wie Reasoning für Datenvalidierung und Routinen-Erstellung genutzt werden kann
Auf Twitter wird nach Prompt-Beispielen gefragt, die bei GPT-4o scheitern, aber mit o1-preview funktionieren
- "How many words are in your response to this prompt?" "There are seven words in this sentence."
- Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
OpenAI-Forscher Jason Wei merkt an, dass die Ergebnisse bei AIME und GPQA zwar sehr gut sind, sich aber nicht unbedingt in etwas übersetzen, das Nutzer unmittelbar spüren

Was daran neu ist

Es wird einige Zeit dauern, bis die Community Best Practices dafür herausarbeitet, wann und wo diese Modelle eingesetzt werden sollten
Ich erwarte, dass ich weiterhin hauptsächlich GPT-4o (und Claude 3.5 Sonnet) verwenden werde, aber es ist wirklich spannend zu sehen, wie diese neue Art von Modell unser gemeinsames Denkmodell darüber erweitert, welche Arten von Aufgaben sich mit LLMs lösen lassen
Es ist zu erwarten, dass auch andere AI-Labore beginnen werden, einige dieser Ergebnisse mit eigenen Versionen von Modellen zu reproduzieren, die speziell für diesen Stil des Chain-of-Thought-Reasonings trainiert wurden

Meinung von GN⁺

Mit der Chain-of-Thought-Methode trainierte Modelle könnten helfen, die Grenzen bisheriger Modelle beim Lösen komplexer Probleme zu überwinden. Insbesondere bei Aufgaben, die schrittweises Reasoning und Backtracking erfordern, sind Leistungsverbesserungen zu erwarten
Dass die Reasoning-Tokens in der API verborgen werden, ist jedoch im Hinblick auf Interpretierbarkeit und Transparenz bedenklich. Für Nutzer könnte es schwieriger werden, den Reasoning-Prozess des Modells zu verstehen und zu überprüfen
Derzeit ist noch nicht klar, für welche Aufgaben diese Modelle am besten geeignet sind und welche Vor- und Nachteile sie im Vergleich zu bestehenden Modellen haben. Es scheint ein Prozess nötig zu sein, in dem die Community verschiedene Anwendungsfälle und Best Practices herausarbeitet
Andere AI-Unternehmen wie Anthropic mit Claude oder die Modelle von Cohere könnten ebenfalls ähnliche Chain-of-Thought-Trainingsmethoden einführen. Der Wettbewerb im Markt für Reasoning-Modelle dürfte dadurch noch intensiver werden
Insgesamt ist OpenAIs Ankündigung bedeutsam, weil sie einen neuen Ansatz zur Verbesserung der Reasoning-Fähigkeiten von LLMs präsentiert. Es gibt jedoch auch einige bedenkliche Aspekte wie die versteckten Reasoning-Tokens, sodass künftig weitere Verbesserungen und Nachbesserungen nötig erscheinen

2 Kommentare

naneg93 2024-09-14

Da ist ein Tippfehler :)

„Chai-of-Thought-Methode“ → „Chain-of-Thought-Methode“

GN⁺ 2024-09-14

Hacker-News-Kommentar

Probleme des o1-preview-Modells
- Halluziniert nicht existierende Bibliotheken und Funktionen
- Liefert falsche Informationen über Fakten, die im Web nicht gut dokumentiert sind
- Es gibt keine Möglichkeit zu bewerten, ob die vom Modell erzeugten Informationen sachlich korrekt sind
Zitat des OpenAI-Forschers Jason Wei
- Zeigte starke Ergebnisse bei AIME und GPQA, für Nutzer ist das aber kaum spürbar
- Stellt die Ansicht infrage, man müsse nur schwierigere Prompts finden
Versuch eines Rust-Code-Refactorings
- o1-mini konnte keinen fehlerfreien Code liefern
- o1-preview lieferte Code, der kompiliert und die meisten Tests besteht
- Versuch, in einer Rust-Bibliothek enum zu entfernen und nur noch den Datentyp U8 zu verwenden
Zwei zentrale Faktoren
- Ein LLM, das darauf trainiert wurde, gute chain-of-thought-Prompts zu lesen und zu erzeugen
- Runtime-Code, der das Modell wiederholt mit neuen Prompts versieht
- OpenAI erklärt diesen Unterschied nicht klar
Schwierigkeiten bei der Bewertung komplexer Prompts
- Der Prompt-Evaluierungsprozess ist verborgen, was das Debugging erschwert
- Für Nutzer zählt am Ende nur das Ergebnis, nicht der Prozess
Qualitäts- und Kostenprobleme bei o1
- Keine große Qualitätssteigerung, aber deutliche negative Auswirkungen auf Kosten und Latenz
Vergleich von GPT-4o und o1-preview
- GPT-4o liefert keine optimale Tic-Tac-Toe-Strategie
- o1-preview liefert eine optimale Strategie, scheitert aber bei nicht standardmäßigen Grids
Schwierigkeiten beim Lösen grundlegender Mathematikaufgaben
- Versuch, ein Problem zu lösen, bei dem drei Zahlen addiert und dividiert werden müssen, um dasselbe Ergebnis zu erhalten
- Aktuelle Modelle haben Schwierigkeiten, selbst grundlegende Schulaufgaben zu lösen
Test mit einer Rechtsfrage
- GPT-4o liefert sofort die richtige Antwort
- o1-preview liefert eine falsche Antwort und benötigt mehrere Nachfragen
Probleme bei der Verarbeitung von Markdown-Inhalten
- Wenn Markdown-Inhalte symbolische Logikausdrücke und Beweisbeispiele enthalten, wird dies als Verstoß gegen die Nutzungsbedingungen eingestuft

Notizen zu OpenAIs o1, einem Chain-of-Thought-Modell

Mit der Chain-of-Thought-Methode trainiert

Low-Level-Details der API-Dokumentation

Versteckte Reasoning-Tokens

Versteckte Reasoning-Tokens

Beispiele

Was daran neu ist

Meinung von GN⁺

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentar