6 Punkte von GN⁺ 2024-09-14 | 2 Kommentare | Auf WhatsApp teilen
  • OpenAI hat die neuen Preview-Modelle o1-preview und o1-mini veröffentlicht (mini ist keine Preview), zuvor unter dem Codenamen „strawberry“ bekannt

Mit der Chain-of-Thought-Methode trainiert

  • OpenAI erklärt, dass diese Modelle so konzipiert wurden, vor einer Antwort mehr Zeit zum „Nachdenken“ aufzuwenden
  • Diese neuen Modelle können als spezialisierte Erweiterung des Prompting-Musters „Schritt für Schritt denken“ betrachtet werden
  • In OpenAIs Artikel „Learning to Reason with LLMs“ wird erklärt, dass die neuen Modelle durch Reinforcement Learning lernen, ihre Gedankenkette zu verbessern und Strategien zu verfeinern
  • Das bedeutet, dass das Modell komplexe Prompts besser verarbeiten kann, die Backtracking und mehr „Denken“ als bloße Next-Token-Vorhersage erfordern

Low-Level-Details der API-Dokumentation

  • Für Bildinput, Function Calling und Anwendungen, die konsistent schnelle Antwortzeiten benötigen, bleiben GPT-4o und GPT-4o mini weiterhin geeignete Optionen
  • Wenn du Anwendungen entwickelst, die tiefes Reasoning erfordern und längere Antwortzeiten tolerieren können, kann das o1-Modell eine ausgezeichnete Wahl sein
  • Der API-Zugang zu den neuen Modellen o1-preview und o1-mini ist derzeit auf Konten der Stufe 5 beschränkt
  • Keine Unterstützung für System Prompts – das Modell verwendet zwar die bestehende Chat Completions API, aber es können nur user- und assistant-Nachrichten gesendet werden
  • Ebenfalls keine Unterstützung für Streaming, Tool-Nutzung, Batch-Aufrufe oder Bildinput
  • Die Verarbeitung einer Anfrage kann je nach benötigtem Reasoning-Aufwand von einigen Sekunden bis zu mehreren Minuten dauern

Versteckte Reasoning-Tokens

  • Es werden „Reasoning-Tokens“ eingeführt, die in API-Antworten nicht sichtbar sind, aber dennoch abgerechnet und als Output-Tokens gezählt werden
  • Für Prompts, die mit den neuen Modellen gut funktionieren, empfiehlt OpenAI, für diese Tokens ein Budget von etwa 25.000 einzuplanen
  • Das erlaubte Kontingent an Output-Tokens steigt deutlich auf 32.768 bei o1-preview und 65.536 bei o1-mini
  • Letzter Tipp aus der API-Dokumentation: Bei Retrieval-Augmented Generation (RAG) sollte bei zusätzlichem Kontext nur die relevanteste Information enthalten sein, damit das Modell die Antwort nicht unnötig verkompliziert

Versteckte Reasoning-Tokens

  • Reasoning-Tokens sind in der API nicht sichtbar – sie werden abgerechnet, aber man kann nicht sehen, was sie tatsächlich sind
  • OpenAI nennt dafür zwei Hauptgründe:
    1. Sicherheit und Policy-Compliance – um Fälle zu vermeiden, in denen Zwischenschritte Informationen enthalten könnten, die gegen Richtlinien verstoßen
    2. Wettbewerbsvorteil – um zu verhindern, dass andere Modelle aus der von OpenAI investierten Reasoning-Arbeit lernen
  • Diese Policy-Entscheidung stößt auf Unzufriedenheit – Interpretierbarkeit und Transparenz sind wichtig, und dass zentrale Details der Prompt-Auswertung verborgen werden, wirkt wie ein Rückschritt

Beispiele

  • OpenAI nennt als frühe Beispiele die Erzeugung von Bash-Skripten, das Lösen von Kreuzworträtseln und die Berechnung des pH-Werts chemischer Lösungen
  • Diese Beispiele zeigen, dass die Modellversion in der ChatGPT-UI Details zur Gedankenkette offenlegt, aber nicht die rohen Reasoning-Tokens
  • OpenAI hat außerdem zwei neue Cookbooks, die zeigen, wie Reasoning für Datenvalidierung und Routinen-Erstellung genutzt werden kann
  • Auf Twitter wird nach Prompt-Beispielen gefragt, die bei GPT-4o scheitern, aber mit o1-preview funktionieren
    • "How many words are in your response to this prompt?" "There are seven words in this sentence."

    • Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”

  • OpenAI-Forscher Jason Wei merkt an, dass die Ergebnisse bei AIME und GPQA zwar sehr gut sind, sich aber nicht unbedingt in etwas übersetzen, das Nutzer unmittelbar spüren

Was daran neu ist

  • Es wird einige Zeit dauern, bis die Community Best Practices dafür herausarbeitet, wann und wo diese Modelle eingesetzt werden sollten
  • Ich erwarte, dass ich weiterhin hauptsächlich GPT-4o (und Claude 3.5 Sonnet) verwenden werde, aber es ist wirklich spannend zu sehen, wie diese neue Art von Modell unser gemeinsames Denkmodell darüber erweitert, welche Arten von Aufgaben sich mit LLMs lösen lassen
  • Es ist zu erwarten, dass auch andere AI-Labore beginnen werden, einige dieser Ergebnisse mit eigenen Versionen von Modellen zu reproduzieren, die speziell für diesen Stil des Chain-of-Thought-Reasonings trainiert wurden

Meinung von GN⁺

  • Mit der Chain-of-Thought-Methode trainierte Modelle könnten helfen, die Grenzen bisheriger Modelle beim Lösen komplexer Probleme zu überwinden. Insbesondere bei Aufgaben, die schrittweises Reasoning und Backtracking erfordern, sind Leistungsverbesserungen zu erwarten
  • Dass die Reasoning-Tokens in der API verborgen werden, ist jedoch im Hinblick auf Interpretierbarkeit und Transparenz bedenklich. Für Nutzer könnte es schwieriger werden, den Reasoning-Prozess des Modells zu verstehen und zu überprüfen
  • Derzeit ist noch nicht klar, für welche Aufgaben diese Modelle am besten geeignet sind und welche Vor- und Nachteile sie im Vergleich zu bestehenden Modellen haben. Es scheint ein Prozess nötig zu sein, in dem die Community verschiedene Anwendungsfälle und Best Practices herausarbeitet
  • Andere AI-Unternehmen wie Anthropic mit Claude oder die Modelle von Cohere könnten ebenfalls ähnliche Chain-of-Thought-Trainingsmethoden einführen. Der Wettbewerb im Markt für Reasoning-Modelle dürfte dadurch noch intensiver werden
  • Insgesamt ist OpenAIs Ankündigung bedeutsam, weil sie einen neuen Ansatz zur Verbesserung der Reasoning-Fähigkeiten von LLMs präsentiert. Es gibt jedoch auch einige bedenkliche Aspekte wie die versteckten Reasoning-Tokens, sodass künftig weitere Verbesserungen und Nachbesserungen nötig erscheinen

2 Kommentare

 
naneg93 2024-09-14

Da ist ein Tippfehler :)

„Chai-of-Thought-Methode“ → „Chain-of-Thought-Methode“

 
GN⁺ 2024-09-14
Hacker-News-Kommentar
  • Probleme des o1-preview-Modells

    • Halluziniert nicht existierende Bibliotheken und Funktionen
    • Liefert falsche Informationen über Fakten, die im Web nicht gut dokumentiert sind
    • Es gibt keine Möglichkeit zu bewerten, ob die vom Modell erzeugten Informationen sachlich korrekt sind
  • Zitat des OpenAI-Forschers Jason Wei

    • Zeigte starke Ergebnisse bei AIME und GPQA, für Nutzer ist das aber kaum spürbar
    • Stellt die Ansicht infrage, man müsse nur schwierigere Prompts finden
  • Versuch eines Rust-Code-Refactorings

    • o1-mini konnte keinen fehlerfreien Code liefern
    • o1-preview lieferte Code, der kompiliert und die meisten Tests besteht
    • Versuch, in einer Rust-Bibliothek enum zu entfernen und nur noch den Datentyp U8 zu verwenden
  • Zwei zentrale Faktoren

    • Ein LLM, das darauf trainiert wurde, gute chain-of-thought-Prompts zu lesen und zu erzeugen
    • Runtime-Code, der das Modell wiederholt mit neuen Prompts versieht
    • OpenAI erklärt diesen Unterschied nicht klar
  • Schwierigkeiten bei der Bewertung komplexer Prompts

    • Der Prompt-Evaluierungsprozess ist verborgen, was das Debugging erschwert
    • Für Nutzer zählt am Ende nur das Ergebnis, nicht der Prozess
  • Qualitäts- und Kostenprobleme bei o1

    • Keine große Qualitätssteigerung, aber deutliche negative Auswirkungen auf Kosten und Latenz
  • Vergleich von GPT-4o und o1-preview

    • GPT-4o liefert keine optimale Tic-Tac-Toe-Strategie
    • o1-preview liefert eine optimale Strategie, scheitert aber bei nicht standardmäßigen Grids
  • Schwierigkeiten beim Lösen grundlegender Mathematikaufgaben

    • Versuch, ein Problem zu lösen, bei dem drei Zahlen addiert und dividiert werden müssen, um dasselbe Ergebnis zu erhalten
    • Aktuelle Modelle haben Schwierigkeiten, selbst grundlegende Schulaufgaben zu lösen
  • Test mit einer Rechtsfrage

    • GPT-4o liefert sofort die richtige Antwort
    • o1-preview liefert eine falsche Antwort und benötigt mehrere Nachfragen
  • Probleme bei der Verarbeitung von Markdown-Inhalten

    • Wenn Markdown-Inhalte symbolische Logikausdrücke und Beweisbeispiele enthalten, wird dies als Verstoß gegen die Nutzungsbedingungen eingestuft