- OpenAI hat mit „Deep Research“ eine neue agentische Funktion in ChatGPT eingeführt
- Sie sammelt, analysiert und synthetisiert umfangreiche Informationen aus dem Internet und kann so komplexe Aufgaben innerhalb von einigen Dutzend Minuten automatisch lösen
- Als wichtiger Schritt auf dem Weg zu AGI ist die Fähigkeit zur „Wissenssynthese“, also zur Erzeugung neuen Wissens, unverzichtbar
Warum Deep Research entwickelt wurde
- Entwickelt für Nutzer, die gründliche und verlässliche Rechercheergebnisse benötigen – von hochqualifizierter Wissensarbeit (Finanzen, Wissenschaft, Politik, Engineering usw.) bis hin zur Recherche vor großen Konsumgüterkäufen
- Kann auch schwer auffindbare Nischeninformationen oder nicht offensichtliche Fakten aus verschiedenen Online-Quellen schnell finden und dokumentieren
- Soll professionelle Recherche automatisieren und die Produktivität bei der Arbeit deutlich steigern
So verwendet man Deep Research
- Im Nachrichteneingabefeld von ChatGPT den Modus Deep Research auswählen
- Zusammen mit der Anfrage (z. B. Wettbewerbsanalyse oder personalisierte Produktempfehlungen) lassen sich benötigte Dateien oder Tabellen anhängen
- Deep Research durchsucht das Internet 5 bis maximal 30 Minuten lang und erstellt einen detaillierten Bericht
- Während der Bearbeitung lässt sich der Prozess über eine Seitenleiste mit schrittweisen Zusammenfassungen und referenzierten Quellen verfolgen
- Das Endergebnis wird als Bericht mit umfangreichen Zitaten bereitgestellt; künftig sollen auch Bilder und Datenvisualisierungen enthalten sein
Funktionsweise
- Nutzt ein Modell der nächsten Generation (auf Basis von OpenAI o3), das die Inferenzfähigkeiten von OpenAI o1 erweitert, um komplexe Browsing- und Analyseaufgaben zu bewältigen
- Führt mehrstufige Planung, Informationssammlung und die Einbeziehung von Zwischenfeedback eigenständig durch
- Kann auch auf vom Nutzer hochgeladene Dateien zugreifen und Analyseaufgaben wie das Erstellen von Diagrammen mit Python ausführen
- Zitiert Quellen auf Ebene einzelner Sätze, um Genauigkeit und Transparenz zu erhöhen
Bewertung in Humanity’s Last Exam
- Erzielte in der kürzlich veröffentlichten breit angelegten Evaluation Humanity’s Last Exam eine Trefferquote von 26,6 % und zeigte damit eine deutlich bessere Leistung als frühere Modelle
- Die Evaluation umfasst mehr als 3.000 Aufgaben auf Expertenniveau aus einer Vielzahl wissenschaftlicher Disziplinen
- Zeigte gegenüber früheren Modellen große Verbesserungen in Chemie, Geistes- und Sozialwissenschaften sowie Mathematik
- Als Vergleich dienten unter anderem GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking und OpenAI o1; das Deep-Research-Modell erreichte mit 26,6 % die höchste Genauigkeit
- GPT-4o lag bei etwa 3,3 %, Claude 3.5 Sonnet bei 4,3 % und OpenAI o1 bei 9,1 %
GAIA-Benchmark
- GAIA ist ein Maßstab zur Bewertung realer Fragestellungen, die Web-Browsing, multimodale Verarbeitung und den Einsatz von Tools zugleich erfordern
- Das Deep-Research-Modell übertraf in diesem Benchmark die bisherige Bestleistung
- Die GAIA-Aufgaben sind nach Schwierigkeitsgraden von Level 1 bis 3 unterteilt; Deep Research erzielte auf allen Niveaus höhere Werte als die bisherigen Bestmarken
- Konkret zeigte sich gegenüber dem bisherigen Rekord je nach Level eine Verbesserung von ungefähr 6 bis 8 %, wodurch auch der Gesamtdurchschnitt stieg
Aufgaben auf Expertenniveau
- Interne Bewertungen zeigen einen Automatisierungsgrad, der mehrere Stunden manueller Recherche ersetzen kann
- Da sich die Leistung verbessert, je mehr das Modell browsen und nachdenken kann, ist es wichtig, ausreichend Rechenzeit zu geben
Einschränkungen
- Einige sachliche Fehler oder fehlerhafte Schlussfolgerungen (Halluzinationen) können weiterhin auftreten
- Es hat Schwierigkeiten, Gerüchte von vertrauenswürdigen Quellen zu unterscheiden, und kann Unsicherheiten mitunter ungenau ausdrücken
- In der frühen Phase nach der Veröffentlichung können Berichts- oder Zitationsformate noch etwas unausgereift sein, und die Ausführungszeit kann länger ausfallen
Zugriff und Nutzung
- Derzeit wird Deep Research wegen der hohen Rechenkosten zunächst Pro-Nutzern bereitgestellt, mit bis zu 100 Anfragen pro Monat
- Plus- und Team-Nutzer sollen in Kürze schrittweise ebenfalls Zugang erhalten
- Für Nutzer im Vereinigten Königreich, in der Schweiz und im Europäischen Wirtschaftsraum (EWR) soll die Unterstützung später ausgeweitet werden
- Künftig sollen durch eine schnellere und effizientere kleinere Modellversion die Nutzungslimits für alle kostenpflichtigen Konten deutlich steigen
Weitere Pläne
- Deep Research ist zunächst in der Web-Version von ChatGPT verfügbar und soll bald auch in die mobilen und Desktop-Apps integriert werden
- Künftig soll es auch mit abobasierten Datenquellen oder internen Ressourcen verbunden werden, um noch stärker personalisierte Ergebnisse zu liefern
- In Kombination mit Operator könnte Deep Research ein weiterentwickeltes Agent-Erlebnis ermöglichen, das auch reale Offline-/Online-Aufgaben automatisch ausführt
3 Kommentare
Tatsächliche Berichte, die mit DeepResearch erstellt wurden
Hacker-News-Meinungen
Ein Nutzer berichtete, er habe versucht, einen Bericht über sich selbst erstellen zu lassen, dabei seien jedoch mehrere Fehler aufgetreten. So sei etwa seine Reputation auf Stack Overflow falsch erkannt worden, und auch ein Interviewzitat sei der falschen Person zugeschrieben worden.
Ein anderer Nutzer wies darauf hin, dass Sprachmodelle in etwa 10 % der Fälle keine vollständig korrekten Antworten liefern könnten, was das Vertrauen beeinträchtigen könne. Er betonte zudem, dass auch die Zeit, die zur Überprüfung der Genauigkeit einer Antwort benötigt wird, ein wichtiger Faktor sei.
Ein Nutzer erwähnte, dass dies einem kürzlich von Standard veröffentlichten Projekt zur Berichtserstellung ähnele.
Es wurde angemerkt, dass Gemini diese Funktion bereits seit einigen Monaten unter dem Namen "Deep Research" anbiete. Dabei wurde die Frage nach der Namensüberschneidung in der AI-Welt aufgeworfen.
Ein Nutzer äußerte die Sorge, dass viele Menschen trotz bekannter Fehler- und Halluzinationsprobleme darüber hinwegsehen und die Ergebnisse einfach in ihre PowerPoint einfügen würden. Je leistungsfähiger solche Werkzeuge würden, desto stärker werde auch die Verzerrung von Informationen, warnte er.
Es wurde erwähnt, dass das noch nicht veröffentlichte Modell o3 diese Funktion unterstütze und ein ziemlich beeindruckendes Modell sei. Hervorgehoben wurde, dass es sich bei Google, DeepSeek und Perplexity um führende Modelle handle.
Ein Nutzer meinte, dies sei ein interessantes Werkzeug für Menschen, die in der Wissenschaft arbeiten. Er würde es gern testen, beklagte aber, dass die Kosten abschreckend seien. Er bat darum, es mit einem bestimmten Prompt für ihn zu testen.
Es wurde die Frage aufgeworfen, ob dies eine Fähigkeit sei, die als Voraussetzung für AGI und ASI gelten könne. Zugleich wurde Skepsis gegenüber der Bedeutung von Forschung geäußert und die Sorge formuliert, sich auf Antworten statt auf Ausführungsergebnisse zu verlassen.
Es wurde erwähnt, dass in internen Tests nur eine Erfolgsquote von 20 % erreicht worden sei, und darauf hingewiesen, dass das Durchsehen großer Mengen ungenauen Textes viel Zeit koste. Es wurde argumentiert, dass ein stärker iterativer Prozess nötig sei.
Es wurde die Frage gestellt, ob bekannte Experten oder Menschen, die Sichtbarkeit wollten, weiterhin in Blogs schreiben würden. Dabei wurde die Sorge geäußert, dass die Leser am Ende alle Bots sein könnten.
Ich bin extrem gespannt darauf … Dass das nicht das One More Thing ist …
Wird die DeepSeek-Kontroverse damit wohl untergehen?