OpenAI stellt Deep Research vor

xguru · 2025-02-03T13:41:21+09:00

OpenAI hat mit „Deep Research“ eine neue agentische Funktion in ChatGPT eingeführt Sie sammelt, analysiert und synthetisiert umfangreiche Informationen aus dem Internet und kann so komplexe Aufgaben innerhalb von einigen Dutzend Minuten automatisch lösen Als wichtiger Schritt auf dem Weg zu AGI ist die Fähigkeit zur „Wissenssynthese“, also zur Erzeugung neuen Wissens, unverzichtbar Warum Deep Research entwickelt wurde Entwickelt für Nutzer, die gründliche und verlässliche Rechercheergebnisse benötigen – von hochqualifizierter Wissensarbeit (Finanzen, Wissenschaft, Politik, Engineering usw.) bis hin zur Recherche vor großen Konsumgüterkäufen Kann auch schwer auffindbare Nischeninformationen oder nicht offensichtliche Fakten aus verschiedenen Online-Quellen schnell finden und dokumentieren Soll professionelle Recherche automatisieren und die Produktivität bei der Arbeit deutlich steigern So verwendet man Deep Research Im Nachrichteneingabefeld von ChatGPT den Modus Deep Research auswählen Zusammen mit der Anfrage (z. B. Wettbewerbsanalyse oder personalisierte Produktempfehlungen) lassen sich benötigte Dateien oder Tabellen anhängen Deep Research durchsucht das Internet 5 bis maximal 30 Minuten lang und erstellt einen detaillierten Bericht Während der Bearbeitung lässt sich der Prozess über eine Seitenleiste mit schrittweisen Zusammenfassungen und referenzierten Quellen verfolgen Das Endergebnis wird als Bericht mit umfangreichen Zitaten bereitgestellt; künftig sollen auch Bilder und Datenvisualisierungen enthalten sein Funktionsweise Nutzt ein Modell der nächsten Generation (auf Basis von OpenAI o3), das die Inferenzfähigkeiten von OpenAI o1 erweitert, um komplexe Browsing- und Analyseaufgaben zu bewältigen Führt mehrstufige Planung, Informationssammlung und die Einbeziehung von Zwischenfeedback eigenständig durch Kann auch auf vom Nutzer hochgeladene Dateien zugreifen und Analyseaufgaben wie das Erstellen von Diagrammen mit Python ausführen Zitiert Quellen auf Ebene einzelner Sätze, um Genauigkeit und Transparenz zu erhöhen Bewertung in Humanity’s Last Exam Erzielte in der kürzlich veröffentlichten breit angelegten Evaluation Humanity’s Last Exam eine Trefferquote von 26,6 % und zeigte damit eine deutlich bessere Leistung als frühere Modelle Die Evaluation umfasst mehr als 3.000 Aufgaben auf Expertenniveau aus einer Vielzahl wissenschaftlicher Disziplinen Zeigte gegenüber früheren Modellen große Verbesserungen in Chemie, Geistes- und Sozialwissenschaften sowie Mathematik Als Vergleich dienten unter anderem GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking und OpenAI o1; das Deep-Research-Modell erreichte mit 26,6 % die höchste Genauigkeit GPT-4o lag bei etwa 3,3 %, Claude 3.5 Sonnet bei 4,3 % und OpenAI o1 bei 9,1 % GAIA-Benchmark GAIA ist ein Maßstab zur Bewertung realer Fragestellungen, die Web-Browsing, multimodale Verarbeitung und den Einsatz von Tools zugleich erfordern Das Deep-Research-Modell übertraf in diesem Benchmark die bisherige Bestleistung Die GAIA-Aufgaben sind nach Schwierigkeitsgraden von Level 1 bis 3 unterteilt; Deep Research erzielte auf allen Niveaus höhere Werte als die bisherigen Bestmarken Konkret zeigte sich gegenüber dem bisherigen Rekord je nach Level eine Verbesserung von ungefähr 6 bis 8 %, wodurch auch der Gesamtdurchschnitt stieg Aufgaben auf Expertenniveau Interne Bewertungen zeigen einen Automatisierungsgrad, der mehrere Stunden manueller Recherche ersetzen kann Da sich die Leistung verbessert, je mehr das Modell browsen und nachdenken kann, ist es wichtig, ausreichend Rechenzeit zu geben Einschränkungen Einige sachliche Fehler oder fehlerhafte Schlussfolgerungen (Halluzinationen) können weiterhin auftreten Es hat Schwierigkeiten, Gerüchte von vertrauenswürdigen Quellen zu unterscheiden, und kann Unsicherheiten mitunter ungenau ausdrücken In der frühen Phase nach der Veröffentlichung können Berichts- oder Zitationsformate noch etwas unausgereift sein, und die Ausführungszeit kann länger ausfallen Zugriff und Nutzung Derzeit wird Deep Research wegen der hohen Rechenkosten zunächst Pro-Nutzern bereitgestellt, mit bis zu 100 Anfragen pro Monat Plus- und Team-Nutzer sollen in Kürze schrittweise ebenfalls Zugang erhalten Für Nutzer im Vereinigten Königreich, in der Schweiz und im Europäischen Wirtschaftsraum (EWR) soll die Unterstützung später ausgeweitet werden Künftig sollen durch eine schnellere und effizientere kleinere Modellversion die Nutzungslimits für alle kostenpflichtigen Konten deutlich steigen Weitere Pläne Deep Research ist zunächst in der Web-Version von ChatGPT verfügbar und soll bald auch in die mobilen und Desktop-Apps integriert werden Künftig soll es auch mit abobasierten Datenquellen oder internen Ressourcen verbunden werden, um noch stärker personalisierte Ergebnisse zu liefern In Kombination mit Operator könnte Deep Research ein weiterentwickeltes Agent-Erlebnis ermöglichen, das auch reale Offline-/Online-Aufgaben automatisch ausführt

(openai.com)

13 Punkte von xguru 2025-02-03 | 3 Kommentare | Auf WhatsApp teilen

OpenAI hat mit „Deep Research“ eine neue agentische Funktion in ChatGPT eingeführt
Sie sammelt, analysiert und synthetisiert umfangreiche Informationen aus dem Internet und kann so komplexe Aufgaben innerhalb von einigen Dutzend Minuten automatisch lösen
Als wichtiger Schritt auf dem Weg zu AGI ist die Fähigkeit zur „Wissenssynthese“, also zur Erzeugung neuen Wissens, unverzichtbar

Warum Deep Research entwickelt wurde

Entwickelt für Nutzer, die gründliche und verlässliche Rechercheergebnisse benötigen – von hochqualifizierter Wissensarbeit (Finanzen, Wissenschaft, Politik, Engineering usw.) bis hin zur Recherche vor großen Konsumgüterkäufen
Kann auch schwer auffindbare Nischeninformationen oder nicht offensichtliche Fakten aus verschiedenen Online-Quellen schnell finden und dokumentieren
Soll professionelle Recherche automatisieren und die Produktivität bei der Arbeit deutlich steigern

So verwendet man Deep Research

Im Nachrichteneingabefeld von ChatGPT den Modus Deep Research auswählen
Zusammen mit der Anfrage (z. B. Wettbewerbsanalyse oder personalisierte Produktempfehlungen) lassen sich benötigte Dateien oder Tabellen anhängen
Deep Research durchsucht das Internet 5 bis maximal 30 Minuten lang und erstellt einen detaillierten Bericht
Während der Bearbeitung lässt sich der Prozess über eine Seitenleiste mit schrittweisen Zusammenfassungen und referenzierten Quellen verfolgen
Das Endergebnis wird als Bericht mit umfangreichen Zitaten bereitgestellt; künftig sollen auch Bilder und Datenvisualisierungen enthalten sein

Funktionsweise

Nutzt ein Modell der nächsten Generation (auf Basis von OpenAI o3), das die Inferenzfähigkeiten von OpenAI o1 erweitert, um komplexe Browsing- und Analyseaufgaben zu bewältigen
Führt mehrstufige Planung, Informationssammlung und die Einbeziehung von Zwischenfeedback eigenständig durch
Kann auch auf vom Nutzer hochgeladene Dateien zugreifen und Analyseaufgaben wie das Erstellen von Diagrammen mit Python ausführen
Zitiert Quellen auf Ebene einzelner Sätze, um Genauigkeit und Transparenz zu erhöhen

Bewertung in Humanity’s Last Exam

Erzielte in der kürzlich veröffentlichten breit angelegten Evaluation Humanity’s Last Exam eine Trefferquote von 26,6 % und zeigte damit eine deutlich bessere Leistung als frühere Modelle
- Die Evaluation umfasst mehr als 3.000 Aufgaben auf Expertenniveau aus einer Vielzahl wissenschaftlicher Disziplinen
Zeigte gegenüber früheren Modellen große Verbesserungen in Chemie, Geistes- und Sozialwissenschaften sowie Mathematik
Als Vergleich dienten unter anderem GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking und OpenAI o1; das Deep-Research-Modell erreichte mit 26,6 % die höchste Genauigkeit
- GPT-4o lag bei etwa 3,3 %, Claude 3.5 Sonnet bei 4,3 % und OpenAI o1 bei 9,1 %

GAIA-Benchmark

GAIA ist ein Maßstab zur Bewertung realer Fragestellungen, die Web-Browsing, multimodale Verarbeitung und den Einsatz von Tools zugleich erfordern
Das Deep-Research-Modell übertraf in diesem Benchmark die bisherige Bestleistung
Die GAIA-Aufgaben sind nach Schwierigkeitsgraden von Level 1 bis 3 unterteilt; Deep Research erzielte auf allen Niveaus höhere Werte als die bisherigen Bestmarken
Konkret zeigte sich gegenüber dem bisherigen Rekord je nach Level eine Verbesserung von ungefähr 6 bis 8 %, wodurch auch der Gesamtdurchschnitt stieg

Aufgaben auf Expertenniveau

Interne Bewertungen zeigen einen Automatisierungsgrad, der mehrere Stunden manueller Recherche ersetzen kann
Da sich die Leistung verbessert, je mehr das Modell browsen und nachdenken kann, ist es wichtig, ausreichend Rechenzeit zu geben

Einschränkungen

Einige sachliche Fehler oder fehlerhafte Schlussfolgerungen (Halluzinationen) können weiterhin auftreten
Es hat Schwierigkeiten, Gerüchte von vertrauenswürdigen Quellen zu unterscheiden, und kann Unsicherheiten mitunter ungenau ausdrücken
In der frühen Phase nach der Veröffentlichung können Berichts- oder Zitationsformate noch etwas unausgereift sein, und die Ausführungszeit kann länger ausfallen

Zugriff und Nutzung

Derzeit wird Deep Research wegen der hohen Rechenkosten zunächst Pro-Nutzern bereitgestellt, mit bis zu 100 Anfragen pro Monat
Plus- und Team-Nutzer sollen in Kürze schrittweise ebenfalls Zugang erhalten
Für Nutzer im Vereinigten Königreich, in der Schweiz und im Europäischen Wirtschaftsraum (EWR) soll die Unterstützung später ausgeweitet werden
Künftig sollen durch eine schnellere und effizientere kleinere Modellversion die Nutzungslimits für alle kostenpflichtigen Konten deutlich steigen

Weitere Pläne

Deep Research ist zunächst in der Web-Version von ChatGPT verfügbar und soll bald auch in die mobilen und Desktop-Apps integriert werden
Künftig soll es auch mit abobasierten Datenquellen oder internen Ressourcen verbunden werden, um noch stärker personalisierte Ergebnisse zu liefern
In Kombination mit Operator könnte Deep Research ein weiterentwickeltes Agent-Erlebnis ermöglichen, das auch reale Offline-/Online-Aufgaben automatisch ausführt

3 Kommentare

xguru 2025-02-09

Tatsächliche Berichte, die mit DeepResearch erstellt wurden

GN⁺ 2025-02-04

Hacker-News-Meinungen

Ein Nutzer berichtete, er habe versucht, einen Bericht über sich selbst erstellen zu lassen, dabei seien jedoch mehrere Fehler aufgetreten. So sei etwa seine Reputation auf Stack Overflow falsch erkannt worden, und auch ein Interviewzitat sei der falschen Person zugeschrieben worden.
Ein anderer Nutzer wies darauf hin, dass Sprachmodelle in etwa 10 % der Fälle keine vollständig korrekten Antworten liefern könnten, was das Vertrauen beeinträchtigen könne. Er betonte zudem, dass auch die Zeit, die zur Überprüfung der Genauigkeit einer Antwort benötigt wird, ein wichtiger Faktor sei.
Ein Nutzer erwähnte, dass dies einem kürzlich von Standard veröffentlichten Projekt zur Berichtserstellung ähnele.
Es wurde angemerkt, dass Gemini diese Funktion bereits seit einigen Monaten unter dem Namen "Deep Research" anbiete. Dabei wurde die Frage nach der Namensüberschneidung in der AI-Welt aufgeworfen.
Ein Nutzer äußerte die Sorge, dass viele Menschen trotz bekannter Fehler- und Halluzinationsprobleme darüber hinwegsehen und die Ergebnisse einfach in ihre PowerPoint einfügen würden. Je leistungsfähiger solche Werkzeuge würden, desto stärker werde auch die Verzerrung von Informationen, warnte er.
Es wurde erwähnt, dass das noch nicht veröffentlichte Modell o3 diese Funktion unterstütze und ein ziemlich beeindruckendes Modell sei. Hervorgehoben wurde, dass es sich bei Google, DeepSeek und Perplexity um führende Modelle handle.
Ein Nutzer meinte, dies sei ein interessantes Werkzeug für Menschen, die in der Wissenschaft arbeiten. Er würde es gern testen, beklagte aber, dass die Kosten abschreckend seien. Er bat darum, es mit einem bestimmten Prompt für ihn zu testen.
Es wurde die Frage aufgeworfen, ob dies eine Fähigkeit sei, die als Voraussetzung für AGI und ASI gelten könne. Zugleich wurde Skepsis gegenüber der Bedeutung von Forschung geäußert und die Sorge formuliert, sich auf Antworten statt auf Ausführungsergebnisse zu verlassen.
Es wurde erwähnt, dass in internen Tests nur eine Erfolgsquote von 20 % erreicht worden sei, und darauf hingewiesen, dass das Durchsehen großer Mengen ungenauen Textes viel Zeit koste. Es wurde argumentiert, dass ein stärker iterativer Prozess nötig sei.
Es wurde die Frage gestellt, ob bekannte Experten oder Menschen, die Sichtbarkeit wollten, weiterhin in Blogs schreiben würden. Dabei wurde die Sorge geäußert, dass die Leser am Ende alle Bots sein könnten.

devil1032 2025-02-03

Ich bin extrem gespannt darauf … Dass das nicht das One More Thing ist …
Wird die DeepSeek-Kontroverse damit wohl untergehen?