Deep Research, Deep Research, Deep Research: die Unterschiede
(leehanchung.github.io)- In letzter Zeit stellen AI-Labs verschiedene Funktionen unter dem Begriff „Deep Research“ vor
- Google veröffentlichte im Dezember 2024 Gemini 1.5 Deep Research, OpenAI im Februar 2025 Deep Research und Perplexity kurz darauf seine eigene Deep Research
- Darüber hinaus führten DeepSeek, Alibabas Qwen, Elon Musks xAI und andere in ihre Chatbot-Assistenten Funktionen wie Search und Deep Search ein
- Auf GitHub sind Dutzende Open-Source-Implementierungen von „Deep Research“ aufgetaucht
- Das deutet darauf hin, dass der Begriff „Deep Research“ ähnlich wie Retrieval-Augmented Generation (RAG) im Jahr 2025 ohne klare Definition verwendet wird
Deep Research, Deep Search oder einfach Search
> Google: „Deep Research nutzt AI, um komplexe Themen zu erkunden, umfassende und leicht lesbare Berichte bereitzustellen und zu zeigen, dass Gemini immer besser darin wird, komplexe Aufgaben zu bewältigen und dadurch Zeit zu sparen.“
> OpenAI: „Deep Research ist der Next-Gen-Agent von OpenAI: Gibt ein Nutzer einen Prompt ein, durchsucht, analysiert und synthetisiert ChatGPT Hunderte Online-Quellen und erstellt einen umfassenden Bericht auf dem Niveau eines Research-Analysten.“
> Perplexity: „Wenn Sie eine Deep-Research-Frage stellen, führt Perplexity Dutzende Suchen aus, liest Hunderte Quellen, erschließt das Material durch Schlussfolgerung und liefert autonom einen umfassenden Bericht.“
- Lässt man die Marketingbegriffe außen vor, lässt sich Deep Research wie folgt definieren
> Ein System zur Berichtserstellung, das eine Nutzeranfrage entgegennimmt, ein Large Language Model (LLM) als Agenten verwendet, iterativ Informationen sucht und analysiert und einen detaillierten Bericht ausgibt - In der Terminologie der natürlichen Sprachverarbeitung (NLP) ist dies als „report generation“ bekannt
Implementierungsansätze
- Seit dem Aufkommen von ChatGPT ist Berichtserstellung bzw. „Deep Research“ ein zentraler Schwerpunkt des AI Engineerings geworden
- Der Autor experimentierte Anfang 2023 bei einem Hackathon damit, als AI Engineering gerade erst aufkam
- Tools und zahlreiche Demos wie LangChain, AutoGPT, GPT-Researcher und Prompt Engineering erhielten auf Twitter und LinkedIn große Aufmerksamkeit
- Die eigentliche Herausforderung liegt jedoch in den Implementierungsdetails
- Im Folgenden werden gängige Muster zum Aufbau von Systemen zur Berichtserstellung untersucht, ihre Unterschiede hervorgehoben und die Angebote verschiedener Anbieter eingeordnet
Nicht trainiert: gerichteter azyklischer Graph (DAG)
- Anfangs stellte sich heraus, dass es nicht praktikabel war, ein LLM wie GPT-3.5 zu bitten, einen Bericht von Grund auf zu erzeugen
- Stattdessen wurde das Composite Pattern verwendet, um mehrere LLM-Aufrufe zu verketten
- Die Nutzeranfrage wird zerlegt, um eine Gliederung des Berichts zu erzeugen
- Für jeden Abschnitt werden relevante Informationen aus Suchmaschinen oder Wissensdatenbanken gesucht und zusammengefasst
- Abschließend werden die Abschnitte mit einem LLM zu einem kohärenten Bericht zusammengeführt
- GPT-Researcher ist ein Beispiel dafür
- Alle Prompts in diesem System werden durch „Prompt Engineering“ sorgfältig abgestimmt
- Die Bewertung stützt sich auf subjektive Prüfung der Ausgaben, und die Berichtsqualität ist inkonsistent
- Wenn es funktioniert, ist es hervorragend, aber nicht immer stabil
Nicht trainiert: endlicher Zustandsautomat (FSM)
- Um die Berichtsqualität zu verbessern, fügten Engineers dem DAG-Ansatz zusätzliche Komplexität hinzu
- Statt eines Single-Pass-Prozesses wurden strukturelle Muster wie Reflexion und Self-Reflection eingeführt, damit das LLM seine eigenen Ausgaben überprüft und verbessert
- Dadurch wird ein einfacher DAG in einen endlichen Zustandsautomaten (FSM) umgewandelt, wobei das LLM die Zustandsübergänge teilweise steuert
- Wie beim DAG-Ansatz werden alle Prompts manuell geschrieben und die Bewertung bleibt subjektiv
- Da das System manuell abgestimmt wird, schwankt die Berichtsqualität weiterhin stark
Trainiert: End-to-End
- Die Nachteile der vorherigen Methoden – willkürliches Prompt Engineering und das Fehlen messbarer Evaluationsmetriken – führten zur Suche nach einem anderen Ansatz
- STORM von Stanford löst diese Probleme, indem es das System mit DSPy End-to-End optimiert
- Das Ergebnis: STORM erzeugt Berichte mit einer Qualität, die mit Wikipedia-Artikeln vergleichbar ist
Trainiert: groß angelegte Reasoning-Modelle
- Durch die verbesserten Reasoning-Fähigkeiten von LLMs sind groß angelegte Reasoning-Modelle zu einer attraktiven Option für Deep Research geworden
- OpenAI trainiert sein Deep-Research-Modell beispielsweise wie folgt
- Bewertung der Ausgaben mithilfe von LLM-as-a-judge und Evaluations-Rubriken
- Auch Googles Gemini und der Chat-Assistent von Perplexity bieten „Deep Research“-Funktionen, veröffentlichen jedoch keine Dokumentation dazu, wie sie Modelle oder Systeme optimiert haben oder welche belastbaren quantitativen Bewertungen es gibt
- Der Produktmanager von Googles Deep Research sagte jedoch in einem Podcast-Interview: „Es gibt einen speziellen Zugang. Es ist fast dasselbe Modell (Gemini 1.5). Natürlich führen wir eigene nachgelagerte Trainingsarbeiten durch.“
- Das deutet darauf hin, dass Fine-Tuning keinen besonders großen Anteil hat
- Gleichzeitig ist xAIs Grok bei der Berichtserstellung stark, scheint aber nicht über zwei Iterationen hinaus zu suchen
- Es sucht einige Male nach Gliederungsabschnitten und einige Male pro Abschnitt
Wettbewerbssituation
- Um die Fähigkeiten verschiedener Dienste mit Deep-Research-Funktion zu bewerten, wurde eine konzeptionelle Karte entwickelt
- Vertikale Achse: Tiefe der Recherche (Anzahl iterativer Zyklen, in denen auf Basis vorheriger Ergebnisse weitere Informationen gesammelt werden)
- Horizontale Achse: Grad des Trainings (von manuell abgestimmten Systemen bis zu vollständig trainierten Systemen, die Machine-Learning-Techniken nutzen)
- Repräsentative trainierte Systeme:
- OpenAI Deep Research: ein auf Reinforcement Learning basierendes System, optimiert für Rechercheaufgaben
- DeepSeek: für allgemeines Reasoning und Tool-Nutzung trainiert und an Rechercheanforderungen anpassbar
- Google Gemini: ein breit trainiertes LLM, nicht speziell auf Recherche ausgerichtet
- Stanford STORM: ein System, das den gesamten Rechercheprozess End-to-End optimiert
- Dieses Framework hilft zu verstehen, wie die einzelnen Dienste die Tiefe iterativer Recherche und ihren Trainingsansatz ausbalancieren
Fazit
- Die Deep-Research-Technologie entwickelt sich rasant weiter, und Techniken, die noch vor wenigen Monaten nicht funktionierten oder nicht implementiert waren, werden inzwischen erfolgreich eingesetzt
- Die unscharfe Verwendung des Begriffs sorgt jedoch zusätzlich für Verwirrung
- Dieser Beitrag soll helfen, die technischen Unterschiede klarer zu machen und sich nicht von Marketingbegriffen leiten zu lassen
2 Kommentare
Aber es gibt nur einen Lee Sedol, und er lässt sich nicht kopieren.
Hacker-News-Kommentare
Die von Han Xiao vorgeschlagene Unterscheidung zwischen DeepSearch und DeepResearch ist sehr interessant
Ein Kollege scherzte: "AlphaGO hat Lee Sedol geschlagen, aber Lee Sedol hat einen viel besseren Algorithmus für autonomes Fahren"
Das scheint den Unterschied zwischen dem, was OpenAI und andere Unternehmen anbieten, gut zu erfassen
KI wird immer vielfältiger, und es ist wahrscheinlich, dass verschiedene Agenten entstehen werden
Es heißt, Grok sei hervorragend bei der Berichtserstellung, und durch die Anforderung von Antworten im Tabellenformat lassen sich Vergleiche leichter anstellen
DR ist eine gute Methode, Informationen zu sammeln und von einem fokussierten Ausgangspunkt aus echte Recherche zu betreiben
Beim Vergleich von OpenAI Deep Research und Perplexitys Deep Research gibt es den Unterschied "schmal und tief" vs. "flach und breit"
Mit Deep Search/Research wurden verschiedene Workflows ausprobiert
STORM wurde hoch bewertet, GPT Researcher dagegen nicht
Es sind die größten Plattformen zur Informationsorganisation im Internet, aber ich finde keine anderen Worte, um das Produkt zu beschreiben