6 Punkte von GN⁺ 2025-03-06 | 2 Kommentare | Auf WhatsApp teilen
  • In letzter Zeit stellen AI-Labs verschiedene Funktionen unter dem Begriff „Deep Research“ vor
  • Google veröffentlichte im Dezember 2024 Gemini 1.5 Deep Research, OpenAI im Februar 2025 Deep Research und Perplexity kurz darauf seine eigene Deep Research
  • Darüber hinaus führten DeepSeek, Alibabas Qwen, Elon Musks xAI und andere in ihre Chatbot-Assistenten Funktionen wie Search und Deep Search ein
  • Auf GitHub sind Dutzende Open-Source-Implementierungen von „Deep Research“ aufgetaucht
  • Das deutet darauf hin, dass der Begriff „Deep Research“ ähnlich wie Retrieval-Augmented Generation (RAG) im Jahr 2025 ohne klare Definition verwendet wird

Deep Research, Deep Search oder einfach Search

> Google: „Deep Research nutzt AI, um komplexe Themen zu erkunden, umfassende und leicht lesbare Berichte bereitzustellen und zu zeigen, dass Gemini immer besser darin wird, komplexe Aufgaben zu bewältigen und dadurch Zeit zu sparen.“
> OpenAI: „Deep Research ist der Next-Gen-Agent von OpenAI: Gibt ein Nutzer einen Prompt ein, durchsucht, analysiert und synthetisiert ChatGPT Hunderte Online-Quellen und erstellt einen umfassenden Bericht auf dem Niveau eines Research-Analysten.“
> Perplexity: „Wenn Sie eine Deep-Research-Frage stellen, führt Perplexity Dutzende Suchen aus, liest Hunderte Quellen, erschließt das Material durch Schlussfolgerung und liefert autonom einen umfassenden Bericht.“

  • Lässt man die Marketingbegriffe außen vor, lässt sich Deep Research wie folgt definieren
    > Ein System zur Berichtserstellung, das eine Nutzeranfrage entgegennimmt, ein Large Language Model (LLM) als Agenten verwendet, iterativ Informationen sucht und analysiert und einen detaillierten Bericht ausgibt
  • In der Terminologie der natürlichen Sprachverarbeitung (NLP) ist dies als „report generation“ bekannt

Implementierungsansätze

  • Seit dem Aufkommen von ChatGPT ist Berichtserstellung bzw. „Deep Research“ ein zentraler Schwerpunkt des AI Engineerings geworden
  • Der Autor experimentierte Anfang 2023 bei einem Hackathon damit, als AI Engineering gerade erst aufkam
  • Tools und zahlreiche Demos wie LangChain, AutoGPT, GPT-Researcher und Prompt Engineering erhielten auf Twitter und LinkedIn große Aufmerksamkeit
  • Die eigentliche Herausforderung liegt jedoch in den Implementierungsdetails
  • Im Folgenden werden gängige Muster zum Aufbau von Systemen zur Berichtserstellung untersucht, ihre Unterschiede hervorgehoben und die Angebote verschiedener Anbieter eingeordnet

Nicht trainiert: gerichteter azyklischer Graph (DAG)

  • Anfangs stellte sich heraus, dass es nicht praktikabel war, ein LLM wie GPT-3.5 zu bitten, einen Bericht von Grund auf zu erzeugen
  • Stattdessen wurde das Composite Pattern verwendet, um mehrere LLM-Aufrufe zu verketten
  • Die Nutzeranfrage wird zerlegt, um eine Gliederung des Berichts zu erzeugen
  • Für jeden Abschnitt werden relevante Informationen aus Suchmaschinen oder Wissensdatenbanken gesucht und zusammengefasst
  • Abschließend werden die Abschnitte mit einem LLM zu einem kohärenten Bericht zusammengeführt
  • GPT-Researcher ist ein Beispiel dafür
    • Alle Prompts in diesem System werden durch „Prompt Engineering“ sorgfältig abgestimmt
    • Die Bewertung stützt sich auf subjektive Prüfung der Ausgaben, und die Berichtsqualität ist inkonsistent
    • Wenn es funktioniert, ist es hervorragend, aber nicht immer stabil

Nicht trainiert: endlicher Zustandsautomat (FSM)

  • Um die Berichtsqualität zu verbessern, fügten Engineers dem DAG-Ansatz zusätzliche Komplexität hinzu
  • Statt eines Single-Pass-Prozesses wurden strukturelle Muster wie Reflexion und Self-Reflection eingeführt, damit das LLM seine eigenen Ausgaben überprüft und verbessert
  • Dadurch wird ein einfacher DAG in einen endlichen Zustandsautomaten (FSM) umgewandelt, wobei das LLM die Zustandsübergänge teilweise steuert
    • Wie beim DAG-Ansatz werden alle Prompts manuell geschrieben und die Bewertung bleibt subjektiv
    • Da das System manuell abgestimmt wird, schwankt die Berichtsqualität weiterhin stark

Trainiert: End-to-End

  • Die Nachteile der vorherigen Methoden – willkürliches Prompt Engineering und das Fehlen messbarer Evaluationsmetriken – führten zur Suche nach einem anderen Ansatz
  • STORM von Stanford löst diese Probleme, indem es das System mit DSPy End-to-End optimiert
    • Das Ergebnis: STORM erzeugt Berichte mit einer Qualität, die mit Wikipedia-Artikeln vergleichbar ist

Trainiert: groß angelegte Reasoning-Modelle

  • Durch die verbesserten Reasoning-Fähigkeiten von LLMs sind groß angelegte Reasoning-Modelle zu einer attraktiven Option für Deep Research geworden
  • OpenAI trainiert sein Deep-Research-Modell beispielsweise wie folgt
    • Bewertung der Ausgaben mithilfe von LLM-as-a-judge und Evaluations-Rubriken
  • Auch Googles Gemini und der Chat-Assistent von Perplexity bieten „Deep Research“-Funktionen, veröffentlichen jedoch keine Dokumentation dazu, wie sie Modelle oder Systeme optimiert haben oder welche belastbaren quantitativen Bewertungen es gibt
  • Der Produktmanager von Googles Deep Research sagte jedoch in einem Podcast-Interview: „Es gibt einen speziellen Zugang. Es ist fast dasselbe Modell (Gemini 1.5). Natürlich führen wir eigene nachgelagerte Trainingsarbeiten durch.“
  • Das deutet darauf hin, dass Fine-Tuning keinen besonders großen Anteil hat
  • Gleichzeitig ist xAIs Grok bei der Berichtserstellung stark, scheint aber nicht über zwei Iterationen hinaus zu suchen
  • Es sucht einige Male nach Gliederungsabschnitten und einige Male pro Abschnitt

Wettbewerbssituation

  • Um die Fähigkeiten verschiedener Dienste mit Deep-Research-Funktion zu bewerten, wurde eine konzeptionelle Karte entwickelt
  • Vertikale Achse: Tiefe der Recherche (Anzahl iterativer Zyklen, in denen auf Basis vorheriger Ergebnisse weitere Informationen gesammelt werden)
  • Horizontale Achse: Grad des Trainings (von manuell abgestimmten Systemen bis zu vollständig trainierten Systemen, die Machine-Learning-Techniken nutzen)
  • Repräsentative trainierte Systeme:
    • OpenAI Deep Research: ein auf Reinforcement Learning basierendes System, optimiert für Rechercheaufgaben
    • DeepSeek: für allgemeines Reasoning und Tool-Nutzung trainiert und an Rechercheanforderungen anpassbar
    • Google Gemini: ein breit trainiertes LLM, nicht speziell auf Recherche ausgerichtet
    • Stanford STORM: ein System, das den gesamten Rechercheprozess End-to-End optimiert
  • Dieses Framework hilft zu verstehen, wie die einzelnen Dienste die Tiefe iterativer Recherche und ihren Trainingsansatz ausbalancieren

Fazit

  • Die Deep-Research-Technologie entwickelt sich rasant weiter, und Techniken, die noch vor wenigen Monaten nicht funktionierten oder nicht implementiert waren, werden inzwischen erfolgreich eingesetzt
  • Die unscharfe Verwendung des Begriffs sorgt jedoch zusätzlich für Verwirrung
  • Dieser Beitrag soll helfen, die technischen Unterschiede klarer zu machen und sich nicht von Marketingbegriffen leiten zu lassen

2 Kommentare

 
halfenif 2025-03-10

Ein Kollege machte den Witz: „AlphaGO hat zwar Lee Sedol geschlagen, aber Lee Sedol hat einen viel besseren Algorithmus für autonomes Fahren.“

Aber es gibt nur einen Lee Sedol, und er lässt sich nicht kopieren.

 
GN⁺ 2025-03-06
Hacker-News-Kommentare
  • Die von Han Xiao vorgeschlagene Unterscheidung zwischen DeepSearch und DeepResearch ist sehr interessant

    • DeepSearch ist ein Prozess, bei dem Suchen, Lesen und Schlussfolgern wiederholt werden, bis die optimale Antwort gefunden ist
    • DeepResearch ergänzt DeepSearch um ein strukturiertes Framework, um lange Forschungsberichte zu erzeugen
    • Ich denke, DeepSearch ist das wertvollere und interessantere Muster
    • DeepResearch ist nur ein kosmetischer Effekt, bei dem das Ergebnis als "Bericht" verpackt wird, und führt wahrscheinlich zu ungenauen oder irreführenden Resultaten
  • Ein Kollege scherzte: "AlphaGO hat Lee Sedol geschlagen, aber Lee Sedol hat einen viel besseren Algorithmus für autonomes Fahren"

    • Das unterstreicht mit der Zeit die große Kluft zwischen den fortschrittlichsten KI-Systemen und der "durchschnittlichen Fähigkeit" gewöhnlicher Menschen
  • Das scheint den Unterschied zwischen dem, was OpenAI und andere Unternehmen anbieten, gut zu erfassen

    • Googles Gemini 2.0 Flash ist ebenfalls nativ in die Google-Suche integriert
    • OpenAIs DR neigt dazu, Modelle für bestimmte Aufgaben zu trainieren
    • Es bewegt sich in die Richtung, Modell + nachgelagertes RL-Training als Produkt anzubieten
    • genspark MOA erzeugt einen tiefgehenden Bericht zu einem gegebenen Prompt
  • KI wird immer vielfältiger, und es ist wahrscheinlich, dass verschiedene Agenten entstehen werden

  • Es heißt, Grok sei hervorragend bei der Berichtserstellung, und durch die Anforderung von Antworten im Tabellenformat lassen sich Vergleiche leichter anstellen

    • Amazon wählt Produkte zum Vergleichen aus, aber die Vergleichskriterien sind nicht gut
    • Mit Grok kann man Spalten hinzufügen oder entfernen und die Antworten kürzen
  • DR ist eine gute Methode, Informationen zu sammeln und von einem fokussierten Ausgangspunkt aus echte Recherche zu betreiben

    • Nur weil ein LLM das gemacht hat, ist es nicht klüger geworden
    • Ein LLM versteht das Thema nicht tiefer
    • Es braucht tiefere Fähigkeiten zur Integration und Anwendung von Informationen
    • Aufgrund der Grenzen der Transformer-Architektur ist Echtzeitlernen schwierig
  • Beim Vergleich von OpenAI Deep Research und Perplexitys Deep Research gibt es den Unterschied "schmal und tief" vs. "flach und breit"

    • OpenAI wählt hochwertige Quellen aus und geht bei einem bestimmten Thema in die Tiefe
    • Perplexity nutzt viele Quellen und bietet einen oberflächlichen Problemraum
    • OpenAI braucht mehr Zeit
  • Mit Deep Search/Research wurden verschiedene Workflows ausprobiert

    • Es gibt imperative Ansätze (Quellen direkt auswählen und einen Bericht erzeugen) und deklarative Ansätze (unter Verwendung von DFS/BFS-Algorithmen)
    • Ich bin vom End-to-End-Flow von Systemen wie STORM fasziniert
  • STORM wurde hoch bewertet, GPT Researcher dagegen nicht

    • GPT Researcher lässt sich für unterschiedliche Budgets konfigurieren
  • Es sind die größten Plattformen zur Informationsorganisation im Internet, aber ich finde keine anderen Worte, um das Produkt zu beschreiben