Open Deep Research - als Open Source umgesetztes Deep Research

xguru · 2025-02-05T13:13:12+09:00

Das von OpenAI vorgestellte DeepResearch fasst Inhalte über Websuche zusammen und führt Frage-Antwort-Aufgaben aus Es erregte Aufmerksamkeit, weil es im GAIA-Benchmark hohe Werte erreichte Es kombiniert ein leistungsstarkes LLM mit einem internen Agenten-Framework und nutzt dabei schrittweise verschiedene Werkzeuge wie Web-Browsing Da OpenAI keine Details zum Agenten-Framework offengelegt hat, wurde 24 Stunden lang experimentiert, um es als Open Source nachzubauen Was ist ein Agenten-Framework und warum ist es wichtig? Ein Agenten-Framework ist eine Struktur, die über dem LLM eine zusätzliche Schicht einzieht, damit es verschiedene Aktionen wie Browsing oder das Lesen von PDFs ausführen kann Statt ein LLM nur als einfachen Chat zu verwenden, wird es in Kombination mit einem Agentensystem deutlich leistungsfähiger Schon mit Bibliotheken wie smolagents lässt sich durch den Einsatz eines einfachen Agenten-Frameworks die Leistung stark verbessern Auch OpenAI DeepResearch erzielt mit diesem Ansatz seine herausragende Leistung GAIA-Benchmark GAIA ist ein sehr anspruchsvoller Benchmark zur Bewertung der Leistung von Agenten Als Beispiel wird eine komplexe Frage gestellt, bei der die in „Embroidery from Uzbekistan“ vorkommenden Früchte mit dem früheren Frühstücksmenü eines bestimmten Schiffs verknüpft und in der richtigen Reihenfolge aufgelistet werden sollen Ein einzelnes LLM erreicht dabei nur etwa 7 %, während DeepResearch mehr als 67 % erzielt und damit einen deutlichen Abstand zeigt Da GAIA-Fragen Multistep-Reasoning, Informationssuche und multimodale Verarbeitung erfordern, eignet sich der Benchmark gut, um das Potenzial eines agentischen Ansatzes zu testen Aufbau von Open Deep Research Um den DeepResearch-Ansatz nachzubilden, wurde ein Experiment durchgeführt, das Open-Source-LLMs mit einem Agenten-Framework kombiniert Ziel ist es, die GAIA-Leistung mit einem einfachen textbasierten Webbrowser und Werkzeugen zum Öffnen von Dateien zu steigern Einsatz von CodeAgent Beim CodeAgent-Ansatz werden Aktionen als Code statt als JSON dargestellt Laut der Studie von Wang et al. (2024) ist die Codedarstellung kompakt, intuitiv und für LLMs optimiert Dadurch sinkt die Zahl der Schritte, was Kosten spart, und auch das Management multimodaler Zustände wird erleichtert Geeignete Werkzeuge entwickeln Erstes Tool: textbasierter Webbrowser Umfangreiche Funktionen wie bei Operator sind noch nicht umgesetzt, in der ersten Phase wird aber zumindest einfaches Browsing bereitgestellt Zweites Tool: Inspektor zum Anzeigen textbasierter Dateiformate Über ein einfaches Dokumenten-Tool wird das Lesen von Inhalten unterstützt Künftig sind eine feinere Unterstützung weiterer Dateiformate, die Anbindung von Vision-Modellen beim Web-Browsing und die Einführung von GUI-Agenten geplant Ergebnisse Im Reproduktionsversuch innerhalb von 24 Stunden wurde im GAIA-Benchmark ein Wert von rund 54 % erreicht Bei Verwendung von Code statt JSON stieg der Wert von 33 % auf 54 % Durch das offene smolagents-Framework und die Werkzeuge ist die Reproduktion für alle möglich Mit Browsern auf Operator-Niveau oder leistungsstarken lokalen Modellen gibt es noch viel Potenzial für weitere Verbesserungen Reimplementierungen aus der Community In der Community sind verschiedene Implementierungen von dzhng, assafelovic, nickscamara, jina-ai, mshumer und anderen entstanden Sie nutzen jeweils unterschiedliche Bibliotheken oder probieren andere Such- und Indexierungsverfahren aus Künftig sollen Reproduktionsergebnisse mit offenen LLMs, Vision-Modellen und codebasierten Aktionsdarstellungen geteilt und weiterentwickelt werden Der wichtigste nächste Schritt Wichtig ist die Entwicklung eines GUI-Agenten, der fortgeschrittene Webbrowser-Funktionen wie bei OpenAIs Operator unterstützt Es soll als Open Source eine Funktion bereitgestellt werden, die den Bildschirm sieht und Maus sowie Tastatur bedienen kann Geplant ist eine Anbindung an smolagents, OpenAI Operator und ähnliche Systeme, um die Reife des Projekts zu erhöhen Zentrale Aufgaben sind die Verbesserung des GAIA-Scores, die Nutzung offener LLMs und die Umsetzung eines visuellen Webbrowsers

(huggingface.co)

21 Punkte von xguru 2025-02-05 | Noch keine Kommentare. | Auf WhatsApp teilen

Das von OpenAI vorgestellte DeepResearch fasst Inhalte über Websuche zusammen und führt Frage-Antwort-Aufgaben aus
- Es erregte Aufmerksamkeit, weil es im GAIA-Benchmark hohe Werte erreichte
- Es kombiniert ein leistungsstarkes LLM mit einem internen Agenten-Framework und nutzt dabei schrittweise verschiedene Werkzeuge wie Web-Browsing
Da OpenAI keine Details zum Agenten-Framework offengelegt hat, wurde 24 Stunden lang experimentiert, um es als Open Source nachzubauen

Was ist ein Agenten-Framework und warum ist es wichtig?

Ein Agenten-Framework ist eine Struktur, die über dem LLM eine zusätzliche Schicht einzieht, damit es verschiedene Aktionen wie Browsing oder das Lesen von PDFs ausführen kann
Statt ein LLM nur als einfachen Chat zu verwenden, wird es in Kombination mit einem Agentensystem deutlich leistungsfähiger
Schon mit Bibliotheken wie smolagents lässt sich durch den Einsatz eines einfachen Agenten-Frameworks die Leistung stark verbessern
Auch OpenAI DeepResearch erzielt mit diesem Ansatz seine herausragende Leistung

GAIA-Benchmark

GAIA ist ein sehr anspruchsvoller Benchmark zur Bewertung der Leistung von Agenten
Als Beispiel wird eine komplexe Frage gestellt, bei der die in „Embroidery from Uzbekistan“ vorkommenden Früchte mit dem früheren Frühstücksmenü eines bestimmten Schiffs verknüpft und in der richtigen Reihenfolge aufgelistet werden sollen
Ein einzelnes LLM erreicht dabei nur etwa 7 %, während DeepResearch mehr als 67 % erzielt und damit einen deutlichen Abstand zeigt
Da GAIA-Fragen Multistep-Reasoning, Informationssuche und multimodale Verarbeitung erfordern, eignet sich der Benchmark gut, um das Potenzial eines agentischen Ansatzes zu testen

Aufbau von Open Deep Research

Um den DeepResearch-Ansatz nachzubilden, wurde ein Experiment durchgeführt, das Open-Source-LLMs mit einem Agenten-Framework kombiniert
Ziel ist es, die GAIA-Leistung mit einem einfachen textbasierten Webbrowser und Werkzeugen zum Öffnen von Dateien zu steigern
Einsatz von CodeAgent
- Beim CodeAgent-Ansatz werden Aktionen als Code statt als JSON dargestellt
- Laut der Studie von Wang et al. (2024) ist die Codedarstellung kompakt, intuitiv und für LLMs optimiert
- Dadurch sinkt die Zahl der Schritte, was Kosten spart, und auch das Management multimodaler Zustände wird erleichtert
Geeignete Werkzeuge entwickeln
- Erstes Tool: textbasierter Webbrowser
  - Umfangreiche Funktionen wie bei Operator sind noch nicht umgesetzt, in der ersten Phase wird aber zumindest einfaches Browsing bereitgestellt
- Zweites Tool: Inspektor zum Anzeigen textbasierter Dateiformate
  - Über ein einfaches Dokumenten-Tool wird das Lesen von Inhalten unterstützt
- Künftig sind eine feinere Unterstützung weiterer Dateiformate, die Anbindung von Vision-Modellen beim Web-Browsing und die Einführung von GUI-Agenten geplant

Ergebnisse

Im Reproduktionsversuch innerhalb von 24 Stunden wurde im GAIA-Benchmark ein Wert von rund 54 % erreicht
Bei Verwendung von Code statt JSON stieg der Wert von 33 % auf 54 %
Durch das offene smolagents-Framework und die Werkzeuge ist die Reproduktion für alle möglich
Mit Browsern auf Operator-Niveau oder leistungsstarken lokalen Modellen gibt es noch viel Potenzial für weitere Verbesserungen

Reimplementierungen aus der Community

In der Community sind verschiedene Implementierungen von dzhng, assafelovic, nickscamara, jina-ai, mshumer und anderen entstanden
Sie nutzen jeweils unterschiedliche Bibliotheken oder probieren andere Such- und Indexierungsverfahren aus
Künftig sollen Reproduktionsergebnisse mit offenen LLMs, Vision-Modellen und codebasierten Aktionsdarstellungen geteilt und weiterentwickelt werden

Der wichtigste nächste Schritt

Wichtig ist die Entwicklung eines GUI-Agenten, der fortgeschrittene Webbrowser-Funktionen wie bei OpenAIs Operator unterstützt
Es soll als Open Source eine Funktion bereitgestellt werden, die den Bildschirm sieht und Maus sowie Tastatur bedienen kann
Geplant ist eine Anbindung an smolagents, OpenAI Operator und ähnliche Systeme, um die Reife des Projekts zu erhöhen
Zentrale Aufgaben sind die Verbesserung des GAIA-Scores, die Nutzung offener LLMs und die Umsetzung eines visuellen Webbrowsers