- Das von OpenAI vorgestellte DeepResearch fasst Inhalte über Websuche zusammen und führt Frage-Antwort-Aufgaben aus
- Es erregte Aufmerksamkeit, weil es im GAIA-Benchmark hohe Werte erreichte
- Es kombiniert ein leistungsstarkes LLM mit einem internen Agenten-Framework und nutzt dabei schrittweise verschiedene Werkzeuge wie Web-Browsing
- Da OpenAI keine Details zum Agenten-Framework offengelegt hat, wurde 24 Stunden lang experimentiert, um es als Open Source nachzubauen
Was ist ein Agenten-Framework und warum ist es wichtig?
- Ein Agenten-Framework ist eine Struktur, die über dem LLM eine zusätzliche Schicht einzieht, damit es verschiedene Aktionen wie Browsing oder das Lesen von PDFs ausführen kann
- Statt ein LLM nur als einfachen Chat zu verwenden, wird es in Kombination mit einem Agentensystem deutlich leistungsfähiger
- Schon mit Bibliotheken wie smolagents lässt sich durch den Einsatz eines einfachen Agenten-Frameworks die Leistung stark verbessern
- Auch OpenAI DeepResearch erzielt mit diesem Ansatz seine herausragende Leistung
GAIA-Benchmark
- GAIA ist ein sehr anspruchsvoller Benchmark zur Bewertung der Leistung von Agenten
- Als Beispiel wird eine komplexe Frage gestellt, bei der die in „Embroidery from Uzbekistan“ vorkommenden Früchte mit dem früheren Frühstücksmenü eines bestimmten Schiffs verknüpft und in der richtigen Reihenfolge aufgelistet werden sollen
- Ein einzelnes LLM erreicht dabei nur etwa 7 %, während DeepResearch mehr als 67 % erzielt und damit einen deutlichen Abstand zeigt
- Da GAIA-Fragen Multistep-Reasoning, Informationssuche und multimodale Verarbeitung erfordern, eignet sich der Benchmark gut, um das Potenzial eines agentischen Ansatzes zu testen
Aufbau von Open Deep Research
- Um den DeepResearch-Ansatz nachzubilden, wurde ein Experiment durchgeführt, das Open-Source-LLMs mit einem Agenten-Framework kombiniert
- Ziel ist es, die GAIA-Leistung mit einem einfachen textbasierten Webbrowser und Werkzeugen zum Öffnen von Dateien zu steigern
- Einsatz von CodeAgent
- Beim CodeAgent-Ansatz werden Aktionen als Code statt als JSON dargestellt
- Laut der Studie von Wang et al. (2024) ist die Codedarstellung kompakt, intuitiv und für LLMs optimiert
- Dadurch sinkt die Zahl der Schritte, was Kosten spart, und auch das Management multimodaler Zustände wird erleichtert
- Geeignete Werkzeuge entwickeln
- Erstes Tool: textbasierter Webbrowser
- Umfangreiche Funktionen wie bei Operator sind noch nicht umgesetzt, in der ersten Phase wird aber zumindest einfaches Browsing bereitgestellt
- Zweites Tool: Inspektor zum Anzeigen textbasierter Dateiformate
- Über ein einfaches Dokumenten-Tool wird das Lesen von Inhalten unterstützt
- Künftig sind eine feinere Unterstützung weiterer Dateiformate, die Anbindung von Vision-Modellen beim Web-Browsing und die Einführung von GUI-Agenten geplant
Ergebnisse
- Im Reproduktionsversuch innerhalb von 24 Stunden wurde im GAIA-Benchmark ein Wert von rund 54 % erreicht
- Bei Verwendung von Code statt JSON stieg der Wert von 33 % auf 54 %
- Durch das offene smolagents-Framework und die Werkzeuge ist die Reproduktion für alle möglich
- Mit Browsern auf Operator-Niveau oder leistungsstarken lokalen Modellen gibt es noch viel Potenzial für weitere Verbesserungen
Reimplementierungen aus der Community
- In der Community sind verschiedene Implementierungen von dzhng, assafelovic, nickscamara, jina-ai, mshumer und anderen entstanden
- Sie nutzen jeweils unterschiedliche Bibliotheken oder probieren andere Such- und Indexierungsverfahren aus
- Künftig sollen Reproduktionsergebnisse mit offenen LLMs, Vision-Modellen und codebasierten Aktionsdarstellungen geteilt und weiterentwickelt werden
Der wichtigste nächste Schritt
- Wichtig ist die Entwicklung eines GUI-Agenten, der fortgeschrittene Webbrowser-Funktionen wie bei OpenAIs Operator unterstützt
- Es soll als Open Source eine Funktion bereitgestellt werden, die den Bildschirm sieht und Maus sowie Tastatur bedienen kann
- Geplant ist eine Anbindung an smolagents, OpenAI Operator und ähnliche Systeme, um die Reife des Projekts zu erhöhen
- Zentrale Aufgaben sind die Verbesserung des GAIA-Scores, die Nutzung offener LLMs und die Umsetzung eines visuellen Webbrowsers
Noch keine Kommentare.