Die Probleme von OpenAI Deep Research
(ben-evans.com)> „OpenAIs Deep Research wurde für mich gemacht, aber ich kann es nicht benutzen. Es sieht wie eine großartige Demo aus, aber am Ende treten unvermeidlich Probleme auf. Und die Art, wie diese Probleme auftreten, ist ziemlich interessant.“ – Benedict Evans
- Meine Hauptarbeit besteht aus Research und Analyse
- Ich suche die gewünschten Daten, bereite sie auf, erstelle Diagramme, gewinne daraus Erkenntnisse und drücke diese in Text und Charts aus
- Auf Basis dieser Ergebnisse spreche ich dann mit anderen Menschen darüber
- OpenAIs Deep Research wirkt wie eine Lösung, die genau diese „Research-Arbeit“ automatisiert
- Ich wollte testen, ob dieses Tool dafür tatsächlich geeignet ist
- Das Thema des von Deep Research bereitgestellten Beispielberichts war zufällig der „Smartphone-Markt“, ein Bereich, den ich gut kenne
- Die im Beispielbericht gezeigte Tabelle sah auf den ersten Blick hervorragend aus
- Aber zuerst muss man die grundlegende Frage stellen: „Woher stammen diese Daten eigentlich?“
- Deep Research nannte „Statista“ und „Statcounter“ als Quellen, aber beide Quellen haben Probleme
- Statcounter basiert auf Traffic-Statistiken und neigt wegen Verzerrungen bei der Gerätenutzung dazu, bestimmte Plattformen über- oder unterzugewichten
- Statista nutzt SEO-Optimierung, um andere Quellen neu aufzubereiten; die eigentliche Quelle liegt also woanders
- Das unterscheidet sich kaum davon, zu sagen, „die Quelle sind die Google-Suchergebnisse“
- Schaut man sich als Beispiel die Zahlen zum iOS-/Android-Marktanteil in Japan an, gibt Deep Research „iOS 69 %, Android 31 %“ an
- Statcounter selbst hat innerhalb des letzten Jahres nie einen Wert von 69 % ausgewiesen
- Die tatsächliche Quelle hinter Statista ist Kantar Worldpanel, und die von Kantar gelieferten Zahlen sind nahezu das genaue Gegenteil (etwa Android 63 %, iOS 36 %)
- Gleichzeitig nennt Material einer japanischen Regierungsbehörde (Link, Seite 25) „rund 53 % Android, 47 % iOS“
- Außerdem schwanken Kantars Zahlen von Monat zu Monat teils um bis zu 20 Prozentpunkte, weshalb sie kaum als Daten zur „tatsächlich installierten Hardwarebasis“ taugen
- Um all diese Abweichungen zu prüfen, muss man am Ende doch jede Zahl in der Tabelle erneut verifizieren
- In diesem Fall verschwindet der eigentliche Grund für den Einsatz des Tools – der Zeitgewinn – weitgehend
- Letztlich wird es dadurch schwer, den von Deep Research in die Tabelle eingetragenen Daten zu vertrauen
- Das Problem hier ist, dass „ein LLM keine Datenbank ist“
- LLMs sind stark darin, die Absicht hinter einer Frage probabilistisch zu erfassen, aber schwach bei „deterministischen“ Aufgaben wie dem exakten Extrahieren von Zahlen aus einer bestimmten Quelle
- Deep Research müsste korrekt verstehen, welche Art von Marktanteil gemeint ist, und dann die richtigen Zahlen aus einer verlässlichen Quelle holen – genau das ist hier nicht gelungen
- Das zeigt letztlich das Phänomen, dass „LLMs das gut können, worin Computer schlecht sind (Kontext verstehen), aber schlecht in dem sind, worin Computer gut sind (präzise Informationsextraktion)“
- OpenAI versucht, sowohl die Rolle der Interpretation der Nutzerabsicht als auch die der präzisen Informationsbeschaffung zu übernehmen, aber im aktuellen Zustand entsteht dabei eine Fehlanpassung
- Zudem treten Fehler sogar in einem Beispiel auf, das OpenAI selbst zu Werbezwecken präsentiert hat
- Manche Leute könnten sagen: „Das Modell wird sich schrittweise verbessern, also wird es besser werden.“
- Doch selbst wenn eine Tabelle zu 85 % korrekt ist, bleibt ihre Gesamtzuverlässigkeit niedrig, wenn die übrigen 15 % falsch sind
- Erst bei einer Annäherung an 100 % wird „vollständig automatisierter Research“ möglich – und ob dieser Punkt überhaupt erreichbar ist, bleibt fraglich
- Trotzdem bedeutet das nicht, dass diese Technologie völlig nutzlos ist
- Wenn man sich in einem Thema gut auskennt, kann man einen 20-seitigen Bericht schnell erzeugen und dann nur die Fehler selbst korrigieren, was durchaus Zeit spart
- Ich nenne LLMs „unendliche Praktikanten“ – ähnlich wie ein von einem Praktikanten gelieferter Entwurf noch Korrekturen braucht
- Mit einem Verweis auf Steve Jobs’ Ausspruch, der Computer sei ein Fahrrad für den Geist, lässt sich sagen: Als Werkzeug zur Unterstützung menschlicher Fähigkeiten kann das sehr nützlich sein
- Grundsätzlich bleiben jedoch zwei Probleme
- Es ist unklar, ob man ein Produkt bauen sollte, das davon ausgeht, dass das Modell Fehler machen kann, oder ob man annehmen sollte, dass das Modell selbst irgendwann vertrauenswürdig wird
- Unternehmen wie OpenAI verfügen abgesehen von großem Kapital nicht über besondere Eintrittsbarrieren oder ausgeprägte Produktstärken außerhalb von Bereichen wie Coding und Marketing
- Damit ein Versuch wie Deep Research zu mehr wird als nur „Textbox + API“, muss er Fehlerbehandlung und Nutzungskontext lösen
- Konkurrenten wie Perplexity treten ebenfalls auf, und letztlich erscheint ein Szenario wahrscheinlich, in dem andere Software auf Basis einer LLM-abstrahierenden API die Fehlerquote verwaltet
- Fazit: Deep Research ist ein interessanter Ansatz, aber seine Zuverlässigkeit lässt sich derzeit noch schwer garantieren, und in welche Richtung sich die Branche entwickelt, ist ungewiss
Noch keine Kommentare.