Das Denken von ChatGPT mit GPT-5 (Research Goblin) ist extrem stark bei der Suche

(simonwillison.net)

6 Punkte von GN⁺ 2025-09-08 | 1 Kommentare | Auf WhatsApp teilen

ChatGPT auf Basis von GPT-5 (auch bekannt als Research Goblin) zeigt bei der Websuche ein sehr hohes Maß an Genauigkeit und Nützlichkeit
Von gewöhnlichen trivialen Fragen bis zu komplexen Informationsrecherchen zeigt es bei einem breiten Themenspektrum starke Such- und Schlussfolgerungsfähigkeiten
In realen Beispielen liefert es durch umfangreiche Suchprozesse und verkettetes Schlussfolgern verlässliche Antworten und Quellen
Auch in der mobilen Nutzung ist eine hervorragende Bedienbarkeit und ein kontinuierlicher Arbeitsfluss möglich
Dank Tool Calling und integrierter Chain-of-Thought setzt es aus Entwicklersicht einen neuen Standard für LLM-basierte Suche

GPT-5-Denken (Research Goblin) und die Revolution der Suche

Das sich wandelnde Suchparadigma

Früher war der Ratschlag verbreitet, „Chatbots nicht wie Suchmaschinen zu benutzen“, doch mit dem aktuellen ChatGPT auf Basis von GPT-5 wird diese Regel durchbrochen
Das GPT-5-basierte Modell geht über die bloße Anbindung an Suchmaschinen wie Bing hinaus und erreicht faktisch ein Niveau, das Internetrecherche ersetzt oder übertrifft
Den Spitznamen „Research Goblin“ erhielt es, weil es bei jeder Frage oder komplexen Aufgabe mit fast unnatürlicher Hartnäckigkeit recherchiert und eine optimale Antwort ableitet

Konkrete Suchbeispiele und Ergebnisse

Kuriose Fahrsteige (Travelators)

Auf die Frage, wann die gummierte Fahrsteigfläche am Flughafen Heathrow durch Metall ersetzt wurde, schätzte es den Zeitpunkt auf 2014 bis 2018 und fand sogar einen passenden interessanten Artikel aus dem Jahr 2024

Gebäudeidentifikation

Bei der Frage nach einem exotisch wirkenden Gebäude aus dem Zugfenster identifizierte es es in 1 Minute und 4 Sekunden korrekt als „The Blade (Reading)” und lieferte Quellenlinks mit

Recherche zu Starbucks-UK-Cake-Pops

Es untersuchte eingehend, warum es in britischen Starbucks-Filialen keine Cake Pops gibt, und fand heraus, dass sie 2023 eingeführt wurden, aber in bestimmten Filialen – besonders an Reisezielen – nicht angeboten werden
Dazu bündelte es Belege wie PDFs zu Nährwerten und Allergenen sowie Reddit-Diskussionen

Die Beziehung zwischen Wikipedia und Britannica

Es analysierte eingehend die Online-Behauptung und ihren Kontext, dass Wikipedia anfangs teilweise Quellen aus der Britannica-Ausgabe von 1911 verwendet habe, und verfolgte dazu relevante Projektdokumente und Erklärungen

Offizieller Name der University of Cambridge

Es nannte die offizielle juristische Bezeichnung der University of Cambridge (The Chancellor, Masters, and Scholars of the University of Cambridge) zusammen mit Belegen
Den Schlussfolgerungsprozess legte es transparent offen, sodass sich auch die Verlässlichkeit der Antwort prüfen ließ

Geschichte der Höhlen und Restaurants am Exeter Quay

Zur innenliegenden Struktur eines in die Klippe gebauten Restaurants und seiner Geschichte im Bereich Exeter Quay klärte es über mehrstufige Recherchen und PDF-Analysen, dass der Ursprung in den 1820er- bis 1830er-Jahren in den roten Sandsteinklippen liegt
Es zeigte ein aktives Suchmuster, indem es englische Berichte und Planunterlagen fand und, falls diese nicht erreichbar waren, sogar Entwürfe für E-Mail-Anfragen erstellte

Vergleich von Aldi und Lidl

Es analysierte ausführlich Standorte, Markenbild und Marktrang von Aldi und Lidl in Großbritannien sowie Zahlen zu Marktanteilen und Verbraucherbewertungen
Auf Wunsch des Nutzers ordnete es die Ketten auch nach dem Kriterium „fanciness“ (Gehobenheit) neu ein

Bücherscans durch AI-Forschungslabore

Abgesehen vom Fall, dass Anthropic große Mengen an Büchern scannt, um Trainingsdaten zu erstellen, konnte es ähnliches Verhalten anderer AI-Forschungslabore nicht bestätigen, dokumentierte aber die Suche nach entsprechenden Hinweisen ausführlich

Die praktische Überlegenheit der GPT-5-Suche

In der ChatGPT-Suche auf GPT-5-Basis ist im Vergleich zu manueller Arbeit eine schnelle, systematische und breit angelegte Sammlung und Bewertung von Informationen möglich
Besonders in der mobilen Nutzung wurde die Bedienbarkeit stark verbessert, sodass sich alltägliche Neugier und Rechercheaufgaben jederzeit und überall erledigen lassen
Es ist in der Lage, schnelle und zugleich inhaltsreiche Ergebnisse zu liefern, die die Deep-Research-Funktion von OpenAI ersetzen können

Bedeutung aus Sicht der LLM-Entwicklung

Durch die Kombination von Tool Calling und Chain-of-Thought gehen Suche, verkettetes Schlussfolgern und zusätzliche Recherche in einem einzigen „Denk“-Schritt natürlich ineinander über
Auch RAG-Techniken (Retrieval-Augmented Generation) lassen sich durch flexible Tool-Aufrufe über mehrere Stufen und eine fortgeschrittene Suchanbindung wesentlich leistungsfähiger betreiben
In der Terminologie von Anthropic heißt das interleaved thinking, und auch die OpenAI Responses API unterstützt einen ähnlichen Ablauf

Tipps für den effektiven Sucheinsatz

Mit empirischer Intuition lässt sich die Suchqualität verbessern, etwa durch Hinweise wie „go deep“, um eine noch gründlichere Recherche auszulösen
Selbst bei interpretativen Fragen, auf die es keine eindeutig richtige Antwort gibt, liefert es nützliche und interessante Ergebnisse
Wie die Metapher des „Goblin“ andeutet, ist Research Goblin eine fleißige, aber nicht vollständig verlässliche, vom Menschen verschiedene Such-AI, die dennoch einen hohen praktischen Nutzen hat

1 Kommentare

GN⁺ 2025-09-08

Hacker-News-Kommentare

Ich stimme Simons Beitrag zu, aber ich denke, dass „Recherche“ bedeutet, verschiedene Formen von Belegen miteinander zu vergleichen. Das gilt zum Beispiel für die Wirkung von Obamacare, die Vorhersage von Gerichtsentscheidungen, die Analyse des Einflusses von Animationen oder die Nutzung von Open-Source-Bibliotheken. ChatGPT und andere LLMs tun sich jedoch schwer damit, Belege zu bewerten oder die Verzerrung von Quellen zu verstehen; besonders wenn viele Statistiken im Spiel sind, nehmen Halluzinationen oft zu, je mehr komplexes Schlussfolgern verlangt wird. Modelle haben zudem die Tendenz, die Perspektive des Nutzers unterstützen zu wollen, und antworten daher oft positiv, auch wenn man das gar nicht verlangt hat. Ich bitte ChatGPT immer, Quellen direkt zu bewerten, Pro- und Contra-Argumente zu vergleichen, und manchmal halte ich dem Modell auch Gegenargumente entgegen, um seine Reaktion zu beobachten. Ausführlichere Erfahrungen dazu gibt es im Blog
- Ich habe versucht, mit Perplexity die optimalen Einstellungen für meinen Monitor zu finden, und es hat mir eine knappe Liste von Einstellungen samt Begründung gegeben. Als ich aber die Quellen geprüft habe, gab es keine offiziellen Informationen oder belastbaren Belege, sondern nur Beiträge in Samsung-Foren, in denen Nutzer spekulierten oder diskutierten. Ein confidence rating je nach Vertrauenswürdigkeit der Quellen wäre schön, aber das scheint wirklich schwer umzusetzen zu sein
- ChatGPT und LLMs wiederholen oft nur oberflächlichen „Common Sense“. Ich stelle dann mehrfach Nachfragen, ob das wirklich belegt ist, was die Quelle ist, ob ich die zitierten Informationen sehen kann, und ob es sich nicht um Halluzinationen handelt. Erstaunlich oft stellt sich heraus, dass die erste Antwort völlig falsch war. Die meisten Menschen würden diese erste Antwort vermutlich einfach akzeptieren
- Wenn man zum Beispiel eine gut recherchierte Kaufentscheidung treffen will, ist das wirklich schwierig, weil Marketing-Meinungen den Großteil ausmachen und gegenteilige Signale wie negative Reddit- oder YouTube-Kommentare nicht ausreichend ausgeglichen werden
- GPT-5 (einschließlich des o3-Modells) ist eines der LLMs mit dem kritischsten Blick. Bei akademischen und technischen Anfragen kann es auch ohne besonderes Prompting Informationsquellen zitieren und unterschiedliche Ergebnisse vergleichen. Eine frühe Version von Grok 4 hat bloß Artikel ohne Analyse zusammengefasst, und Claude Opus 4 lag bei der Anfrage nach einer Liste von JS-Bibliotheken ebenfalls daneben und lieferte eher Dokumente zur Nutzungshäufigkeit. GPT-5 ist natürlich nicht perfekt, aber besser als der durchschnittliche Mensch
- Ich würde gern fragen, was ihr davon haltet, dass das Wort „Recherche“ für einen Funktionsumfang bei LLMs verwendet wird. Repräsentiert dieser Begriff echte Forschung ausreichend, oder ist das eher auf dem Niveau der US-Wahlkampf-Floskel „do your research“?
Ich finde, dass die Google-Suche (vor allem mit udm=14, um AI-Zusammenfassungen zu deaktivieren) immer noch eine ziemlich gute Erfahrung bietet. Bei Fragen zu Britannica und Wikipedia zum Beispiel bekomme ich bei Google und Wikipedia jeweils in 1–2 Sekunden Ergebnisse und kann in etwa 60 Sekunden selbst schnell finden, was ich wissen will. ChatGPT dagegen braucht unabhängig von der Verarbeitung etwa 3 Minuten, und ich muss die Ergebnisse selbst verifizieren und auf Halluzinationen prüfen. Es ist also beeindruckend, dass ein LLM Aufgabe X erledigen kann, aber direkt selbst zu suchen und danach zusammenzufassen ist viel effizienter
- Aufgrund meiner jüngsten Erfahrungen sehe ich das etwas anders. Wenn man Google AI-Zusammenfassungen nicht abschaltet, wird die Erfahrung definitiv schlechter. Als ich zum Beispiel ein Github-Repo gesucht habe, konnte Google die eigentliche Seite nicht finden und lieferte nur irrelevante Links. GPT braucht zwar länger, hat je nach Umfang der Recherche aber Vorteile. Bei einem tieferen Thema wie der Bewegung von StarCraft2-Einheiten war es praktisch, mit GPT in einem Durchgang Zusammenfassung, Erklärung und Code-Quellen anzufordern. Fehler kann ich dabei gut selbst herausfiltern. In Zukunft wird wohl das gesamte Browsen im Internet als LLM-basierte Unterstützung angeboten werden
- Als ich bei Google nach "Rubber bouncy at Heathrow removal" gesucht habe, bekam ich drei Links als Ergebnis, während ChatGPT bei der Belegführung offenbar teilweise halluziniert hat. Auch bei umgekehrter Bildersuche oder der Suche nach Starbucks-Pop-Preisen ist es oft effektiver, direkt selbst zu suchen. Trotzdem bevorzugen viele Menschen ChatGPT wegen der Bequemlichkeit, Web-Informationen in einer einzigen Antwort zu bekommen. Selbst wenn gelegentlich Halluzinationen auftreten, scheint man diesen Preis zunehmend in Kauf zu nehmen. So wie man früher Bibliotheken mehr vertraute als Wikipedia, könnte die Weiterentwicklung von LLMs einen neuen Paradigmenwechsel auslösen
- Mein Vorschlag wäre, bei Google-Experimenten die am schwierigsten zu beantwortenden Beispiele zu nehmen
- Ich habe eine einfache Frage im GPT-5-Auto-Modus gestellt, und die Antwort begann nach 2 Sekunden, mit zwei korrekten Links in gut lesbarem Tempo. Im Think-Modus dauerte es etwa 2 Minuten, dafür wurden verschiedene Quellen verglichen und jede Zusammenfassung belegt. Ich nutze GPT tatsächlich sehr gut für schwer auffindbare Informationen von Kommunalverwaltungen oder für die Analyse komplexer Open-Source-PRs. Es ist wirklich nützlich, weil es mir die Mühe erspart, viele Vorschläge selbst durchzulesen
- Wenn Menschen das Web nicht mehr direkt besuchen, sondern nur noch mit Agenten interagieren, frage ich mich, wie sich das Web verändern wird. Das wird eine interessante Phase des Wandels
Ich habe oft den Reddit-Sub „Tip of My Tongue“ genutzt, um alte Informationen wiederzufinden, an die ich mich noch vage erinnern konnte, aber längst nicht alles wurde dort gelöst. Mit der Deep-Research-Funktion habe ich vier Probleme, die ungelöst geblieben waren, in einer Stunde geklärt, und beim fünften habe ich immerhin selbst eine Spur gefunden. Auch wenn es beim logischen Schlussfolgern Schwächen gibt, ist es enorm stark darin, dutzende Suchergebnisse schnell zu verdauen und selbst aus losen Beschreibungen relevante Informationen herauszuziehen. Jetzt kann ich in wenigen Minuten auf diese Suchpower zugreifen, ohne mich mit Spambots auf Reddit oder Nutzern, die Regeln ignorieren, herumzuschlagen
- Bei der Informationssuche gibt es einen Unterschied zwischen klassischen Dokument-Links und aus Suchergebnissen generierten Inhalten, und dieser generierte Content ist wirklich nützlich und faszinierend. Gleichzeitig vergesse ich aber nicht, dass solche Ergebnisse oft falsch sein können. Wenn man Antworten mit einem confidence level versehen könnte, hätte das vermutlich auch geschäftlich Bedeutung
Ich denke auch, dass ChatGPT großartig für Recherche ist, aber es gibt immer wieder pathologische Fälle, in denen es oberflächliche und potenziell falsche Antworten liefert. Selbst wenn objektive Primärquellen online verfügbar sind, kann es danebenliegen, deshalb teile ich diesen passenden Blogbeitrag
- Ich glaube, dein beschriebener Fall ist in Wirklichkeit anders. Deine Sicht weicht von den Papers ab, und du hast das in einem Blog festgehalten, wodurch es so wirkt, als wolltest du, dass ChatGPT deine Perspektive übernimmt. Für eine objektive Bewertung scheint das Grenzen zu haben
- Ich habe das Gefühl, dass ChatGPT in letzter Zeit instabiler geworden ist. In mehr als der Hälfte der Antworten erfindet es Belege, vergisst den Kontext oder liegt einfach falsch. In Aistudio kann Gemini/Aistudio den Zusammenhang selbst mit über 300.000 Tokens gut halten, während ChatGPT bei großen Informationsmengen schwächer wirkt
- Ich habe sehr ähnliche Erfahrungen gemacht. Mit GPT5 Thinking wird es etwas besser, aber im Vergleich zu o3 oder o1 scheint es trotzdem Dinge zu übersehen. Ich habe GPT5 zum Beispiel nach der Onsen-Episode aus dem Botchan-Roman gefragt, und es gab eine subtil falsche Erklärung. Im eigentlichen Roman schwimmt der Protagonist im Onsen und blamiert sich später wegen eines Verbotsschilds, aber GPT5 konzentrierte sich nur auf die Erklärung der Regeln
- Ich finde deinen Beitrag interessant und diskussionswürdig. Ehrlich gesagt denke ich zwar, dass GPT bessere Antworten hätte geben können, aber die Frage, an welchem Punkt man eine Recherche abbrechen sollte, ist ebenfalls sinnvoll. Wenn man auch weniger vertrauenswürdige Quellen vollständig einbezieht, endet die Diskussion womöglich nie. Daher scheint es ein vertretbarer Trade-off zu sein, bei einer allgemein akzeptierten Schlussfolgerung stehenzubleiben
Früher hatten die „heavy“-Modelle gefühlt enzyklopädisches Wissen eingebaut, während die neueren „lighter“-Modelle sich auf Websuche stützen und dadurch nur oberflächliche Informationen liefern. Ich vermisse die Stärke von Modellen, die sich an unzählige Offline-Dokumente erinnern konnten
- Ich sehe das genau umgekehrt. Das im Modell enthaltene Wissen kann halluziniert sein, also braucht man sowieso immer separate Verifikations-Recherche. Wenn das LLM die Suche und Zusammenfassung bereits übernimmt, muss man nur noch die Quellen prüfen, was viel bequemer ist. Kagi Assistant erfüllt diese Rolle gut
- Ich hatte die Suchfunktion lange deaktiviert, habe aber kürzlich in benutzerdefinierten Anweisungen Modi für Websuche und internes Wissen ergänzt. Bei xz nutzt es Websuche, bei xx nur internes Wissen. Das lässt sich innerhalb einer Sitzung frei umschalten
- Modelle ohne Suche sind schwergewichtig, suchbasierte Modelle leichtgewichtig, hängen dafür aber von aktuellen realen Daten ab. Ich habe zwischen beidem gewechselt und bevorzuge zuletzt eher die leichten, quellenbasierten Modelle
- Tatsächliches Wissen ist extern gespeichert. Deshalb sind Bibliotheken an Universitäten so wichtig. Auch Agenten kommen nicht allein mit Erinnerung aus
- Ich habe teilweise auch diesen Eindruck. Es wäre interessant, wenn ein leichtes Websuch-Modell pro Seite eine Ansicht bieten würde, die zwischen bereits bekannten Informationen, neuen Informationen sowie behaupteten Belegen und Widersprüchen unterscheidet
Der Autor verarbeitet „unangemessen viel Arbeit“, um im Internet Antworten zu finden, und scheint diese Verschwendung von Rechenressourcen begeistert hinzunehmen. Ich frage mich, ob das wirklich das Ziel sein kann und ob eine solche „wild goose chase“, bei der man enorme Ressourcen für unbedingt richtige Antworten aufwendet, gerechtfertigt ist
- Historisch gesehen haben auch viele Menschen ein ganzes Leben mit vergeblicher Suche verbracht. Newton und Einstein ebenfalls; selbst Genies waren da keine Ausnahme
ChatGPT ist wirklich beeindruckend, aber Lehrer an Highschools oder Professoren an Universitäten werden es mit solchen Tools schwer haben. Wenn man etwa eine Aufgabe stellt wie „Recherchiere so tief wie möglich nach Belegen dafür, dass Der Herr der Ringe von Gormenghast beeinflusst wurde“, werden Schüler automatisch Deep Research benutzen Beispiel zum Teilen
- Ich frage mich, ob du die Fakten wirklich selbst überprüft und alle Links angeklickt hast, um die Quellen zu kontrollieren. Ich hatte früher auch schon Fälle, in denen ChatGPT damit geprahlt hat, etwas „gelöst“ zu haben, obwohl es in Wirklichkeit nur Wikipedia war und dazu noch falsch
- Schüler, die in der Schule betrügen, sind meistens faul und interessieren sich nicht für hochwertige Aufgaben, unabhängig von irgendwelchen Hierarchien. Es gibt für sie keinen Grund, den zeitintensiven Thinking-Modus zu verwenden
- Ich fand die Verwendung eines Neologismus wie „steel-man“ in der ChatGPT-Antwort witzig
- In Workshops für Lehrkräfte könnte man sokratische Fragetechniken vermitteln und Ideen dazu geben, wie Kinder Informationen aus Google oder ChatGPT selbst argumentativ aufarbeiten. Das wäre ein Ansatz, bei dem sie das durch LLM-Recherche verstärkte Wissen selbst formulieren und ihren aktuellen Wissensstand ordnen
Solche Antworten betreffen Fragen, die man in Brave Search eingeben und in wenigen Sekunden lösen könnte, trotzdem brauchen LLMs dafür erstaunlich lange
- Ich mag Brave, aber die Suchergebnisse fand ich nicht besonders gut. Auch die AI-Funktionen sind okay, aber die tatsächlich gewünschten Ergebnisse tauchen kaum auf
- Heutzutage gibt es so viele SEO-optimierte Low-Quality-Seiten wie eine Mauer, dass ich das nicht so leicht akzeptieren kann
- Mit Chat+Search hat man den Vorteil, ohne Werbung, Klicks, Content-Farmen oder Malware-Sorgen direkt eine Antwort zu bekommen
Ich bin verwirrt, welche Funktion das hier ist: „Web Search“, „Deep Research“ oder „Agent Mode“ von ChatGPT. Die Zusammenstellung der Features ist wirklich interessant
- Weder Deep Search noch Agent Mode. Ich wähle einfach „GPT-5 Thinking“ und aktiviere nur das normale Such-Tool
- Meiner Erfahrung nach ist das Ergebnis letztlich kaum mehr als „Reddit durchsucht und dann Kommentare obendraufgelegt“
- Man sollte auch „ChatGPT 5 Pro“ nicht vergessen. Das ist etwas anders als Deep Research
- Ich glaube, es ist einfach der Standardmodus. Selbst wenn man die Websuch-Option nicht explizit aktiviert, sucht es automatisch. Ich frage mich, warum es dann überhaupt noch eine separate Option gibt
- Mein Eindruck ist, dass es zumindest der ChatGPT-5-Thinking-Modus mit auf Profilebene aktivierter Websuche ist. Wenn es um aktuelle Informationen oder Rechercheanfragen geht, neigt ChatGPT dazu, tiefer nachzudenken und zu recherchieren
Ich wollte wissen, wie viel Gewinn ein Podcast macht, den ich höre. Zwei Comedians aus Phoenix haben ohne Gefolgschaft angefangen und sind jetzt weit oben in den Apple-Charts. Früher konnte ich dazu keine klare Antwort finden, aber GPT-5 hat „übermäßig“ viel Recherche betrieben und verschiedene Quellen gegengeprüft und mir dann einen plausiblen Bereich genannt
- Mich würde dann interessieren, wie hoch dieser Bereich war
- In letzter Zeit scheinen auch GPTs längere Antworten zu produzieren. Google Gemini liefert manchmal unnötige „Papers“, und auch ChatGPT tendiert eher zu weitschweifigen Berichten statt zu informativeren Antworten. Vermutlich vertrauen Menschen solchen langen Report-Formaten mehr. Außerdem gilt: Selbst wenn detaillierte Begründungen oder Zahlen auftauchen, sind manche Antworten leicht zu verifizieren und andere schwer. Ich mache mir Sorgen, dass meine eigenen Recherchefähigkeiten verkümmern könnten, wenn ich LLMs zu oft nutze. Und beim Experimentieren mit MCP hatte ich den Eindruck, dass dabei absurd viele Ressourcen verbraucht werden. Es wirkt so, als würde OpenAI solche Deep-Recherche derzeit mit Verlust billig anbieten; wenn die Preise später stark steigen, könnte schon die Abhängigkeit selbst riskant werden

Das Denken von ChatGPT mit GPT-5 (Research Goblin) ist extrem stark bei der Suche

GPT-5-Denken (Research Goblin) und die Revolution der Suche

Das sich wandelnde Suchparadigma

Konkrete Suchbeispiele und Ergebnisse

Kuriose Fahrsteige (Travelators)

Gebäudeidentifikation

Recherche zu Starbucks-UK-Cake-Pops

Die Beziehung zwischen Wikipedia und Britannica

Offizieller Name der University of Cambridge

Geschichte der Höhlen und Restaurants am Exeter Quay

Vergleich von Aldi und Lidl

Bücherscans durch AI-Forschungslabore

Die praktische Überlegenheit der GPT-5-Suche

Bedeutung aus Sicht der LLM-Entwicklung

Tipps für den effektiven Sucheinsatz

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare