- Der ChatGPT-Agent nutzt einen eigenen virtuellen Computer, um komplexe Aufgaben der Nutzer von Anfang bis Ende zu erledigen
- Er bildet ein neues agentisches System, das die Website-Interaktionsfähigkeit von Operator und die Informationsanalyseleistung von Deep Research kombiniert und flexibel bis hin zu Klicken, Eingaben und Code-Ausführung arbeitet
- Nutzer können den Agenten anweisen, Aufgaben wie das Ausfüllen von Formularen, Buchungen oder das Erstellen von Dateien zu übernehmen, und jederzeit eingreifen
- In verschiedenen realitätsnahen Benchmarks wie SpreadsheetBench, DSBench und BrowseComp wurden im Vergleich zu früheren Modellen überlegene Ergebnisse nachgewiesen
- Pro-, Plus- und Team-Nutzer können die Funktion ab heute verwenden; auch Nutzerdatenkontrolle und Sicherheitsfunktionen wurden sorgfältig konzipiert
ChatGPT-Agent verbindet Recherche und Aktionen
Einführung der Agent-Funktion
- ChatGPT wurde so erweitert, dass es über einen eigenen virtuellen Computer komplexe Aufgaben stellvertretend für den Nutzer ausführen kann
- Der ChatGPT-Agent vereint die Analysefähigkeiten von Operator (interaktionsbasiert über einen Remote-Browser) und Deep Research (ein Tool für mehrstufiges Web-Reasoning) in einem einzigen Agentenmodell
- Operator war stark bei Web-Interaktionen wie Scrollen, Klicken und Formulareingaben, hatte aber Grenzen bei tiefgehender Analyse oder beim Verfassen von Berichten
- Deep Research war dagegen auf Analyse und Zusammenfassung spezialisiert, konnte jedoch nicht in Echtzeit mit Websites interagieren oder auf authentifizierte Inhalte zugreifen
- Durch die Zusammenführung der komplementären Stärken beider Werkzeuge bietet das System hohe Effizienz in einer einzigen Umgebung, von Klicks über Filter bis zur Datenerfassung
- Innerhalb der Chat-Oberfläche ist ein flexibler Wechsel zwischen Unterhaltung und Anfragen möglich
- Beispiele:
- „Analysiere drei Wettbewerber und erstelle eine Slideshow“
- „Fasse mein nächstes Meeting auf Basis der neuesten Nachrichten zusammen“
Funktionsweise und Interaktion
- Der ChatGPT-Agent ist mit verschiedenen Werkzeugen für den Webzugriff ausgestattet, darunter ein GUI-basierter visueller Browser, ein textbasierter Browser und direkte API-Anbindungen
- Bei der Ausführung einer Aufgabe kombiniert das System Browser, APIs und textbasiertes Reasoning je nach Situation auf die effizienteste Weise und wählt dynamisch den optimalen Pfad
- Es erledigt End-to-End-Aufgaben wie Website-Klicks, Filtern, Login-Hinweise, Code-Ausführung, Ergebniszusammenfassungen und die Erstellung von Slideshows
- Nutzer können während der Aufgabe jederzeit eingreifen und die Browser-Steuerung direkt übernehmen
- Es ist jederzeit möglich, zusätzliche Anweisungen zu geben, die Arbeitsrichtung zu ändern, zu stoppen oder das aktuelle Ergebnis anzufordern
- Eine laufende Aufgabe kann jederzeit unterbrochen und neu gestartet werden; durch gemeinsamen Kontext bleibt die Konsistenz erhalten
- Bei Unsicherheit fordert ChatGPT proaktiv zusätzliche Informationen an
- Über die Nutzeranmeldung kann auch sicher auf Unternehmens- oder persönliche Daten zugegriffen werden
Herausragende Leistung und Anwendungsfälle
- In anerkannten Benchmarks wurden gegenüber früheren Modellen deutlich bessere Werte erzielt
- Humanity’s Last Exam: 43,1 Punkte bei Fragen auf Expertenniveau
- DSBench: Deutlich überlegen gegenüber früheren Modellen bei Data-Science-Aufgaben
- SpreadsheetBench:
- 45,5 % bei direkter Bearbeitung von
.xlsx-Spreadsheets und damit deutlich besser als GPT‑4o (13,38 %) und Excel Copilot (20 %)
- WebArena: Auch bei realen Web-Interaktionsaufgaben besser als das frühere Operator-Modell
- BrowseComp: Bestwert von 68,9 Punkten bei der Fähigkeit, schwer auffindbare Web-Informationen zu sammeln
- Auch bei Aufgaben von Investmentbank-Analysten und komplexen Datenanalysen lieferte das System präzisere und umfassendere Ergebnisse als frühere Werkzeuge
- Hoher praktischer Nutzen für Arbeitsalltag und tägliche Automatisierung
- Beruflich:
- Automatische Erstellung von Präsentationen
- Abstimmung von Meeting-Terminen
- Aktualisierung von Spreadsheets auf Basis von Finanzdaten
- Privat:
- Planung und Buchung von Reisen
- Organisation von Veranstaltungen und Vermittlung an Fachleute
Aktivierung, Einsatzszenarien und Grenzen
- Nach Auswahl des „Agent Mode“ startet die automatische Ausführung, sobald eine Aufgabe einfach auf Koreanisch oder Englisch beschrieben wird
- Während des Ablaufs gibt es eine Bildschirm-Narration; bei Bedarf ist manuelle Steuerung möglich
- Ein flexibles Credits-System mit automatischer Planung wiederkehrender Aufgaben und monatlichen Nutzungsgrenzen wurde eingeführt
- Bestehende Nutzer von Operator/Deep Research werden nach einer vorübergehenden Nutzung von weniger als 30 Tagen in den Agenten integriert
- Einige neue Funktionen wie die Slideshow-Erstellung befinden sich noch im Beta-Status; Ausgabequalität und Vollständigkeit sollen später verbessert werden
Sicherheit, Datenschutz und Schutz vor Missbrauch
- Vor Aufgaben mit Auswirkungen auf die reale Welt werden zwingend Bestätigung der Nutzeridentität und Handlungserlaubnis eingeholt
- Für sensible Aufgaben, die aktive Aufsicht erfordern, ist eine schrittweise Freigabe notwendig; risikoreiche Transaktionen und rechtliche Interaktionen werden abgelehnt
- Gegen bösartige Angriffe Dritter wie Prompt Injection wurden Erkennungs- und Abwehrmechanismen entwickelt; in unklaren Fällen werden Risiken und Optionen angezeigt, und die Ausführung erfolgt erst nach endgültiger Bestätigung durch den Nutzer
- Zur Missbrauchsvermeidung gelten die bestehenden Sicherheitsrichtlinien von ChatGPT in verschärfter Form; außerdem werden die Nutzungsbedingungen und Richtlinien von OpenAI verbindlich durchgesetzt
- Zur Stärkung des Datenschutzes werden Daten aus dem Remote-Browser nicht auf eigenen Servern gespeichert
- Die Kontrolle über Browsing-Daten und Sitzungen liegt vollständig beim Nutzer, einschließlich sofortiger Löschung oder Abmeldung
- Im Direct Control Mode kann ChatGPT persönliche Eingaben des Nutzers nicht einsehen
Bereitstellung, Richtlinien und Nutzungshinweise
- Abonnenten von Pro, Plus und Team können die Funktion sofort nutzen; für Enterprise- und Bildungsnutzer ist eine Ausweitung im Juli geplant
- Pro bietet nahezu unbegrenzte Nutzung, andere Tarife erhalten 50 Vorgänge pro Monat plus ein System mit zusätzlichen Credits
- Durch die Einbindung individueller Workflows und Konnektoren lassen sich vielfältige Szenarien wie die Zusammenfassung schreibgeschützter Informationen oder die Analyse von Zeitplänen umsetzen
- Die Operator Research Preview endet nach 30 Tagen; Deep Research kann bei Bedarf separat aktiviert werden
- Der ChatGPT-Agent wird laufend verbessert; Intelligenz für tiefere und flexiblere Workflows sowie die Ausgabequalität sollen schrittweise steigen
Slideshow-Funktion und weitere Ausrichtung
- Die Slideshow-Erstellung befindet sich derzeit in der Beta-Phase; ohne bestehende Dokumente können Qualität und Format noch unzureichend sein
- Elemente wie Text, Diagramme und Bilder werden als leicht bearbeitbare Vektoren aufgebaut, um Struktur und Flexibilität zu verbessern
- Upload-Funktionen sind bereits für Spreadsheets verfügbar, für Slideshows jedoch erst später geplant
- Künftig werden vielfältigere Funktionen, Formate und verfeinerte Ausgaben erwartet, was die Automatisierungsfähigkeit weiter verbessern soll
Weitere Leistungsvergleiche und Maßstäbe
| Modell |
Zellenbasis |
Blattbasis |
Gesamtpunktzahl |
| GPT‑4o |
15.86% |
18.33% |
16.81% |
| OpenAI o3 |
22.40% |
24.60% |
23.25% |
| ChatGPT-Agent |
38.27% |
30.48% |
35.27% |
| ChatGPT (.xlsx) |
50.56% |
37.51% |
45.54% |
| Mensch |
75.56% |
65.00% |
71.33% |
- Laut Benchmark-Tabelle liegt der ChatGPT-Agent bei der Verarbeitung im
.xlsx-Umfeld und in der LibreOffice-Bewertung zwar noch unter menschlichen Werten, erreicht unter den KI-Modellen jedoch ein klar herausragendes Niveau
- Je nach Bewertungsumgebung können einzelne Werte leicht abweichen; über alle 912 Bewertungsaufgaben für Spreadsheets hinweg wurde jedoch die Gesamtleistung belegt
1 Kommentare
Hacker-News-Kommentare
Ich fand das Beispielvideo zur „Tabellenkalkulation“ interessant. Normalerweise brauche man 4–8 Stunden, um komplexe, datenreiche Reports zu erstellen, aber jetzt könne man den Agenten damit beauftragen, spazieren gehen und danach die Daten erhalten. Angeblich seien 98 % korrekt übernommen worden und man müsse nur noch ein paar Dinge kopieren/einfügen. Ich denke, das spart 90–95 % der Zeit. Gleichzeitig habe ich das Gefühl, dass das Auffinden dieser 2 % Fehler in Wirklichkeit sehr viel Zeit kosten kann. Gerade bei komplexen Aufgaben oder wenn Geld im Spiel ist, kann „fast richtig“ zu einem großen Problem werden. Wenn sich diese subtilen 2 % Fehler irgendwo in mehreren Schritten verstecken, ist das wirklich kritisch
Die Sicherheitsbedrohung wirkt auf mich wirklich beängstigend. Wenn ich zum Beispiel Zugriff auf E-Mail und Kalender gebe, kann das System alle meine Geheimnisse kennen. Auch im Artikel wird das Risiko von Prompt Injection eingeräumt. Auf bösartigen Webseiten könnten Prompts in unsichtbaren Elementen oder Metadaten versteckt werden, und wenn der Agent das nicht erkennt, könnten persönliche Daten an Angreifer abfließen. Ich denke, eine bösartige Website könnte meine Geheimnisse abgreifen. Eine Frage ist für mich noch offen: Im Artikel heißt es, vor wichtigen Aktionen werde unbedingt die Bestätigung des Nutzers eingeholt — aber wie genau entscheidet die AI, was eine „wichtige Aktion“ ist? Könnte es nicht passieren, dass aus Versehen eine Zahlung ohne Bestätigung ausgelöst wird?
Studie zu Agentic Misalignment
Dort wird analysiert, dass das Verhalten einer internen Bedrohung ähneln kann, bei der ein zuvor vertrauenswürdiger Kollege plötzlich entgegen den Unternehmensrichtlinien handelt
Vielleicht weil ich selbst ein Agent-Business aufbaue, sehe ich sehr klar, dass der Sprung von 90 % auf 99 % im LLM-Bereich ein extrem schwieriges Last-Mile-Problem ist. Je allgemeiner ein System sein soll, desto größer werden Scheitern und Enttäuschung. Tatsächlich hat man oft den Eindruck, dass nur die Teile optimiert werden, die im Demo leicht gut aussehen, während die unangenehme Realität versteckt bleibt. Das heißt aber nicht, dass Agenten wertlos sind — nur, dass man potenzielle Wirkung und übertriebene Erwartungen auseinanderhalten sollte
Aber ich denke, „Agenten“ sind eher ein Marketingbegriff, und es fehlt eine belastbare Grundlage, um sie so universell einzusetzen wie LLMs. Relevante Daten dazu gibt es auch kaum
Bei bisherigen CLI-Agenten war die fehlende Sitzungsfortsetzung ein großes Problem, aber diesmal scheint dieser Punkt gut gelöst zu sein. Früher konnte man beim Ausführen von Claude Code im lokalen Terminal den nötigen Kontext leicht mitgeben, aber sobald man den Laptop zuklappte und die Verbindung verlor, stoppte alles.
Als Notlösung ließ ich unter macOS mit Amphetamine Prozesse weiterlaufen, selbst wenn das Gerät zugeklappt war, aber das führte zu Hitze- und Akku-Problemen. Alternativ konnte man das Repo auf eine Cloud-Instanz klonen, sich per
tmuxverbinden und dort Claude laufen lassen. Allerdings blieb das UX-Problem des mühsamen Kontext-Nachladens immer bestehen. Durch Sandboxing kann man sich eine gewisse Sicherheit erwarten, und man kann es auch mit bestimmten Account-Berechtigungen ausführen.Ich finde es interessant, dass OpenAI offenbar über eine Agent-UX nachdenkt, die auch für Nicht-Entwickler nutzbar ist
Ich habe OpenAI Operator lange genutzt, aber in letzter Zeit wird es bei LinkedIn und Amazon blockiert. Genau diese beiden Seiten waren zentrale Einsatzorte — für Bewerbungen und Shopping. Operator fiel vergleichsweise wenig auf, aber wenn Agent immer bekannter wird, werden vermutlich noch mehr Websites blockieren. Am Ende wird man wohl Proxy-Konfigurationen unterstützen müssen
agenttutor.com
robots.txthalten, dürfte bald enden. Wahrscheinlich werden Nutzer eher Browser-Erweiterungen oder ganze Browser direkt installieren und sie mit ihren eigenen Cookies und ihrer eigenen IP arbeiten lassenIn der Prognose des AI-2027-Teams heißt es: Mitte 2025 erscheinen „taumelnde Agenten“. Die ersten AI-Agenten werden der breiten Öffentlichkeit vorgestellt.
Werbung für persönliche Assistenten, die den Computer stellvertretend bedienen, wird überall auftauchen. Prompts wie „Bestell mir einen Burrito über DoorDash“ oder „Nenn mir die Summe dieses Monats aus der Budget-Tabelle“ werden stark betont. Zwar seien sie besser als frühere Operatoren, aber für die breite Verbreitung werde es schwierig bleiben
Noch immer fehlt die einfache Funktion, die ich eigentlich will: Dokumentbearbeitung innerhalb eines Projekts. Ich arbeite projektbezogen an mehreren Dokumenten gleichzeitig — Artikeln, Forschung, Skripten und mehr. Ich möchte mit Hilfe von ChatGPT satzweise an diesen Texten weiterarbeiten. Ich stelle mir sogar Sprach-zu-Dokument-Arbeit beim Spazierengehen vor, etwa: „Wie weit war ich gerade in dem Dokument? Lies die letzten zwei Absätze vor … Ab hier schreibe ich etwas länger weiter.“ Coding-Unterstützung entwickelt sich rasant, aber beim Schreiben bleibt es leider immer noch meist beim Copy-and-Paste-Workflow
Es gab viele Versuche, LLMs einen VPS zur Verfügung zu stellen, aber bei OpenAI ist die UI-Umsetzung diesmal wirklich stark. Text-Overlays, ein gut lesbarer Mauszeiger und eine angepasste UI helfen dem Nutzer, Fortschritt und Gründe auf einen Blick zu verstehen. Ich finde, das UI-Team von OpenAI macht hier hervorragende Arbeit. Spannend ist auch, dass dadurch eine neue visuelle Ebene in die Nutzung von LLMs kommt, und ich würde mir davon gern etwas für eigene Projekte abschauen.
Funktional spüre ich keinen großen Unterschied zu Claude+XFCE, aber bei der visuellen Ausarbeitung wirkt OpenAI deutlich benutzerfreundlicher. Frühere Implementierungen waren dagegen oft schwer lesbar
Ich kann mir schwer vorstellen, dass Agenten auf dem jetzigen Niveau für mein reales Leben wirklich nützlich sind. Wenn ich einen Date Night mit meiner Frau planen will, muss das System den Kalender prüfen, passende Restaurants empfehlen, einen Babysitter buchen und vieles mehr — und dafür braucht es enormes Vertrauen. Es ist aufregend, wie sich diese Technik weiterentwickelt, aber im Moment wirkt sie für mich vor allem in Demos überzeugend. Für den realen Einsatz braucht es massive Systemintegration, und wenn Apple oder Microsoft ihre Integrationsstärke ausspielen, könnten daraus tatsächlich wirklich nützliche Agenten entstehen
Ich glaube nicht, dass Aufgaben wie die Planung einer Geburtstagsparty für die eigene Tochter früher gelöst werden als mathematische Millennium-Probleme
Ich denke, das „One-Shot-Ausführungsmodell“ von Agenten ist UX-seitig eher falsch. Statt sie durch viele Apps springen zu lassen, ist ein einfacher, asynchroner Chat-Austausch über genau die jeweils benötigten Teile vermutlich der eigentliche Schlüssel dafür, dass so etwas im Alltag ankommt
Was mich wirklich beeindruckt hat, war, wie stark die Risiken betont wurden, wenn man Zugriff auf echte Kontodaten und sensible Informationen erlaubt