- Operator, die neue Entwicklung von OpenAI, ist ein KI-Agent, der selbstständig im Web navigieren und Aufgaben ausführen kann
- Er verwendet einen eigenen Browser, um Webseiten zu sehen und über Eingaben, Klicks und Scrollen mit ihnen zu interagieren
- Da sich der Dienst noch in der Forschungs-Preview befindet, gibt es weiterhin Einschränkungen; er soll anhand von Nutzerfeedback weiterentwickelt werden
- Als KI, die Aufgaben eigenständig ausführen kann, gehört er zu den ersten Agenten, die Anweisungen von Nutzern entgegennehmen und diese anschließend ausführen
- Er soll Zeit sparen, indem er wiederkehrende Browser-Aufgaben übernimmt, z. B. Formulare ausfüllen, Lebensmittel bestellen oder Memes erstellen
- Der Dienst wird zunächst für Pro-Nutzer in den USA bereitgestellt; später sind Plus-, Team- und Enterprise-Versionen sowie eine Integration in ChatGPT möglich
Wie Operator funktioniert
- Er basiert auf dem neuen Modell Computer-Using Agent (CUA)
- Es kombiniert die Vision-Funktionen von GPT-4o mit einem fortschrittlichen, auf Reinforcement Learning basierenden Reasoning-Ansatz, um Interaktionen mit GUIs (Buttons, Menüs, Textfelder usw.) zu ermöglichen
- Über Screenshots kann es den Browser-Bildschirm „sehen“ und Aufgaben durch die Bedienung von Maus und Tastatur ausführen
- Wenn während einer Aufgabe Fehler oder Hindernisse auftreten, nutzt es selbstkorrigierendes Reasoning oder übergibt die Steuerung bei Bedarf an den Nutzer, also in einem kooperativen Ansatz
- In Browser-Benchmarks wie WebArena und WebVoyager zeigt es hohe Leistung; weitere Details finden sich im Forschungsblog
Nutzung
- Wenn man die gewünschte Aufgabe kurz beschreibt, führt Operator sie automatisch aus
- Nutzer können jederzeit die Kontrolle über den Browser wieder selbst übernehmen
- Bei sensiblen Schritten wie Login, Eingabe von Zahlungsdaten oder dem Lösen von CAPTCHAs fordert Operator diese nicht selbst an; der Nutzer muss sie direkt erledigen
- Über Einstellungen für einzelne oder alle Websites lassen sich Vorlieben und Präferenzen des Nutzers berücksichtigen
- Häufig verwendete Prompts können gespeichert werden, um wiederkehrende Aufgaben schnell auszuführen, z. B. das erneute Bestellen von Lebensmitteln bei Instacart
- Mehrere Aufgaben können parallel wie in mehreren Tabs bearbeitet werden; getrennte Gesprächssitzungen erlauben parallele Arbeit an unterschiedlichen Aufgaben
Ökosystem und Nutzer
- Operator entwickelt KI von einem bloßen Werkzeug zu einem aktiven Teilnehmer des digitalen Ökosystems weiter
- OpenAI arbeitet mit DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber und anderen zusammen, um reale Nutzerbedürfnisse und Branchenstandards abzubilden
- Auch im öffentlichen Sektor wird die Einsetzbarkeit zur Verbesserung von Arbeitseffizienz und Barrierefreiheit geprüft; als Beispiel wird mit der City of Stockton an Einsatzmöglichkeiten in Verwaltungsservices gearbeitet
- Daniel Danker, Chief Product Officer von Instacart, äußerte sich positiv über den einfachen Bestellprozess mit Operator
Sicherheit und Datenschutz
- Bei Operator hat Sicherheit höchste Priorität; dafür gibt es drei Ebenen von Schutzmechanismen
- Nutzergeführte Kontrolle: Bei der Eingabe sensibler Informationen (Login, Zahlung usw.) fordert Operator eine Übernahme der Steuerung an, damit der Nutzer die Daten direkt eingibt
- Bestätigung vor wichtigen Aktionen: Vor wichtigen Vorgängen wie dem Absenden einer Bestellung oder dem Versenden einer E-Mail wird die Zustimmung des Nutzers eingeholt
- Aufgabenbeschränkungen: Für hochsensible Aufgaben wie Bankgeschäfte oder beschäftigungsbezogene Entscheidungen wurde Operator darauf trainiert, diese abzulehnen
- Beim Zugriff auf sensible Websites können Nutzer über den Watch-Modus die Aktionen von Operator direkt überwachen
- Es gibt Funktionen zur Verwaltung des Datenschutzes
- Wenn „Improve the model for everyone“ deaktiviert ist, werden auch Operator-Daten nicht für das Modelltraining verwendet
- Im Bereich Privacy der Einstellungen lassen sich Browsing-Daten löschen, alle Website-Logins abmelden und Gesprächsverläufe einfach entfernen
- Es wurden auch Schutzmechanismen implementiert, um Operator vor bösartigen Websites zu schützen
- Er ist so konzipiert, dass versteckte Prompts, Schadcode und Phishing-Versuche erkannt und ignoriert werden
- Ein dediziertes Monitoring-Modell überwacht verdächtiges Verhalten in Echtzeit und kann Aufgaben bei Bedarf stoppen
- Durch Automatisierung und menschliche Überprüfung werden Sicherheitsmechanismen bei neuen Bedrohungen schnell aktualisiert
- Um Missbrauch der Technologie für schädliche Zwecke zu verhindern, lehnt Operator bestimmte Anfragen ab; bei wiederholten Richtlinienverstößen können Warnungen oder Zugriffssperren erfolgen
- Da sich der Dienst noch in der Forschungs-Preview befindet, ist er noch nicht perfekt und soll anhand von Feedback aus der realen Nutzung weiter verbessert werden
Einschränkungen
- Operator befindet sich derzeit in einer frühen Phase und kann Schwierigkeiten mit komplexen Interface-Aufgaben wie der Erstellung von Slideshows oder der Kalenderverwaltung haben
- Nutzerfeedback soll als wichtige Ressource zur Verbesserung von Genauigkeit, Stabilität und Sicherheit dienen
Ausblick
- Eine API für CUA ist geplant, um Entwicklern eine Grundlage für den Aufbau eigener Agenten zu geben
- Operator soll weiter ausgebaut werden, insbesondere für lange Aufgaben und komplexe Workflows
- Neben Pro-Nutzern soll der Dienst schrittweise auch für Plus, Team und Enterprise ausgerollt werden; langfristig ist eine Integration in ChatGPT geplant, um die Ausführung von Aufgaben in Echtzeit und asynchron zu unterstützen
1 Kommentare
Hacker-News-Kommentare
Viele Menschen glauben, dass Unternehmen wie OpenAI nicht Geld ausgeben, um persönliche Assistenten bereitzustellen, sondern um KI zu trainieren, damit später Arbeitskosten gesenkt werden können
Die Meinungen zur Veröffentlichung von OpenAI Operator sind gemischt
Operator ähnelt der Claude-Computer-Use-Demo von vor einigen Monaten und hat eine Architektur, die das Ausführen einer VM erfordert, sowie die Tendenz zu Ungenauigkeiten
In einer Folie zu den Sicherheitsrisiken und Gegenmaßnahmen von Operator steht der Ausdruck „Benutzer ist fehl-ausgerichtet“
Es gibt kritische Stimmen dazu, 50 Milliarden Dollar in Aufgaben wie das Erstellen von Memes zu investieren
CogAgent: eine chinesische Open-Source-Alternative
Es gibt die Erwartung, dass man in Zukunft, wenn sich Produkte und Modelle deutlich verbessert haben, einfach mit ChatGPT sprechen kann, damit es lästige Web-Aufgaben wie Restaurantreservierungen, Flugbuchungen oder den Einkauf von Lebensmitteln erledigt
Es gibt die Ansicht, dass Unternehmen wie Instacart oder Doordash durch Marketing-Optimierung für LLMs neue UI-Richtungen eröffnen könnten
Es gibt die Meinung, dass es unbeholfen wirkt, wenn ein „Agent“ Pixel betrachtet und Maus und Tastatur verwendet
Es besteht die starke Überzeugung, dass die Nutzung von Open APIs für Agenten notwendig ist