OpenAI stellt den Agenten-Service „Operator“ vor

(openai.com)

6 Punkte von GN⁺ 2025-01-24 | 1 Kommentare | Auf WhatsApp teilen

Operator, die neue Entwicklung von OpenAI, ist ein KI-Agent, der selbstständig im Web navigieren und Aufgaben ausführen kann
- Er verwendet einen eigenen Browser, um Webseiten zu sehen und über Eingaben, Klicks und Scrollen mit ihnen zu interagieren
Da sich der Dienst noch in der Forschungs-Preview befindet, gibt es weiterhin Einschränkungen; er soll anhand von Nutzerfeedback weiterentwickelt werden
Als KI, die Aufgaben eigenständig ausführen kann, gehört er zu den ersten Agenten, die Anweisungen von Nutzern entgegennehmen und diese anschließend ausführen
Er soll Zeit sparen, indem er wiederkehrende Browser-Aufgaben übernimmt, z. B. Formulare ausfüllen, Lebensmittel bestellen oder Memes erstellen
Der Dienst wird zunächst für Pro-Nutzer in den USA bereitgestellt; später sind Plus-, Team- und Enterprise-Versionen sowie eine Integration in ChatGPT möglich

Wie Operator funktioniert

Er basiert auf dem neuen Modell Computer-Using Agent (CUA)
Es kombiniert die Vision-Funktionen von GPT-4o mit einem fortschrittlichen, auf Reinforcement Learning basierenden Reasoning-Ansatz, um Interaktionen mit GUIs (Buttons, Menüs, Textfelder usw.) zu ermöglichen
Über Screenshots kann es den Browser-Bildschirm „sehen“ und Aufgaben durch die Bedienung von Maus und Tastatur ausführen
Wenn während einer Aufgabe Fehler oder Hindernisse auftreten, nutzt es selbstkorrigierendes Reasoning oder übergibt die Steuerung bei Bedarf an den Nutzer, also in einem kooperativen Ansatz
In Browser-Benchmarks wie WebArena und WebVoyager zeigt es hohe Leistung; weitere Details finden sich im Forschungsblog

Nutzung

Wenn man die gewünschte Aufgabe kurz beschreibt, führt Operator sie automatisch aus
Nutzer können jederzeit die Kontrolle über den Browser wieder selbst übernehmen
Bei sensiblen Schritten wie Login, Eingabe von Zahlungsdaten oder dem Lösen von CAPTCHAs fordert Operator diese nicht selbst an; der Nutzer muss sie direkt erledigen
Über Einstellungen für einzelne oder alle Websites lassen sich Vorlieben und Präferenzen des Nutzers berücksichtigen
Häufig verwendete Prompts können gespeichert werden, um wiederkehrende Aufgaben schnell auszuführen, z. B. das erneute Bestellen von Lebensmitteln bei Instacart
Mehrere Aufgaben können parallel wie in mehreren Tabs bearbeitet werden; getrennte Gesprächssitzungen erlauben parallele Arbeit an unterschiedlichen Aufgaben

Ökosystem und Nutzer

Operator entwickelt KI von einem bloßen Werkzeug zu einem aktiven Teilnehmer des digitalen Ökosystems weiter
OpenAI arbeitet mit DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber und anderen zusammen, um reale Nutzerbedürfnisse und Branchenstandards abzubilden
Auch im öffentlichen Sektor wird die Einsetzbarkeit zur Verbesserung von Arbeitseffizienz und Barrierefreiheit geprüft; als Beispiel wird mit der City of Stockton an Einsatzmöglichkeiten in Verwaltungsservices gearbeitet
Daniel Danker, Chief Product Officer von Instacart, äußerte sich positiv über den einfachen Bestellprozess mit Operator

Sicherheit und Datenschutz

Bei Operator hat Sicherheit höchste Priorität; dafür gibt es drei Ebenen von Schutzmechanismen
- Nutzergeführte Kontrolle: Bei der Eingabe sensibler Informationen (Login, Zahlung usw.) fordert Operator eine Übernahme der Steuerung an, damit der Nutzer die Daten direkt eingibt
- Bestätigung vor wichtigen Aktionen: Vor wichtigen Vorgängen wie dem Absenden einer Bestellung oder dem Versenden einer E-Mail wird die Zustimmung des Nutzers eingeholt
- Aufgabenbeschränkungen: Für hochsensible Aufgaben wie Bankgeschäfte oder beschäftigungsbezogene Entscheidungen wurde Operator darauf trainiert, diese abzulehnen
- Beim Zugriff auf sensible Websites können Nutzer über den Watch-Modus die Aktionen von Operator direkt überwachen
Es gibt Funktionen zur Verwaltung des Datenschutzes
- Wenn „Improve the model for everyone“ deaktiviert ist, werden auch Operator-Daten nicht für das Modelltraining verwendet
- Im Bereich Privacy der Einstellungen lassen sich Browsing-Daten löschen, alle Website-Logins abmelden und Gesprächsverläufe einfach entfernen
Es wurden auch Schutzmechanismen implementiert, um Operator vor bösartigen Websites zu schützen
- Er ist so konzipiert, dass versteckte Prompts, Schadcode und Phishing-Versuche erkannt und ignoriert werden
- Ein dediziertes Monitoring-Modell überwacht verdächtiges Verhalten in Echtzeit und kann Aufgaben bei Bedarf stoppen
- Durch Automatisierung und menschliche Überprüfung werden Sicherheitsmechanismen bei neuen Bedrohungen schnell aktualisiert
Um Missbrauch der Technologie für schädliche Zwecke zu verhindern, lehnt Operator bestimmte Anfragen ab; bei wiederholten Richtlinienverstößen können Warnungen oder Zugriffssperren erfolgen
Da sich der Dienst noch in der Forschungs-Preview befindet, ist er noch nicht perfekt und soll anhand von Feedback aus der realen Nutzung weiter verbessert werden

Einschränkungen

Operator befindet sich derzeit in einer frühen Phase und kann Schwierigkeiten mit komplexen Interface-Aufgaben wie der Erstellung von Slideshows oder der Kalenderverwaltung haben
Nutzerfeedback soll als wichtige Ressource zur Verbesserung von Genauigkeit, Stabilität und Sicherheit dienen

Ausblick

Eine API für CUA ist geplant, um Entwicklern eine Grundlage für den Aufbau eigener Agenten zu geben
Operator soll weiter ausgebaut werden, insbesondere für lange Aufgaben und komplexe Workflows
Neben Pro-Nutzern soll der Dienst schrittweise auch für Plus, Team und Enterprise ausgerollt werden; langfristig ist eine Integration in ChatGPT geplant, um die Ausführung von Aufgaben in Echtzeit und asynchron zu unterstützen

1 Kommentare

GN⁺ 2025-01-24

Hacker-News-Kommentare

Viele Menschen glauben, dass Unternehmen wie OpenAI nicht Geld ausgeben, um persönliche Assistenten bereitzustellen, sondern um KI zu trainieren, damit später Arbeitskosten gesenkt werden können
- Wenn KI als persönlicher Assistent wirklich nützlich wird, werden diese Funktionen wohl zu einem Preis angeboten, den sich der Durchschnittsmensch nicht leisten kann
Die Meinungen zur Veröffentlichung von OpenAI Operator sind gemischt
- Es gibt zwar skeptische Sichtweisen auf die aktuellen Funktionen, die Kosten und eine mögliche Überdehnung, aber auch positive Einschätzungen zur Aufgabenautomatisierung und zu möglichen Verbesserungen im Laufe der Zeit
- Diskutiert werden außerdem ethische Fragen, Datenschutz und die Auswirkungen auf die Branche
- Insgesamt überwiegt ein vorsichtiger Optimismus, der die Herausforderungen und das Verbesserungspotenzial zugleich anerkennt
Operator ähnelt der Claude-Computer-Use-Demo von vor einigen Monaten und hat eine Architektur, die das Ausführen einer VM erfordert, sowie die Tendenz zu Ungenauigkeiten
- Die Computer-Use-Implementierung von Claude hat seit der Ankündigung in der KI-Agenten-Branche keine große Wirkung entfaltet
In einer Folie zu den Sicherheitsrisiken und Gegenmaßnahmen von Operator steht der Ausdruck „Benutzer ist fehl-ausgerichtet“
- Es gibt die Meinung, man würde gern mehr Beispiele dafür sehen, was OpenAI als „fehl-ausgerichtete“ Benutzer betrachtet
Es gibt kritische Stimmen dazu, 50 Milliarden Dollar in Aufgaben wie das Erstellen von Memes zu investieren
- Dabei wird Bedauern darüber geäußert, dass nicht in Maßnahmen investiert wird, die die Erde für die nächste Generation lebenswerter machen
CogAgent: eine chinesische Open-Source-Alternative
- Es werden Links zu Paper, Code und Modell bereitgestellt
Es gibt die Erwartung, dass man in Zukunft, wenn sich Produkte und Modelle deutlich verbessert haben, einfach mit ChatGPT sprechen kann, damit es lästige Web-Aufgaben wie Restaurantreservierungen, Flugbuchungen oder den Einkauf von Lebensmitteln erledigt
- Diese Funktionen werden mit großer Vorfreude erwartet
Es gibt die Ansicht, dass Unternehmen wie Instacart oder Doordash durch Marketing-Optimierung für LLMs neue UI-Richtungen eröffnen könnten
- Wenn man zum Beispiel die Anweisung gibt, nahrhafte Eier zu finden, könnte der Agent anhand der Nährwertangaben eine Entscheidung treffen
Es gibt die Meinung, dass es unbeholfen wirkt, wenn ein „Agent“ Pixel betrachtet und Maus und Tastatur verwendet
- Vorgestellt wird ein Standard, bei dem Apps und Dienste einen Satz vorab genehmigter Aktionen offenlegen, die sie im Namen des Nutzers ausführen können
- Vorgeschlagen wird ein „App-Store“-Konzept mit der Möglichkeit, Nutzerberechtigungen hinzuzufügen oder zu entziehen
Es besteht die starke Überzeugung, dass die Nutzung von Open APIs für Agenten notwendig ist
- Es wird argumentiert, dass OpenAPI der perfekte Spezifikationsstandard sei, um eine offene Welt und ein offenes Internet für Agenten zu ermöglichen
- Als OpenAI GPT erstmals veröffentlichte, basierte es auf Open APIs, entfernt sich davon jedoch zunehmend
- Das wirkt wie der Versuch, den Markt zu kontrollieren, und wie eine bewusste Abkehr von offenen Standards
- Das wird als sehr bedauerlich angesehen

OpenAI stellt den Agenten-Service „Operator“ vor

Wie Operator funktioniert

Nutzung

Ökosystem und Nutzer

Sicherheit und Datenschutz

Einschränkungen

Ausblick

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare