6 Punkte von GN⁺ 2025-01-24 | 1 Kommentare | Auf WhatsApp teilen
  • Operator, die neue Entwicklung von OpenAI, ist ein KI-Agent, der selbstständig im Web navigieren und Aufgaben ausführen kann
    • Er verwendet einen eigenen Browser, um Webseiten zu sehen und über Eingaben, Klicks und Scrollen mit ihnen zu interagieren
  • Da sich der Dienst noch in der Forschungs-Preview befindet, gibt es weiterhin Einschränkungen; er soll anhand von Nutzerfeedback weiterentwickelt werden
  • Als KI, die Aufgaben eigenständig ausführen kann, gehört er zu den ersten Agenten, die Anweisungen von Nutzern entgegennehmen und diese anschließend ausführen
  • Er soll Zeit sparen, indem er wiederkehrende Browser-Aufgaben übernimmt, z. B. Formulare ausfüllen, Lebensmittel bestellen oder Memes erstellen
  • Der Dienst wird zunächst für Pro-Nutzer in den USA bereitgestellt; später sind Plus-, Team- und Enterprise-Versionen sowie eine Integration in ChatGPT möglich

Wie Operator funktioniert

  • Er basiert auf dem neuen Modell Computer-Using Agent (CUA)
  • Es kombiniert die Vision-Funktionen von GPT-4o mit einem fortschrittlichen, auf Reinforcement Learning basierenden Reasoning-Ansatz, um Interaktionen mit GUIs (Buttons, Menüs, Textfelder usw.) zu ermöglichen
  • Über Screenshots kann es den Browser-Bildschirm „sehen“ und Aufgaben durch die Bedienung von Maus und Tastatur ausführen
  • Wenn während einer Aufgabe Fehler oder Hindernisse auftreten, nutzt es selbstkorrigierendes Reasoning oder übergibt die Steuerung bei Bedarf an den Nutzer, also in einem kooperativen Ansatz
  • In Browser-Benchmarks wie WebArena und WebVoyager zeigt es hohe Leistung; weitere Details finden sich im Forschungsblog

Nutzung

  • Wenn man die gewünschte Aufgabe kurz beschreibt, führt Operator sie automatisch aus
  • Nutzer können jederzeit die Kontrolle über den Browser wieder selbst übernehmen
  • Bei sensiblen Schritten wie Login, Eingabe von Zahlungsdaten oder dem Lösen von CAPTCHAs fordert Operator diese nicht selbst an; der Nutzer muss sie direkt erledigen
  • Über Einstellungen für einzelne oder alle Websites lassen sich Vorlieben und Präferenzen des Nutzers berücksichtigen
  • Häufig verwendete Prompts können gespeichert werden, um wiederkehrende Aufgaben schnell auszuführen, z. B. das erneute Bestellen von Lebensmitteln bei Instacart
  • Mehrere Aufgaben können parallel wie in mehreren Tabs bearbeitet werden; getrennte Gesprächssitzungen erlauben parallele Arbeit an unterschiedlichen Aufgaben

Ökosystem und Nutzer

  • Operator entwickelt KI von einem bloßen Werkzeug zu einem aktiven Teilnehmer des digitalen Ökosystems weiter
  • OpenAI arbeitet mit DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber und anderen zusammen, um reale Nutzerbedürfnisse und Branchenstandards abzubilden
  • Auch im öffentlichen Sektor wird die Einsetzbarkeit zur Verbesserung von Arbeitseffizienz und Barrierefreiheit geprüft; als Beispiel wird mit der City of Stockton an Einsatzmöglichkeiten in Verwaltungsservices gearbeitet
  • Daniel Danker, Chief Product Officer von Instacart, äußerte sich positiv über den einfachen Bestellprozess mit Operator

Sicherheit und Datenschutz

  • Bei Operator hat Sicherheit höchste Priorität; dafür gibt es drei Ebenen von Schutzmechanismen
    • Nutzergeführte Kontrolle: Bei der Eingabe sensibler Informationen (Login, Zahlung usw.) fordert Operator eine Übernahme der Steuerung an, damit der Nutzer die Daten direkt eingibt
    • Bestätigung vor wichtigen Aktionen: Vor wichtigen Vorgängen wie dem Absenden einer Bestellung oder dem Versenden einer E-Mail wird die Zustimmung des Nutzers eingeholt
    • Aufgabenbeschränkungen: Für hochsensible Aufgaben wie Bankgeschäfte oder beschäftigungsbezogene Entscheidungen wurde Operator darauf trainiert, diese abzulehnen
    • Beim Zugriff auf sensible Websites können Nutzer über den Watch-Modus die Aktionen von Operator direkt überwachen
  • Es gibt Funktionen zur Verwaltung des Datenschutzes
    • Wenn „Improve the model for everyone“ deaktiviert ist, werden auch Operator-Daten nicht für das Modelltraining verwendet
    • Im Bereich Privacy der Einstellungen lassen sich Browsing-Daten löschen, alle Website-Logins abmelden und Gesprächsverläufe einfach entfernen
  • Es wurden auch Schutzmechanismen implementiert, um Operator vor bösartigen Websites zu schützen
    • Er ist so konzipiert, dass versteckte Prompts, Schadcode und Phishing-Versuche erkannt und ignoriert werden
    • Ein dediziertes Monitoring-Modell überwacht verdächtiges Verhalten in Echtzeit und kann Aufgaben bei Bedarf stoppen
    • Durch Automatisierung und menschliche Überprüfung werden Sicherheitsmechanismen bei neuen Bedrohungen schnell aktualisiert
  • Um Missbrauch der Technologie für schädliche Zwecke zu verhindern, lehnt Operator bestimmte Anfragen ab; bei wiederholten Richtlinienverstößen können Warnungen oder Zugriffssperren erfolgen
  • Da sich der Dienst noch in der Forschungs-Preview befindet, ist er noch nicht perfekt und soll anhand von Feedback aus der realen Nutzung weiter verbessert werden

Einschränkungen

  • Operator befindet sich derzeit in einer frühen Phase und kann Schwierigkeiten mit komplexen Interface-Aufgaben wie der Erstellung von Slideshows oder der Kalenderverwaltung haben
  • Nutzerfeedback soll als wichtige Ressource zur Verbesserung von Genauigkeit, Stabilität und Sicherheit dienen

Ausblick

  • Eine API für CUA ist geplant, um Entwicklern eine Grundlage für den Aufbau eigener Agenten zu geben
  • Operator soll weiter ausgebaut werden, insbesondere für lange Aufgaben und komplexe Workflows
  • Neben Pro-Nutzern soll der Dienst schrittweise auch für Plus, Team und Enterprise ausgerollt werden; langfristig ist eine Integration in ChatGPT geplant, um die Ausführung von Aufgaben in Echtzeit und asynchron zu unterstützen

1 Kommentare

 
GN⁺ 2025-01-24
Hacker-News-Kommentare
  • Viele Menschen glauben, dass Unternehmen wie OpenAI nicht Geld ausgeben, um persönliche Assistenten bereitzustellen, sondern um KI zu trainieren, damit später Arbeitskosten gesenkt werden können

    • Wenn KI als persönlicher Assistent wirklich nützlich wird, werden diese Funktionen wohl zu einem Preis angeboten, den sich der Durchschnittsmensch nicht leisten kann
  • Die Meinungen zur Veröffentlichung von OpenAI Operator sind gemischt

    • Es gibt zwar skeptische Sichtweisen auf die aktuellen Funktionen, die Kosten und eine mögliche Überdehnung, aber auch positive Einschätzungen zur Aufgabenautomatisierung und zu möglichen Verbesserungen im Laufe der Zeit
    • Diskutiert werden außerdem ethische Fragen, Datenschutz und die Auswirkungen auf die Branche
    • Insgesamt überwiegt ein vorsichtiger Optimismus, der die Herausforderungen und das Verbesserungspotenzial zugleich anerkennt
  • Operator ähnelt der Claude-Computer-Use-Demo von vor einigen Monaten und hat eine Architektur, die das Ausführen einer VM erfordert, sowie die Tendenz zu Ungenauigkeiten

    • Die Computer-Use-Implementierung von Claude hat seit der Ankündigung in der KI-Agenten-Branche keine große Wirkung entfaltet
  • In einer Folie zu den Sicherheitsrisiken und Gegenmaßnahmen von Operator steht der Ausdruck „Benutzer ist fehl-ausgerichtet“

    • Es gibt die Meinung, man würde gern mehr Beispiele dafür sehen, was OpenAI als „fehl-ausgerichtete“ Benutzer betrachtet
  • Es gibt kritische Stimmen dazu, 50 Milliarden Dollar in Aufgaben wie das Erstellen von Memes zu investieren

    • Dabei wird Bedauern darüber geäußert, dass nicht in Maßnahmen investiert wird, die die Erde für die nächste Generation lebenswerter machen
  • CogAgent: eine chinesische Open-Source-Alternative

    • Es werden Links zu Paper, Code und Modell bereitgestellt
  • Es gibt die Erwartung, dass man in Zukunft, wenn sich Produkte und Modelle deutlich verbessert haben, einfach mit ChatGPT sprechen kann, damit es lästige Web-Aufgaben wie Restaurantreservierungen, Flugbuchungen oder den Einkauf von Lebensmitteln erledigt

    • Diese Funktionen werden mit großer Vorfreude erwartet
  • Es gibt die Ansicht, dass Unternehmen wie Instacart oder Doordash durch Marketing-Optimierung für LLMs neue UI-Richtungen eröffnen könnten

    • Wenn man zum Beispiel die Anweisung gibt, nahrhafte Eier zu finden, könnte der Agent anhand der Nährwertangaben eine Entscheidung treffen
  • Es gibt die Meinung, dass es unbeholfen wirkt, wenn ein „Agent“ Pixel betrachtet und Maus und Tastatur verwendet

    • Vorgestellt wird ein Standard, bei dem Apps und Dienste einen Satz vorab genehmigter Aktionen offenlegen, die sie im Namen des Nutzers ausführen können
    • Vorgeschlagen wird ein „App-Store“-Konzept mit der Möglichkeit, Nutzerberechtigungen hinzuzufügen oder zu entziehen
  • Es besteht die starke Überzeugung, dass die Nutzung von Open APIs für Agenten notwendig ist

    • Es wird argumentiert, dass OpenAPI der perfekte Spezifikationsstandard sei, um eine offene Welt und ein offenes Internet für Agenten zu ermöglichen
    • Als OpenAI GPT erstmals veröffentlichte, basierte es auf Open APIs, entfernt sich davon jedoch zunehmend
    • Das wirkt wie der Versuch, den Markt zu kontrollieren, und wie eine bewusste Abkehr von offenen Standards
    • Das wird als sehr bedauerlich angesehen