- Google hat das auf Gemini 2.5 Pro basierende Computer-Use-Modell vorgestellt und ermöglicht Entwicklern damit, Agenten zu erstellen, die Benutzeroberflächen direkt bedienen
- In Benchmarks zur Web- und Mobile-Steuerung zeigt es schnellere und präzisere Leistung als konkurrierende Modelle und ist als Preview in Google AI Studio und Vertex AI verfügbar
- Das Modell nimmt Bildschirmaufnahmen, Benutzeranfragen und Aktionsverlauf als Eingabe und erzeugt automatisch UI-Befehle wie Klicken, Eingeben und Scrollen
- Um Sicherheit zu gewährleisten, umfasst es einen Per-step Safety Service sowie Benutzerbestätigungen, um Missbrauch und Sicherheitsbedrohungen zu verhindern
- Es wird bereits in Project Mariner, dem Firebase Testing Agent und dem AI Mode in Search eingesetzt und belegt damit praxisnahe Automatisierung sowie effizientere Tests
Überblick
- Google DeepMind hat das Gemini 2.5 Computer Use-Modell veröffentlicht
- Es ist ein Modell für Agenten, die Web- und Mobile-UIs direkt steuern können, basierend auf den visuellen Verstehens- und Schlussfolgerungsfähigkeiten von Gemini 2.5 Pro
- Es geht einen Schritt über bestehende API-basierte Automatisierung hinaus und führt Interaktionen mit grafischen Oberflächen wie Formulareingabe, Scrollen und Login-Verarbeitung aus
- Es wird als Vorschau über Google AI Studio und Vertex AI bereitgestellt
Funktionsweise
- Über das neue Tool
computer_use arbeitet es in einer iterativen Schleifenstruktur
- Eingabe: Benutzeranfrage, Screenshot der aktuellen UI, letzte Aktionshistorie
- Ausgabe: Aufrufe von UI-Aktionsfunktionen wie Klicken, Eingeben und Ziehen
- Für einige risikoreiche Aufgaben (z. B. Zahlungen) ist eine Benutzerbestätigung erforderlich
- Nach jeder Aktion werden ein neuer Screenshot und die URL erneut an das Modell übergeben, damit der nächste Schritt ausgeführt werden kann
- Es ist vor allem für Webbrowser-Umgebungen optimiert, zeigt aber auch bei der Steuerung mobiler UIs hohe Leistung
Leistung
- In Bewertungen von Browserbase und Google selbst wurden branchenführende Werte bei Genauigkeit und Latenz erzielt
- In Benchmarks wie Online-Mind2Web zeigt es mehr als 50 % schnellere Reaktionen als konkurrierende Modelle
- Auch die Genauigkeit beim Erfassen des Kontexts in komplexen Oberflächen wurde verbessert; berichtet wird von einer Leistungssteigerung um 18 %
- Es enthält außerdem Funktionen zur automatischen Wiederherstellung aus Fehlersituationen bei UI-Steuerungsaufgaben, was für die Testautomatisierung nützlich ist
Sicherheitsdesign
- Um Missbrauch von Agenten zu verhindern, enthält das Modell integrierte Sicherheitsfunktionen
- Per-step Safety Service: Prüft vom Modell vorgeschlagene Aktionen vor der Ausführung
- System Instructions: Für bestimmte Aufgaben (Sicherheit, Medizin, CAPTCHA usw.) lassen sich Regeln für Benutzerbestätigung oder Ablehnung festlegen
- In den Leitfäden für Entwickler werden zusätzliche Sicherheitsempfehlungen gegeben; vor dem Einsatz in produktiven Services werden gründliche Tests empfohlen
Erste Einsatzbeispiele
- Ein internes Google-Team hat es für die Automatisierung von UI-Tests eingeführt und die Fehlerrate um 25 % gesenkt
- Es wird bereits in realen Produktionsumgebungen wie Project Mariner, dem Firebase Testing Agent und dem AI Mode in Search eingesetzt
- Auch Bewertungen früher externer Nutzer berichten von verbesserter Zuverlässigkeit beim Datenparsing und höherer Ausführungsgeschwindigkeit
- Beispiel: Autotab verbesserte die Genauigkeit bei der Verarbeitung komplexer Kontexte um 18 %
- Die Google-Zahlungsplattform stellt 60 % fehlgeschlagener Tests automatisch wieder her
Erste Schritte
- Das Modell ist als öffentliche Preview verfügbar und über folgende Kanäle zugänglich
- Entwickler können mithilfe der GitHub-Referenz und der Dokumentation Agenten-Schleifen mit Playwright oder in einer Cloud-VM-Umgebung aufbauen
- Feedback wird im Developer Forum gesammelt
2 Kommentare
Hacker-News-Kommentare
Früher, als ich auf einer zweispurigen Straße mit Ampel wartete, dachte ich, man könnte das Signal mit einem Computer-Vision-Kamerasystem schneller umschalten, wenn auf der Hauptstraße keine Autos sind.
Damals war Computer Vision aber noch nicht ausgereift genug, und stattdessen erfuhr ich, dass man Fahrzeuge mit Magnetsensoren erkennen kann.
Das Problem ließ sich mit deutlich einfacherer Hardware und Software leicht lösen, und mein Ansatz war eine viel zu komplexe und teure Lösung.
Auch bei der Computernutzung glaubte ich, dass ML/AI für strukturierte Daten optimiert werden sollte.
Aber die Welt ist komplexer geworden und Computer sind schneller, sodass es inzwischen realistischer ist, dass AI auf den Bildschirm schaut, die Maus bewegt und klickt.
Inzwischen werden Computer-Vision-Kameras allgemein eingesetzt.
Magnetsensoren erkennen Fahrradfahrer nicht besonders gut, deshalb werden heute eher Kameras bevorzugt.
Aus Sicht der städtischen Verkehrsverantwortlichen werden Kameras zudem immer beliebter, weil sie sich auch zur Überwachung von Verkehrsstaus nutzen lassen.
In meiner Gegend wurde nachts ein System eingeführt, bei dem einfache Lichtsensoren an den Ampeln angebracht sind, sodass die Ampel umschaltet, wenn man sich nähert und das Fernlicht einschaltet.
Andernfalls blieb die Hauptstraße die ganze Nacht auf Grün.
Die Ampel schaltete also nur um, wenn ein Auto die Kreuzung erreichte und entweder das Fernlichtsignal oder der magnetische Fluss erkannt wurde.
Ich fahre oft Fahrrad, und draußen ist es sehr praktisch, beim Hören von Podcasts zu sagen: "Hey Google, geh 30 Sekunden zurück", um etwas noch einmal zu hören oder Werbung zu überspringen.
Drinnen schaue ich meist TV-Sendungen oder YouTube-Videos per Casting.
Manchmal möchte ich das YouTube-Video wechseln, aber per Sprachbefehl funktioniert YouTube nur gerade so und die Ergebnisse sind schlecht.
Bei anderen Diensten sind Sprachbefehle fast unmöglich.
In einer idealen Welt würde Google für diese Integration eine großartige API bereitstellen, und alle Apps würden das gut unterstützen.
Wenn man diesen Prozess überspringen und trotzdem hervorragende Ergebnisse bekommen könnte, wäre das für mich eine sehr wertvolle Erfahrung.
Vielleicht ist das nur ein Szenario, das auf mich zutrifft, aber genau darauf freue ich mich wirklich.
Computernutzung ist der wichtigste Benchmark, wenn man die Auswirkungen von AI auf den Arbeitsmarkt vorhersagen will.
Es gibt viele bessere Wege, wie ML/AI verschiedenste Aufgaben am Computer effizient erledigen könnte.
Allerdings müssten all diese Wege jeweils individuell für die einzelne Aufgabe entworfen werden.
Ein generalisierter Ansatz ist letztlich der skalierbarere Weg.
Zur Info: Verkehrskameras dieser Art werden bereits allgemein verwendet.
https://www.milesight.com/company/blog/types-of-traffic-cameras
Ich habe mich lange auf den Ansatz konzentriert, „alles auf der Welt zu Datenbankobjekten zu machen“, um repetitive manuelle Arbeit zu automatisieren.
Ich dachte, Computer könnten mit minimalem menschlichem Eingriff unzählige Dinge erledigen.
Ich habe auch viel Arbeit in Machine Learning gesteckt.
Aber auf die Idee, dass Computer einfach halbstrukturierte menschenzentrierte Daten wie Screen Buffers direkt nutzen und mit Maus und Tastatur wie Menschen arbeiten könnten, bin ich nicht gekommen.
Natürlich unterstütze ich diese Idee voll und ganz.
Ich halte es für möglich, dass es in zehn Jahren Computer gibt, die Chrome öffnen, in Videocalls Gespräche führen und Aufgaben erledigen, ohne dass die Gegenseite überhaupt merkt, dass es ein Computer ist.
AI ist gegenüber den „theoretisch besseren“ Methoden erfolgreich, weil sie ein grundlegendes „soziales“ Problem löst.
Das Computing-Ökosystem ist eher wettbewerbsorientiert und defensiv als kooperativ.
Dass die meisten langweiligen manuellen Aufgaben nicht automatisiert werden können, ist strukturell ein Kern dessen, wie im Internet Geld verdient wird.
Wenn Nutzer durch Automatisierung Kaufanreize oder Werbeeinblendungen umgehen könnten, würden die Einnahmen sinken.
In der Robotik gab es eine ähnliche Debatte.
„Warum muss man Roboter überhaupt humanoid bauen, wenn effizientere Formen möglich wären?“ war eine häufige Frage.
Aber damit Werkzeuge breite Akzeptanz finden, müssen sie letztlich selbst dann auf menschenzentrierte Umgebungen zugeschnitten sein, wenn das ineffizient ist.
Für performanceorientierte Anwendungen sind Custom-Designs und Optimierung unverzichtbar, aber für eine breite Verbreitung muss man sich am Menschen orientieren.
Heute Morgen dachte ich über Dating-Apps nach und musste dabei an den letzten Punkt denken.
Wenn „mein chatgpt“ mich gut genug repräsentiert, könnte es in Dating-Apps eine Art Vorgespräch mit dem chatgpt der anderen Person führen und so das Matching übernehmen.
Kürzlich hörte ich in einer Enterprise-Keynote den Begriff „digitaler Zwilling“, und das scheint genau in diese Richtung zu gehen.
Es ist noch zu früh, um sich dazu eine feste Meinung zu bilden, aber ich bin gespannt, wie weit sich das entwickelt.
Ich frage mich, ob es wirklich ein gutes Ergebnis wäre, wenn Computer direkt Chrome öffnen, Videocalls führen und Aufgaben menschenähnlich erledigen, sodass die andere Seite nicht merkt, dass es ein Computer ist.
Technisch wäre das eine enorme und beeindruckende Leistung, aber es fühlt sich irgendwie unangenehm an.
Ich habe mit Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp) bereits erfolgreich Browser-Automatisierung aus Gemini CLI heraus ausprobiert.
Deshalb denke ich, dass dieses Modell eine bessere Performance zeigen könnte.
Mich würde interessieren, welche Automatisierungsaufgaben du mit MCP erfolgreich umgesetzt hast.
Dieser Ansatz hat nichts mit dem Modell zu tun, das für die Computernutzung erforderlich ist.
Man verwendet nur die von Google im MCP-Server bereitgestellten vordefinierten Tools; es ist kein universelles Modell, das sich auf beliebige Software anwenden lässt.
Falls jemand reale Anwendungsfälle kennt, die schneller sind als UX, würde ich das gern hören.
Ich habe noch kein gutes Gefühl dafür, wie man das einsetzen soll.
Wenn man sieht, wie viel investiert wird, scheint es da offensichtlich etwas zu geben, das ich übersehe.
Die Technik und die Fähigkeiten selbst sind beeindruckend, aber mich interessieren konkrete Einsatzbeispiele.
Wenn man einen Browser-Bot bittet, das heutige Wordle zu lösen, kommt es offenbar vor, dass er die Antwort nicht erraten kann, weil er das Farbfeedback der Buchstaben (grün, gelb, grau) nicht sehen kann.
Die Wörter kann er eingeben, aber das Feedback kann er nicht interpretieren.
Gemini hat auf https://www.google.com/recaptcha/api2/demo erfolgreich ein CAPTCHA bestanden.
Beitrag bearbeitet: Tatsächlich hatte ich mich verguckt, und das Google-CAPTCHA wurde nicht von Gemini, sondern von Browserbase gelöst.
Mehr Details stehen hier.
Die Automatisierung läuft über Browserbase, und Browserbase hat einen CAPTCHA-Solver eingebaut.
Ob der automatisiert ist oder von Menschen unterstützt wird, ist nicht klar.
Vermutlich wurde es zugelassen, weil der Versuch von einer IP aus Googles eigenem Netzwerk kam.
(Ich habe nur die Browserbase-Demo benutzt.)
Zu wissen, was theoretisch möglich ist, und dann mit einem kurzen Befehl tatsächlich zu sehen, wie sich auf einer Website eingeloggt, gescrollt und ein Beitrag verfasst wird, sind zwei völlig unterschiedliche Erfahrungen.
Ich habe heute bei Wordle beim zweiten Versuch denselben Fehler gemacht und deshalb unentschieden gespielt.
Schade fand ich, dass man während der Aufgabe nicht mit ihm sprechen konnte.
Solche Funktionen brauchen in Enterprise-Systemen unbedingt Dinge wie Hooks oder Callbacks für Governance.
In UI-basierten Systemen ist Hook-/Agent-Event-Handling deutlich schwieriger.
Siehe dazu die Claude-Code-Hooks-Dokumentation und die Google-ADK-Callbacks-Dokumentation.
Wenn man sieht, wie oft Claude Code Hooks ignoriert, seine Berechnung abschließt und das Ergebnis nicht nutzt, wirkt das Konzept „Governance“ fast unmöglich.
LLMs sind unvorhersehbarer, als viele denken, und viel schwerer zu kontrollieren.
Ich habe gesehen, wie trotz eines eindeutig markierten Testfehlers mit der Aussage „Nicht fortfahren“ trotzdem weitergemacht wurde.
Am Ende ist das einzige, was sich wirklich sicher blockieren lässt, nur ein theoretischer, wirklich gefährlicher „claude-killing“-Hook.
Ich bin bei Browserbase für das Identity-Produkt zuständig.
In letzter Zeit denke ich darüber nach, wie man RBAC (rollenbasierte Zugriffskontrolle) über das gesamte Web einführen könnte.
Ich frage mich, ob Callbacks bei diesem Ansatz helfen könnten.
Als ich las, dass „Kontrolle auf OS-Ebene noch nicht optimiert ist“, dachte ich, dass AGI wohl noch nicht da ist.
Wenn Kontrolle auf diesem Niveau möglich wäre und die Kosten für LLM-Nutzung vertretbar wären, könnte damit etwas beginnen, das AGI nahekommt.
Interessanterweise können die meisten Menschen selbst auch nicht besonders gut mit Computern umgehen.
Das Gefühl, dass sich der Begriff „Intelligenz“ eigentlich gar nicht definieren lässt, wird dadurch nur stärker.
Warum denkst du, dass vollständige Kontrolle über das OS ein Schritt in Richtung AGI wäre?
Ironischerweise verdienen die meisten Tech-Unternehmen Geld damit, Nutzer durch nutzlose Informationen zu zwingen.
Wenn man das Internet zum Beispiel frei und ohne Werbung durchforsten könnte oder auf Twitter nur die Inhalte sehen würde, die man wirklich will, statt nutzloser Algorithmen, wer würde das denn nicht nutzen?