Google DeepMinds Project Mariner – Tool zur Browser-Automatisierung
(deepmind.google)- Eine neue Art, den Browser zu verwenden
- Automatisiert Browser-Aufgaben auf Basis von Gemini 2.0 mit leistungsstarkem multimodalem Verständnis und Schlussfolgerungsvermögen
- Versteht und interpretiert alle Elemente auf dem Browserbildschirm, darunter Pixel, Text, Code, Bilder und Formulare
- Native Multimodality: Versteht und interpretiert sämtliche Inhalte im Browser
- Analysiert komplexe Elemente wie Text, Code und Bilder auf Websites
- Reagiert auf Sprachbefehle und gibt visuelles Feedback zum Fortschritt der Aufgaben
- Browser Interaction: Versteht und navigiert komplexe Websites in Echtzeit
- Interagiert stellvertretend für den Nutzer mit Websites
- Automatisiert wiederkehrende Aufgaben und spart so Zeit
- Fordert eine klare Erklärung an, wenn ein Befehl nicht verstanden wird
- Reasoning: Versteht komplexe Anweisungen und zerlegt sie in ausführbare Schritte
- Erkennt Beziehungen und Funktionen zwischen Web-Elementen
- Zeigt Aufgabenplanung und Ausführung transparent an, damit Nutzer den Entscheidungsprozess nachvollziehen können
- Derzeit nur für eine kleine vertrauenswürdige Testgruppe verfügbar: Wer am Test teilnehmen möchte, muss sich auf die Warteliste setzen lassen
1 Kommentare
Ein auf KI optimierter Headless-Browser kommt heraus …
Webserver liefern darauf optimierte Antworten an genau diesen Browser aus …
Der Tag, an dem sie untereinander(?) kommunizieren, ist wohl nicht mehr fern …