Google DeepMinds Project Mariner – Tool zur Browser-Automatisierung

xguru · 2024-12-18T11:07:01+09:00

Eine neue Art, den Browser zu verwenden Automatisiert Browser-Aufgaben auf Basis von Gemini 2.0 mit leistungsstarkem multimodalem Verständnis und Schlussfolgerungsvermögen Versteht und interpretiert alle Elemente auf dem Browserbildschirm, darunter Pixel, Text, Code, Bilder und Formulare Native Multimodality: Versteht und interpretiert sämtliche Inhalte im Browser Analysiert komplexe Elemente wie Text, Code und Bilder auf Websites Reagiert auf Sprachbefehle und gibt visuelles Feedback zum Fortschritt der Aufgaben Browser Interaction: Versteht und navigiert komplexe Websites in Echtzeit Interagiert stellvertretend für den Nutzer mit Websites Automatisiert wiederkehrende Aufgaben und spart so Zeit Fordert eine klare Erklärung an, wenn ein Befehl nicht verstanden wird Reasoning: Versteht komplexe Anweisungen und zerlegt sie in ausführbare Schritte Erkennt Beziehungen und Funktionen zwischen Web-Elementen Zeigt Aufgabenplanung und Ausführung transparent an, damit Nutzer den Entscheidungsprozess nachvollziehen können Derzeit nur für eine kleine vertrauenswürdige Testgruppe verfügbar: Wer am Test teilnehmen möchte, muss sich auf die Warteliste setzen lassen

(deepmind.google)

8 Punkte von xguru 2024-12-18 | 1 Kommentare | Auf WhatsApp teilen

Eine neue Art, den Browser zu verwenden
Automatisiert Browser-Aufgaben auf Basis von Gemini 2.0 mit leistungsstarkem multimodalem Verständnis und Schlussfolgerungsvermögen
Versteht und interpretiert alle Elemente auf dem Browserbildschirm, darunter Pixel, Text, Code, Bilder und Formulare
Native Multimodality: Versteht und interpretiert sämtliche Inhalte im Browser
- Analysiert komplexe Elemente wie Text, Code und Bilder auf Websites
- Reagiert auf Sprachbefehle und gibt visuelles Feedback zum Fortschritt der Aufgaben
Browser Interaction: Versteht und navigiert komplexe Websites in Echtzeit
- Interagiert stellvertretend für den Nutzer mit Websites
- Automatisiert wiederkehrende Aufgaben und spart so Zeit
- Fordert eine klare Erklärung an, wenn ein Befehl nicht verstanden wird
Reasoning: Versteht komplexe Anweisungen und zerlegt sie in ausführbare Schritte
- Erkennt Beziehungen und Funktionen zwischen Web-Elementen
- Zeigt Aufgabenplanung und Ausführung transparent an, damit Nutzer den Entscheidungsprozess nachvollziehen können
Derzeit nur für eine kleine vertrauenswürdige Testgruppe verfügbar: Wer am Test teilnehmen möchte, muss sich auf die Warteliste setzen lassen

1 Kommentare

iolothebard 2024-12-18

Ein auf KI optimierter Headless-Browser kommt heraus …
Webserver liefern darauf optimierte Antworten an genau diesen Browser aus …
Der Tag, an dem sie untereinander(?) kommunizieren, ist wohl nicht mehr fern …

Google DeepMinds Project Mariner – Tool zur Browser-Automatisierung

Verwandte Beiträge

1 Kommentare