8 Punkte von xguru 2024-12-18 | 1 Kommentare | Auf WhatsApp teilen
  • Eine neue Art, den Browser zu verwenden
  • Automatisiert Browser-Aufgaben auf Basis von Gemini 2.0 mit leistungsstarkem multimodalem Verständnis und Schlussfolgerungsvermögen
  • Versteht und interpretiert alle Elemente auf dem Browserbildschirm, darunter Pixel, Text, Code, Bilder und Formulare
  • Native Multimodality: Versteht und interpretiert sämtliche Inhalte im Browser
    • Analysiert komplexe Elemente wie Text, Code und Bilder auf Websites
    • Reagiert auf Sprachbefehle und gibt visuelles Feedback zum Fortschritt der Aufgaben
  • Browser Interaction: Versteht und navigiert komplexe Websites in Echtzeit
    • Interagiert stellvertretend für den Nutzer mit Websites
    • Automatisiert wiederkehrende Aufgaben und spart so Zeit
    • Fordert eine klare Erklärung an, wenn ein Befehl nicht verstanden wird
  • Reasoning: Versteht komplexe Anweisungen und zerlegt sie in ausführbare Schritte
    • Erkennt Beziehungen und Funktionen zwischen Web-Elementen
    • Zeigt Aufgabenplanung und Ausführung transparent an, damit Nutzer den Entscheidungsprozess nachvollziehen können
  • Derzeit nur für eine kleine vertrauenswürdige Testgruppe verfügbar: Wer am Test teilnehmen möchte, muss sich auf die Warteliste setzen lassen

1 Kommentare

 
iolothebard 2024-12-18

Ein auf KI optimierter Headless-Browser kommt heraus …
Webserver liefern darauf optimierte Antworten an genau diesen Browser aus …
Der Tag, an dem sie untereinander(?) kommunizieren, ist wohl nicht mehr fern …