Web-Navigation mit GPT-4 Vision und Vimium
(github.com/ishan0102)vimGPT: Ein multimodales Modell bekommt einen Spielplatz
Überblick
- Der Einsatz großer Sprachmodelle (LLMs) für die Web-Navigation wird von mehreren Startups und Open-Source-Projekten untersucht.
- Es besteht Interesse an einem Projekt, das experimentiert, ob Web-Browsing allein mit den visuellen Fähigkeiten von GPT-4V möglich ist.
- Für das Modell ist es schwierig, das Ziel zu erkennen, das es anklicken möchte, wenn kein textbasiertes Browser-DOM vorliegt.
Einrichtung
- Python-Abhängigkeiten installieren:
pip install -r requirements.txt - Vimium lokal herunterladen und die Erweiterung beim Start von Playwright manuell laden:
./setup.sh
Idee
- Sobald verfügbar, wird der Einsatz der Assistant API für die automatische Kontextsuche erwogen.
- Es könnte eine spezielle Version von Vimium entwickelt werden, die Elemente kontextbasiert selektiv als Overlay einblendet.
- Das Problem, dass das Modell bei niedriger Auflösung Dinge nicht erkennt, könnte durch Bilder mit höherer Auflösung verbessert werden.
- LLaVa oder CogVLM könnten feinabgestimmt werden, um das System schneller und günstiger zu machen.
- Falls die Vision API einen JSON-Modus unterstützt, soll dieser genutzt werden; derzeit muss man sich jedoch auf primitivere Prompting-Methoden verlassen.
- Es wird überlegt, dass die Vision API allgemeine Anweisungen zurückgibt, die dann über eine API mit JSON-Modus formalisiert werden.
- Um Texteingaben zu vermeiden und die Zugänglichkeit zu erhöhen, wird außerdem die Ergänzung von Speech-to-Text mit Whisper oder einem anderen Modell erwogen.
- Es soll nicht in einem künstlichen Browser, sondern im eigenen Browser der Nutzer funktionieren.
- Für den Fall, dass das Modell unter den gelben Rechtecken nichts sehen kann, ist die Bereitstellung von Frames je nach Aktivierungsstatus von Vimium vorgesehen.
- Zusätzlich zur Bildeingabe könnte der Chrome-Accessibility-Tree als Eingabe bereitgestellt werden, um ein Layout interaktiver Elemente zu liefern, das auf Vimium-Bindings abgebildet werden kann.
Referenzen
Meinung von GN⁺
Das Wichtigste an diesem Artikel ist der Versuch, das Web-Browsing-Erlebnis mithilfe großer Sprachmodelle wie GPT-4V zu revolutionieren. Über die Vimium-Erweiterung dem Modell eine Möglichkeit zu geben, mit dem Web zu interagieren, ist ein interessanter Ansatz und besitzt das Potenzial, Web-Zugänglichkeit und Interaktivität zu verbessern. Für Technikbegeisterte und Softwareentwickler bieten solche Experimente Einblicke in die Zukunft der künstlichen Intelligenz und die Weiterentwicklung von Web-Oberflächen, was das Thema besonders attraktiv macht.
1 Kommentare
Hacker-News-Kommentare
Es ist kaum zu glauben, dass so etwas jetzt möglich ist:
navigate,type,clickunddone, um dem Nutzer bei bestimmten Aufgaben zu helfen.navigatesoll zur angegebenen URL wechseln, währendtypeundclickjeweils einen String entgegennehmen und verarbeiten.doneals Schlüssel zurückgegeben werden, und die Antwort muss zwingend nur im JSON-Format erfolgen.An meinem Arbeitsplatz ist die technische Schuld so groß, dass viele Menschen Daten manuell kopieren:
Grußwort vom Ersteller:
Die Meinung, dass vim eine passende "Implementierung" für ChatGPT sei:
Diskussion über Screenshots und Browsing-Aufgaben mit GPT-4 Vision:
Geteilte Erfahrungen aus Experimenten über die ChatGPT-Oberfläche:
Eine Frage dazu, welche Auswirkungen solche Tools auf Web-Tracking oder Werbung haben könnten:
Man könnte einen Autopiloten für den Browser bauen:
Eine positive Meinung, dass GPT-4V dem Web-Scraping eine neue Perspektive eröffnet habe:
Geteilte praktische Erfahrungen: