2 Punkte von GN⁺ 2023-11-10 | 1 Kommentare | Auf WhatsApp teilen

vimGPT: Ein multimodales Modell bekommt einen Spielplatz

Überblick

  • Der Einsatz großer Sprachmodelle (LLMs) für die Web-Navigation wird von mehreren Startups und Open-Source-Projekten untersucht.
  • Es besteht Interesse an einem Projekt, das experimentiert, ob Web-Browsing allein mit den visuellen Fähigkeiten von GPT-4V möglich ist.
  • Für das Modell ist es schwierig, das Ziel zu erkennen, das es anklicken möchte, wenn kein textbasiertes Browser-DOM vorliegt.

Einrichtung

  • Python-Abhängigkeiten installieren: pip install -r requirements.txt
  • Vimium lokal herunterladen und die Erweiterung beim Start von Playwright manuell laden: ./setup.sh

Idee

  • Sobald verfügbar, wird der Einsatz der Assistant API für die automatische Kontextsuche erwogen.
  • Es könnte eine spezielle Version von Vimium entwickelt werden, die Elemente kontextbasiert selektiv als Overlay einblendet.
  • Das Problem, dass das Modell bei niedriger Auflösung Dinge nicht erkennt, könnte durch Bilder mit höherer Auflösung verbessert werden.
  • LLaVa oder CogVLM könnten feinabgestimmt werden, um das System schneller und günstiger zu machen.
  • Falls die Vision API einen JSON-Modus unterstützt, soll dieser genutzt werden; derzeit muss man sich jedoch auf primitivere Prompting-Methoden verlassen.
  • Es wird überlegt, dass die Vision API allgemeine Anweisungen zurückgibt, die dann über eine API mit JSON-Modus formalisiert werden.
  • Um Texteingaben zu vermeiden und die Zugänglichkeit zu erhöhen, wird außerdem die Ergänzung von Speech-to-Text mit Whisper oder einem anderen Modell erwogen.
  • Es soll nicht in einem künstlichen Browser, sondern im eigenen Browser der Nutzer funktionieren.
  • Für den Fall, dass das Modell unter den gelben Rechtecken nichts sehen kann, ist die Bereitstellung von Frames je nach Aktivierungsstatus von Vimium vorgesehen.
  • Zusätzlich zur Bildeingabe könnte der Chrome-Accessibility-Tree als Eingabe bereitgestellt werden, um ein Layout interaktiver Elemente zu liefern, das auf Vimium-Bindings abgebildet werden kann.

Referenzen

Meinung von GN⁺

Das Wichtigste an diesem Artikel ist der Versuch, das Web-Browsing-Erlebnis mithilfe großer Sprachmodelle wie GPT-4V zu revolutionieren. Über die Vimium-Erweiterung dem Modell eine Möglichkeit zu geben, mit dem Web zu interagieren, ist ein interessanter Ansatz und besitzt das Potenzial, Web-Zugänglichkeit und Interaktivität zu verbessern. Für Technikbegeisterte und Softwareentwickler bieten solche Experimente Einblicke in die Zukunft der künstlichen Intelligenz und die Weiterentwicklung von Web-Oberflächen, was das Thema besonders attraktiv macht.

1 Kommentare

 
GN⁺ 2023-11-10
Hacker-News-Kommentare
  • Es ist kaum zu glauben, dass so etwas jetzt möglich ist:

    • Es gibt die auswählbaren Optionen navigate, type, click und done, um dem Nutzer bei bestimmten Aufgaben zu helfen.
    • navigate soll zur angegebenen URL wechseln, während type und click jeweils einen String entgegennehmen und verarbeiten.
    • Beim Klicken soll eine gelbe Zeichenfolge zurückgegeben werden, beim Tippen die Nachricht als String.
    • Wenn die Seite zufriedenstellend ist, soll done als Schlüssel zurückgegeben werden, und die Antwort muss zwingend nur im JSON-Format erfolgen.
  • An meinem Arbeitsplatz ist die technische Schuld so groß, dass viele Menschen Daten manuell kopieren:

    • Es wird Vorfreude darüber geäußert, dass solche Tools als Schicht fungieren könnten, die bestehende Probleme löst.
  • Grußwort vom Ersteller:

    • Dank für das Teilen des Projekts und die Bitte, bei Fragen Bescheid zu geben.
    • Im README gebe es Ideen für die nächsten Schritte, Beiträge seien willkommen.
  • Die Meinung, dass vim eine passende "Implementierung" für ChatGPT sei:

    • Man könne alles als Text-Stream erledigen, und im Internet gebe es bereits viel vimscript.
    • Es wird erwähnt, dass ein ähnliches Experiment begonnen wurde, und ein Link zu einem verwandten Projekt wird geteilt.
  • Diskussion über Screenshots und Browsing-Aufgaben mit GPT-4 Vision:

    • Nachdem das Überlagern von Informationen auf Screenshots gescheitert war, zeigte ein Ansatz bessere Ergebnisse, bei dem der Accessibility-Tree aus Playwright als Text geholt und dem Modell die Interaktionsoptionen mitgeteilt werden.
    • Dem Ersteller wird vorgeschlagen, diese Idee zur Liste zukünftiger Ideen hinzuzufügen.
  • Geteilte Erfahrungen aus Experimenten über die ChatGPT-Oberfläche:

    • Es wird vorgeschlagen, das CSS zu aktualisieren, um Farbverläufe und abgerundete Ecken zu entfernen.
    • Die Kombination aus Rot und fetter weißer Schrift habe die konsistentesten Ergebnisse gezeigt.
    • Es wird geraten, die Schriftgröße zu erhöhen und Labels zu trennen sowie Pfeile hinzuzufügen, falls sie sich überlappen.
    • Es wird empfohlen, sowohl ein annotiertes als auch ein nicht annotiertes Bild an die API zu senden.
  • Eine Frage dazu, welche Auswirkungen solche Tools auf Web-Tracking oder Werbung haben könnten:

    • Potenzial als eine Art "Adblocker", bei dem ein Agent anstelle des Nutzers Gewünschtes ohne Werbung oder Pop-ups findet.
    • Die Vorstellung, dass dies die Bedeutung von SEO verringern und die Qualität des Internets verbessern könnte.
    • Gleichzeitig wird auch Sorge über mögliche negative Auswirkungen von Werbung geäußert.
  • Man könnte einen Autopiloten für den Browser bauen:

    • Wenn diese Technologie in großem Maßstab ausgerollt wird, dürfte es sehr schwer werden, Bot-Traffic zu unterscheiden.
    • Es wird die Frage aufgeworfen, dass dies kurzfristig weder günstig noch leicht zugänglich sein dürfte.
  • Eine positive Meinung, dass GPT-4V dem Web-Scraping eine neue Perspektive eröffnet habe:

    • Es wird erwartet, dass dieser oder ähnlicher Code in vielen Projekten zum Einsatz kommen wird.
    • Zum Beispiel könnte er zum Scraping von Websites wie LinkedIn oder Twitter, für Wettbewerbsanalysen, zum Verständnis von Branchen oder zur Beschaffung von Nachrichten genutzt werden.
  • Geteilte praktische Erfahrungen:

    • Kleine Annotationen für anklickbare Optionen erscheinen oft nicht auf dem Bildschirm, was dazu führt, dass man in Schleifen gerät.
    • Der Login bei Twitter gelang, aber das Limit von 100 Image-API-Aufrufen war schnell ausgeschöpft.
    • Für künftige Versionen wird vorgeschlagen, hauptsächlich einen textbasierten Browser zu verwenden und Vision nur in komplexen Situationen einzusetzen.