Tarsier - Vision-Utility für Web-Interaktions-Agenten

xguru · 2023-11-16T10:03:01+09:00

Fragen, die bei der Automatisierung von Web-Interaktionen mit GPT-4(V) entstehen Wie lässt sich die Antwort eines LLM auf Web-Elemente abbilden? Wie sollte man eine Seite markieren, damit das LLM seinen Arbeitsbereich besser versteht? Wie kann man einem rein textbasierten LLM einen „Screenshot“ bereitstellen? Tarsier ist eine Vision-Utility für multimodale Web-Agenten Funktioniert, indem interaktive Elemente auf der Seite visuell mit „Tags“ wie [1] versehen werden Dadurch erhält GPT-4(V) eine Zuordnung zwischen Elementen und IDs, damit es Aufgaben ausführen kann Interaktive Elemente sind definiert als Buttons, Links oder Eingabefelder, die auf der Seite angezeigt werden Kann eine Textdarstellung der Seite bereitstellen Dadurch sind auch in nicht multimodalen LLMs tiefere Interaktionen möglich Das ist wichtig, wenn man die Leistungsprobleme bestehender Vision-Language-Modelle berücksichtigt Bietet außerdem eine OCR-Utility, die einen Seiten-Screenshot in einen String mit Whitespace-Struktur umwandelt, den ein LLM ohne Vision verstehen kann Unterstützte OCR-Dienste Aktuell wird nur Google Cloud Vision unterstützt; Support für Amazon Textract und Microsoft Azure Computer Vision ist geplant

(github.com/reworkd)

6 Punkte von xguru 2023-11-16 | Noch keine Kommentare. | Auf WhatsApp teilen

Fragen, die bei der Automatisierung von Web-Interaktionen mit GPT-4(V) entstehen
- Wie lässt sich die Antwort eines LLM auf Web-Elemente abbilden?
- Wie sollte man eine Seite markieren, damit das LLM seinen Arbeitsbereich besser versteht?
- Wie kann man einem rein textbasierten LLM einen „Screenshot“ bereitstellen?
Tarsier ist eine Vision-Utility für multimodale Web-Agenten
- Funktioniert, indem interaktive Elemente auf der Seite visuell mit „Tags“ wie [1] versehen werden
- Dadurch erhält GPT-4(V) eine Zuordnung zwischen Elementen und IDs, damit es Aufgaben ausführen kann
- Interaktive Elemente sind definiert als Buttons, Links oder Eingabefelder, die auf der Seite angezeigt werden
- Kann eine Textdarstellung der Seite bereitstellen
  - Dadurch sind auch in nicht multimodalen LLMs tiefere Interaktionen möglich
  - Das ist wichtig, wenn man die Leistungsprobleme bestehender Vision-Language-Modelle berücksichtigt
- Bietet außerdem eine OCR-Utility, die einen Seiten-Screenshot in einen String mit Whitespace-Struktur umwandelt, den ein LLM ohne Vision verstehen kann
Unterstützte OCR-Dienste
- Aktuell wird nur Google Cloud Vision unterstützt; Support für Amazon Textract und Microsoft Azure Computer Vision ist geplant

Tarsier - Vision-Utility für Web-Interaktions-Agenten

Verwandte Beiträge

Noch keine Kommentare.