- Fragen, die bei der Automatisierung von Web-Interaktionen mit GPT-4(V) entstehen
- Wie lässt sich die Antwort eines LLM auf Web-Elemente abbilden?
- Wie sollte man eine Seite markieren, damit das LLM seinen Arbeitsbereich besser versteht?
- Wie kann man einem rein textbasierten LLM einen „Screenshot“ bereitstellen?
- Tarsier ist eine Vision-Utility für multimodale Web-Agenten
- Funktioniert, indem interaktive Elemente auf der Seite visuell mit „Tags“ wie
[1] versehen werden
- Dadurch erhält GPT-4(V) eine Zuordnung zwischen Elementen und IDs, damit es Aufgaben ausführen kann
- Interaktive Elemente sind definiert als Buttons, Links oder Eingabefelder, die auf der Seite angezeigt werden
- Kann eine Textdarstellung der Seite bereitstellen
- Dadurch sind auch in nicht multimodalen LLMs tiefere Interaktionen möglich
- Das ist wichtig, wenn man die Leistungsprobleme bestehender Vision-Language-Modelle berücksichtigt
- Bietet außerdem eine OCR-Utility, die einen Seiten-Screenshot in einen String mit Whitespace-Struktur umwandelt, den ein LLM ohne Vision verstehen kann
- Unterstützte OCR-Dienste
- Aktuell wird nur Google Cloud Vision unterstützt; Support für Amazon Textract und Microsoft Azure Computer Vision ist geplant
Noch keine Kommentare.