6 Punkte von xguru 2023-11-16 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Fragen, die bei der Automatisierung von Web-Interaktionen mit GPT-4(V) entstehen
    • Wie lässt sich die Antwort eines LLM auf Web-Elemente abbilden?
    • Wie sollte man eine Seite markieren, damit das LLM seinen Arbeitsbereich besser versteht?
    • Wie kann man einem rein textbasierten LLM einen „Screenshot“ bereitstellen?
  • Tarsier ist eine Vision-Utility für multimodale Web-Agenten
    • Funktioniert, indem interaktive Elemente auf der Seite visuell mit „Tags“ wie [1] versehen werden
    • Dadurch erhält GPT-4(V) eine Zuordnung zwischen Elementen und IDs, damit es Aufgaben ausführen kann
    • Interaktive Elemente sind definiert als Buttons, Links oder Eingabefelder, die auf der Seite angezeigt werden
    • Kann eine Textdarstellung der Seite bereitstellen
      • Dadurch sind auch in nicht multimodalen LLMs tiefere Interaktionen möglich
      • Das ist wichtig, wenn man die Leistungsprobleme bestehender Vision-Language-Modelle berücksichtigt
    • Bietet außerdem eine OCR-Utility, die einen Seiten-Screenshot in einen String mit Whitespace-Struktur umwandelt, den ein LLM ohne Vision verstehen kann
  • Unterstützte OCR-Dienste
    • Aktuell wird nur Google Cloud Vision unterstützt; Support für Amazon Textract und Microsoft Azure Computer Vision ist geplant

Noch keine Kommentare.

Noch keine Kommentare.