Claude Computer Use – Ist Vision die ultimative API?

xguru · 2024-10-28T09:41:01+09:00

Nach dem Ausprobieren von Anthropics Computer Use API: langsam, unzuverlässig und leicht dazu zu bringen, den Computer zu kapern, aber „unglaublich faszinierend“ Claude Computer vermittelt ein echtes „Agenten“-Erlebnis, weil Vision die API ist, die alles zusammenhält, und deshalb immer irgendeine Handlung möglich ist Wie funktioniert es? Claude Computer Use scheint im Grunde Claude 3.5 zu sein, das mit Daten zu Computerinteraktionen feinabgestimmt wurde Es versteht Screenshots von Computern und deren Inhalte deutlich besser als andere Modelle [Worin es gut ist] Bildschirm lesen und navigieren (relativ gesehen) Ich habe fast nie erlebt, dass Claude den Inhalt eines Screenshots falsch liest Im Vergleich zu anderer AI ist es ziemlich gut darin, Koordinaten wie Klicken Sie auf das Eingabefeld an Position (500,250) zu erkennen (je nach Bildschirmgröße kann es leicht danebenliegen) Function Calling Ich war daran gewöhnt zu denken, dass Function Calling strikt schlechter ist als strukturierte Ausgaben, aber Claude Computer nutzt Function Calling gut Wenn ihm zum Beispiel eine Browser-Tool-Funktion gegeben wird, mit der es sofort zu einer Website springen kann, bevorzugt es diese Funktion, statt auf das Browser-Icon zu klicken Schrittweises Denken Wenn man es bittet, eine Aufgabe zu zerlegen, ist Claude normalerweise ziemlich gut darin, die nötigen Schritte zu erkennen und loszulegen [Worin es schlecht ist] Zu wissen, wann es den Bildschirm lesen muss Das Aufnehmen von Screenshots ist teuer, daher neigt die AI dazu anzunehmen, dass ihre Aktionen erfolgreich waren Wenn sie zum Beispiel in ein Feld tippt, das keinen Fokus hat, ist das später sehr schwer zu erkennen. OS-Function-Calls müssen sehr präzise beschreiben, ob das beabsichtigte Ergebnis tatsächlich eingetreten ist So bleibt Claude am häufigsten stecken. Wenn es wieder einen neuen Screenshot macht, weiß es nicht mehr, wo es im Ablauf steht Mehr Daten beschaffen Wenn man es bittet, die drei nächstgelegenen Shawarma-Läden zu finden, wird Claude wahrscheinlich in Google Maps „Shawarma“ eingeben und die obersten drei Ergebnisse auswählen Wenn es klicken muss, wird es fast nie zuerst im Menü „Nach Entfernung sortieren“ auswählen Das ließe sich möglicherweise mit einer besseren Prompt-Struktur lösen Sich den Zustand merken Bei Computer Use wird ein größerer Teil des Programmzustands in Bildern gespeichert, und beim Abrufen davon scheint es anfälliger zu sein Das gilt auch für Dinge, die es zuvor getan hat, etwa zuvor geöffnete Tabs oder geänderte Anwendungen Es ist gut, Claude möglichst viel relevanten Zustand als Text ausgeben zu lassen und den Systemzustand per Tools bereitzustellen Navigation in Modals und Pop-ups Claude gerät bei Modals und Pop-ups am häufigsten durcheinander und weiß dann nicht, wie es sie wegklicken soll, oder erkennt nicht, dass es sich im falschen Zustand befindet [Was wird benötigt?] So viel Systemzustand wie möglich bereitstellen Idealerweise sollte Claude Computer Vision nur dann verwenden, wenn es absolut notwendig ist Wenn man Tools bereitstellt, mit denen sich der Zustand ohne Vision leicht verstehen lässt, kann es sich schneller bewegen und klarer denken Sehr hilfreich ist es, Dinge wie die folgenden bereitzustellen: eine Liste der geöffneten Anwendungen welche Anwendung den aktiven Fokus hat worauf innerhalb der Anwendung der Fokus liegt möglichst viele Function Calls, um genau diese Anwendung zu navigieren besonders wichtig sind Browser-Tools (z. B. um zu einer bestimmten URL zu navigieren oder zu suchen) Wie man mit Unsicherheit umgeht Das ist das größte ungelöste Problem in der Agentenentwicklung Das Wichtigste bei Agenten ist Vertrauen, und Vertrauen braucht Eingaben und Feedback Während der Tests gab es viele Situationen, in denen klar war, dass Claude nicht wusste, was es tun sollte, und trotzdem weitergemacht hat, statt anzuhalten oder nachzufragen Ich habe ziemlich viel Zeit darauf verwendet, ein Frage-Tool zu bauen, damit die AI Fragen stellt oder nachdenkt, wenn sie feststeckt. Es wurde aber kaum genutzt Das ist nachvollziehbar. Function Calling ist am besten, wenn man weiß, dass Informationen benötigt werden und sie nur noch abrufen muss Aber zu wissen, wann man unsicher ist, ist ein anderes Problem. Agentenentwickler müssen darauf vertrauen können, dass die AI ihre eigene Unsicherheit meldet [Der Weg nach vorn] Claude Computer Use ist der erste Schritt hin zu echtem Agentenverhalten Wahrscheinlich schöpfen wir die Fähigkeiten des aktuellen Modells noch längst nicht vollständig aus Aber es ist klar, dass wir für ein echtes Agentenerlebnis mehr brauchen werden als nur LLM-Function-Calling

Nach dem Ausprobieren von Anthropics Computer Use API:
- langsam, unzuverlässig und leicht dazu zu bringen, den Computer zu kapern, aber „unglaublich faszinierend“
Claude Computer vermittelt ein echtes „Agenten“-Erlebnis, weil Vision die API ist, die alles zusammenhält, und deshalb immer irgendeine Handlung möglich ist

Wie funktioniert es?

Claude Computer Use scheint im Grunde Claude 3.5 zu sein, das mit Daten zu Computerinteraktionen feinabgestimmt wurde
Es versteht Screenshots von Computern und deren Inhalte deutlich besser als andere Modelle

[Worin es gut ist]

Bildschirm lesen und navigieren (relativ gesehen)

Ich habe fast nie erlebt, dass Claude den Inhalt eines Screenshots falsch liest
Im Vergleich zu anderer AI ist es ziemlich gut darin, Koordinaten wie Klicken Sie auf das Eingabefeld an Position (500,250) zu erkennen (je nach Bildschirmgröße kann es leicht danebenliegen)

Function Calling

Ich war daran gewöhnt zu denken, dass Function Calling strikt schlechter ist als strukturierte Ausgaben, aber Claude Computer nutzt Function Calling gut
Wenn ihm zum Beispiel eine Browser-Tool-Funktion gegeben wird, mit der es sofort zu einer Website springen kann, bevorzugt es diese Funktion, statt auf das Browser-Icon zu klicken

Schrittweises Denken

Wenn man es bittet, eine Aufgabe zu zerlegen, ist Claude normalerweise ziemlich gut darin, die nötigen Schritte zu erkennen und loszulegen

[Worin es schlecht ist]

Zu wissen, wann es den Bildschirm lesen muss

Das Aufnehmen von Screenshots ist teuer, daher neigt die AI dazu anzunehmen, dass ihre Aktionen erfolgreich waren
Wenn sie zum Beispiel in ein Feld tippt, das keinen Fokus hat, ist das später sehr schwer zu erkennen. OS-Function-Calls müssen sehr präzise beschreiben, ob das beabsichtigte Ergebnis tatsächlich eingetreten ist
So bleibt Claude am häufigsten stecken. Wenn es wieder einen neuen Screenshot macht, weiß es nicht mehr, wo es im Ablauf steht

Mehr Daten beschaffen

Wenn man es bittet, die drei nächstgelegenen Shawarma-Läden zu finden, wird Claude wahrscheinlich in Google Maps „Shawarma“ eingeben und die obersten drei Ergebnisse auswählen
Wenn es klicken muss, wird es fast nie zuerst im Menü „Nach Entfernung sortieren“ auswählen
Das ließe sich möglicherweise mit einer besseren Prompt-Struktur lösen

Sich den Zustand merken

Bei Computer Use wird ein größerer Teil des Programmzustands in Bildern gespeichert, und beim Abrufen davon scheint es anfälliger zu sein
Das gilt auch für Dinge, die es zuvor getan hat, etwa zuvor geöffnete Tabs oder geänderte Anwendungen
Es ist gut, Claude möglichst viel relevanten Zustand als Text ausgeben zu lassen und den Systemzustand per Tools bereitzustellen

Navigation in Modals und Pop-ups

Claude gerät bei Modals und Pop-ups am häufigsten durcheinander und weiß dann nicht, wie es sie wegklicken soll, oder erkennt nicht, dass es sich im falschen Zustand befindet

[Was wird benötigt?]

So viel Systemzustand wie möglich bereitstellen

Idealerweise sollte Claude Computer Vision nur dann verwenden, wenn es absolut notwendig ist
Wenn man Tools bereitstellt, mit denen sich der Zustand ohne Vision leicht verstehen lässt, kann es sich schneller bewegen und klarer denken
Sehr hilfreich ist es, Dinge wie die folgenden bereitzustellen:
- eine Liste der geöffneten Anwendungen
- welche Anwendung den aktiven Fokus hat
- worauf innerhalb der Anwendung der Fokus liegt
- möglichst viele Function Calls, um genau diese Anwendung zu navigieren
  - besonders wichtig sind Browser-Tools (z. B. um zu einer bestimmten URL zu navigieren oder zu suchen)

Wie man mit Unsicherheit umgeht

Das ist das größte ungelöste Problem in der Agentenentwicklung
Das Wichtigste bei Agenten ist Vertrauen, und Vertrauen braucht Eingaben und Feedback
Während der Tests gab es viele Situationen, in denen klar war, dass Claude nicht wusste, was es tun sollte, und trotzdem weitergemacht hat, statt anzuhalten oder nachzufragen
Ich habe ziemlich viel Zeit darauf verwendet, ein Frage-Tool zu bauen, damit die AI Fragen stellt oder nachdenkt, wenn sie feststeckt. Es wurde aber kaum genutzt
Das ist nachvollziehbar. Function Calling ist am besten, wenn man weiß, dass Informationen benötigt werden und sie nur noch abrufen muss
Aber zu wissen, wann man unsicher ist, ist ein anderes Problem. Agentenentwickler müssen darauf vertrauen können, dass die AI ihre eigene Unsicherheit meldet

[Der Weg nach vorn]

Claude Computer Use ist der erste Schritt hin zu echtem Agentenverhalten
Wahrscheinlich schöpfen wir die Fähigkeiten des aktuellen Modells noch längst nicht vollständig aus
Aber es ist klar, dass wir für ein echtes Agentenerlebnis mehr brauchen werden als nur LLM-Function-Calling