- Nach dem Ausprobieren von Anthropics Computer Use API:
- langsam, unzuverlässig und leicht dazu zu bringen, den Computer zu kapern, aber „unglaublich faszinierend“
- Claude Computer vermittelt ein echtes „Agenten“-Erlebnis, weil Vision die API ist, die alles zusammenhält, und deshalb immer irgendeine Handlung möglich ist
Wie funktioniert es?
- Claude Computer Use scheint im Grunde Claude 3.5 zu sein, das mit Daten zu Computerinteraktionen feinabgestimmt wurde
- Es versteht Screenshots von Computern und deren Inhalte deutlich besser als andere Modelle
[Worin es gut ist]
Bildschirm lesen und navigieren (relativ gesehen)
- Ich habe fast nie erlebt, dass Claude den Inhalt eines Screenshots falsch liest
- Im Vergleich zu anderer AI ist es ziemlich gut darin, Koordinaten wie
Klicken Sie auf das Eingabefeld an Position (500,250) zu erkennen (je nach Bildschirmgröße kann es leicht danebenliegen)
Function Calling
- Ich war daran gewöhnt zu denken, dass Function Calling strikt schlechter ist als strukturierte Ausgaben, aber Claude Computer nutzt Function Calling gut
- Wenn ihm zum Beispiel eine Browser-Tool-Funktion gegeben wird, mit der es sofort zu einer Website springen kann, bevorzugt es diese Funktion, statt auf das Browser-Icon zu klicken
Schrittweises Denken
- Wenn man es bittet, eine Aufgabe zu zerlegen, ist Claude normalerweise ziemlich gut darin, die nötigen Schritte zu erkennen und loszulegen
[Worin es schlecht ist]
Zu wissen, wann es den Bildschirm lesen muss
- Das Aufnehmen von Screenshots ist teuer, daher neigt die AI dazu anzunehmen, dass ihre Aktionen erfolgreich waren
- Wenn sie zum Beispiel in ein Feld tippt, das keinen Fokus hat, ist das später sehr schwer zu erkennen. OS-Function-Calls müssen sehr präzise beschreiben, ob das beabsichtigte Ergebnis tatsächlich eingetreten ist
- So bleibt Claude am häufigsten stecken. Wenn es wieder einen neuen Screenshot macht, weiß es nicht mehr, wo es im Ablauf steht
Mehr Daten beschaffen
- Wenn man es bittet, die drei nächstgelegenen Shawarma-Läden zu finden, wird Claude wahrscheinlich in Google Maps „Shawarma“ eingeben und die obersten drei Ergebnisse auswählen
- Wenn es klicken muss, wird es fast nie zuerst im Menü „Nach Entfernung sortieren“ auswählen
- Das ließe sich möglicherweise mit einer besseren Prompt-Struktur lösen
Sich den Zustand merken
- Bei Computer Use wird ein größerer Teil des Programmzustands in Bildern gespeichert, und beim Abrufen davon scheint es anfälliger zu sein
- Das gilt auch für Dinge, die es zuvor getan hat, etwa zuvor geöffnete Tabs oder geänderte Anwendungen
- Es ist gut, Claude möglichst viel relevanten Zustand als Text ausgeben zu lassen und den Systemzustand per Tools bereitzustellen
Navigation in Modals und Pop-ups
- Claude gerät bei Modals und Pop-ups am häufigsten durcheinander und weiß dann nicht, wie es sie wegklicken soll, oder erkennt nicht, dass es sich im falschen Zustand befindet
[Was wird benötigt?]
So viel Systemzustand wie möglich bereitstellen
- Idealerweise sollte Claude Computer Vision nur dann verwenden, wenn es absolut notwendig ist
- Wenn man Tools bereitstellt, mit denen sich der Zustand ohne Vision leicht verstehen lässt, kann es sich schneller bewegen und klarer denken
- Sehr hilfreich ist es, Dinge wie die folgenden bereitzustellen:
- eine Liste der geöffneten Anwendungen
- welche Anwendung den aktiven Fokus hat
- worauf innerhalb der Anwendung der Fokus liegt
- möglichst viele Function Calls, um genau diese Anwendung zu navigieren
- besonders wichtig sind Browser-Tools (z. B. um zu einer bestimmten URL zu navigieren oder zu suchen)
Wie man mit Unsicherheit umgeht
- Das ist das größte ungelöste Problem in der Agentenentwicklung
- Das Wichtigste bei Agenten ist Vertrauen, und Vertrauen braucht Eingaben und Feedback
- Während der Tests gab es viele Situationen, in denen klar war, dass Claude nicht wusste, was es tun sollte, und trotzdem weitergemacht hat, statt anzuhalten oder nachzufragen
- Ich habe ziemlich viel Zeit darauf verwendet, ein Frage-Tool zu bauen, damit die AI Fragen stellt oder nachdenkt, wenn sie feststeckt. Es wurde aber kaum genutzt
- Das ist nachvollziehbar. Function Calling ist am besten, wenn man weiß, dass Informationen benötigt werden und sie nur noch abrufen muss
- Aber zu wissen, wann man unsicher ist, ist ein anderes Problem. Agentenentwickler müssen darauf vertrauen können, dass die AI ihre eigene Unsicherheit meldet
[Der Weg nach vorn]
- Claude Computer Use ist der erste Schritt hin zu echtem Agentenverhalten
- Wahrscheinlich schöpfen wir die Fähigkeiten des aktuellen Modells noch längst nicht vollständig aus
- Aber es ist klar, dass wir für ein echtes Agentenerlebnis mehr brauchen werden als nur LLM-Function-Calling
Noch keine Kommentare.