4 Punkte von xguru 2024-10-28 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Nach dem Ausprobieren von Anthropics Computer Use API:
    • langsam, unzuverlässig und leicht dazu zu bringen, den Computer zu kapern, aber „unglaublich faszinierend“
  • Claude Computer vermittelt ein echtes „Agenten“-Erlebnis, weil Vision die API ist, die alles zusammenhält, und deshalb immer irgendeine Handlung möglich ist

Wie funktioniert es?

  • Claude Computer Use scheint im Grunde Claude 3.5 zu sein, das mit Daten zu Computerinteraktionen feinabgestimmt wurde
  • Es versteht Screenshots von Computern und deren Inhalte deutlich besser als andere Modelle

[Worin es gut ist]

Bildschirm lesen und navigieren (relativ gesehen)

  • Ich habe fast nie erlebt, dass Claude den Inhalt eines Screenshots falsch liest
  • Im Vergleich zu anderer AI ist es ziemlich gut darin, Koordinaten wie Klicken Sie auf das Eingabefeld an Position (500,250) zu erkennen (je nach Bildschirmgröße kann es leicht danebenliegen)

Function Calling

  • Ich war daran gewöhnt zu denken, dass Function Calling strikt schlechter ist als strukturierte Ausgaben, aber Claude Computer nutzt Function Calling gut
  • Wenn ihm zum Beispiel eine Browser-Tool-Funktion gegeben wird, mit der es sofort zu einer Website springen kann, bevorzugt es diese Funktion, statt auf das Browser-Icon zu klicken

Schrittweises Denken

  • Wenn man es bittet, eine Aufgabe zu zerlegen, ist Claude normalerweise ziemlich gut darin, die nötigen Schritte zu erkennen und loszulegen

[Worin es schlecht ist]

Zu wissen, wann es den Bildschirm lesen muss

  • Das Aufnehmen von Screenshots ist teuer, daher neigt die AI dazu anzunehmen, dass ihre Aktionen erfolgreich waren
  • Wenn sie zum Beispiel in ein Feld tippt, das keinen Fokus hat, ist das später sehr schwer zu erkennen. OS-Function-Calls müssen sehr präzise beschreiben, ob das beabsichtigte Ergebnis tatsächlich eingetreten ist
  • So bleibt Claude am häufigsten stecken. Wenn es wieder einen neuen Screenshot macht, weiß es nicht mehr, wo es im Ablauf steht

Mehr Daten beschaffen

  • Wenn man es bittet, die drei nächstgelegenen Shawarma-Läden zu finden, wird Claude wahrscheinlich in Google Maps „Shawarma“ eingeben und die obersten drei Ergebnisse auswählen
  • Wenn es klicken muss, wird es fast nie zuerst im Menü „Nach Entfernung sortieren“ auswählen
  • Das ließe sich möglicherweise mit einer besseren Prompt-Struktur lösen

Sich den Zustand merken

  • Bei Computer Use wird ein größerer Teil des Programmzustands in Bildern gespeichert, und beim Abrufen davon scheint es anfälliger zu sein
  • Das gilt auch für Dinge, die es zuvor getan hat, etwa zuvor geöffnete Tabs oder geänderte Anwendungen
  • Es ist gut, Claude möglichst viel relevanten Zustand als Text ausgeben zu lassen und den Systemzustand per Tools bereitzustellen

Navigation in Modals und Pop-ups

  • Claude gerät bei Modals und Pop-ups am häufigsten durcheinander und weiß dann nicht, wie es sie wegklicken soll, oder erkennt nicht, dass es sich im falschen Zustand befindet

[Was wird benötigt?]

So viel Systemzustand wie möglich bereitstellen

  • Idealerweise sollte Claude Computer Vision nur dann verwenden, wenn es absolut notwendig ist
  • Wenn man Tools bereitstellt, mit denen sich der Zustand ohne Vision leicht verstehen lässt, kann es sich schneller bewegen und klarer denken
  • Sehr hilfreich ist es, Dinge wie die folgenden bereitzustellen:
    • eine Liste der geöffneten Anwendungen
    • welche Anwendung den aktiven Fokus hat
    • worauf innerhalb der Anwendung der Fokus liegt
    • möglichst viele Function Calls, um genau diese Anwendung zu navigieren
      • besonders wichtig sind Browser-Tools (z. B. um zu einer bestimmten URL zu navigieren oder zu suchen)

Wie man mit Unsicherheit umgeht

  • Das ist das größte ungelöste Problem in der Agentenentwicklung
  • Das Wichtigste bei Agenten ist Vertrauen, und Vertrauen braucht Eingaben und Feedback
  • Während der Tests gab es viele Situationen, in denen klar war, dass Claude nicht wusste, was es tun sollte, und trotzdem weitergemacht hat, statt anzuhalten oder nachzufragen
  • Ich habe ziemlich viel Zeit darauf verwendet, ein Frage-Tool zu bauen, damit die AI Fragen stellt oder nachdenkt, wenn sie feststeckt. Es wurde aber kaum genutzt
  • Das ist nachvollziehbar. Function Calling ist am besten, wenn man weiß, dass Informationen benötigt werden und sie nur noch abrufen muss
  • Aber zu wissen, wann man unsicher ist, ist ein anderes Problem. Agentenentwickler müssen darauf vertrauen können, dass die AI ihre eigene Unsicherheit meldet

[Der Weg nach vorn]

  • Claude Computer Use ist der erste Schritt hin zu echtem Agentenverhalten
  • Wahrscheinlich schöpfen wir die Fähigkeiten des aktuellen Modells noch längst nicht vollständig aus
  • Aber es ist klar, dass wir für ein echtes Agentenerlebnis mehr brauchen werden als nur LLM-Function-Calling

Noch keine Kommentare.

Noch keine Kommentare.