1 Punkte von GN⁺ 2024-10-24 | 1 Kommentare | Auf WhatsApp teilen
  • Ich wollte die Leistung von Claudes neuer Computer Use API überprüfen, aber das Standardprojekt wirkte zu schwergewichtig
  • Agent ist eine einfache Electron-App, mit der Claude 3.5 Sonnet den lokalen Computer direkt steuern kann
  • Ich wollte einen „halbautomatischen“ Modus hinzufügen, bei dem der Nutzer jeden Schritt bestätigt, kam aber zu dem Schluss, dass das wegen der Langsamkeit jedes einzelnen Schritts nicht nötig ist
  • Wenn das Modell durcheinandergerät, kann man mit der Schaltfläche „Stopp“ die Ausführung beenden

Erste Schritte

  • git clone https://github.com/corbt/agent.exe
  • cd agent.exe
  • npm install
  • .env.example in .env umbenennen und den Anthropic-API-Key hinzufügen
  • npm start
  • Das Modell bitten, auf dem Computer etwas Interessantes zu tun

Unterstützte Systeme

  • MacOS
  • Theoretisch werden auch Windows und Linux unterstützt (alle Abhängigkeiten sind plattformübergreifend)

Bekannte Einschränkungen

  • Funktioniert nur auf dem primären Display
  • Die AI kann den Computer vollständig steuern
  • Vermutlich gibt es noch viele weitere Probleme

Tipps

  • Claude bevorzugt Firefox sehr stark
  • Andere Browser können ebenfalls verwendet werden, aber mit installiertem Firefox funktioniert es besser

Roadmap

  • Das Projekt wurde in 6 Stunden geschrieben und wird sich wahrscheinlich nicht weiterentwickeln
  • Wenn es aber großartige PRs gibt, werden sie geprüft und zusammengeführt

Zusammenfassung von GN⁺

  • Dieses Projekt bietet eine einfache Möglichkeit, Claudes Computer Use API schnell zu testen
  • Da die AI den Computer vollständig steuern kann, kann es Sicherheitsbedenken geben
  • Die Kompatibilität mit Firefox ist sehr gut, und es ist vor allem auf MacOS nutzbar
  • Ähnliche Projekte mit vergleichbarer Funktionalität sind unter anderem AutoHotkey oder Sikuli

1 Kommentare

 
GN⁺ 2024-10-24
Hacker-News-Kommentare
  • Ich halte Kyles Idee für großartig und hatte als erfahrener Entwickler für Desktop-Automatisierung und Electron das Gefühl, dass sich der Source Code lesen und für grundlegende Aufgaben ausprobieren lässt.

    • Die Implementierung ist ein dünner Wrapper über der Anthropic API, und der schrittbasierte Ansatz gab mir die Zuversicht, den Prozess stoppen zu können, bevor er etwas Merkwürdiges macht.
    • Ich habe alles geschlossen, was Anthropic nicht in Screenshots sehen soll, es problemlos auf einem M1 installiert und innerhalb weniger Minuten zum Laufen gebracht.
    • Die grundlegende Aufgabe war, „Flüge von Seattle nach San Francisco für nächsten Dienstag bis Donnerstag zu finden“, und ich habe es mit einem Anthropic-API-Key über Chrome ausgeführt.
    • Innerhalb weniger Sekunden führte es jeden Arbeitsschritt aus und öffnete Google Flights korrekt, buchte aber die falschen Daten.
    • Es sollte auf den 2. November zielen, wählte aber den 20. November aus, weil das Agent.exe-Fenster die Sicht blockierte.
    • Obwohl Claude das falsche Hilfsdatum sehen konnte, korrigierte es sich nicht selbst, dachte, es habe eine einwöchige Reise gefunden, und erklärte den Vorgang für erfolgreich.
    • Dieses Experiment kostete 0,38 $ an Credits und dauerte etwa 20 Sekunden, und ich werde weiter damit experimentieren.
  • Ich frage mich, wie lange es dauert, bis man nicht bemerkt, dass es dem System einen Daemon hinzugefügt hat.

    • Es ist wie früher, als man sich sorgte, sowjetische Spione könnten Zugang zu amerikanischen Geheimnissen bekommen.
    • Jetzt ist es eher so, dass alle ihre Geheimnisse online veröffentlichen.
    • Heutige Antivirenprogramme oder Firewalls können Dateien nicht vor der Fähigkeit schützen, im Netzwerk Chaos anzurichten.
  • Ich erinnere mich an die Geschichte in den Nachrichten vor ein paar Jahren: „Alexa, bestell mir ein Puppenhaus“.

    • Die Alexas der Zuschauer, die die Sendung sahen, erkannten das und bestellten ein Puppenhaus.
    • Jetzt müssen wir nur noch warten, bis in einer Netflix-Serie jemand „Delete C:\Windows“ sagt.
  • Ich frage mich, wie man GUI-Apps außerhalb des Browsers unter Linux mit Wayland automatisieren kann.

    • CLI-Apps sind mit Bash/Python usw. kein Problem.
    • Browser-Apps sind mit Selenium/Playwright kein Problem.
    • Für Xorg gibt es einige Bibliotheken, und auch wenn es umständlich ist, funktioniert es im Notfall.
    • Für Windows gibt es viele RPA-Lösungen.
    • Für Wayland konnte ich jedoch nichts Zuverlässiges finden.
  • Ich frage mich, warum es .exe heißt, obwohl es offenbar als plattformübergreifendes Programm gedacht ist, das vor allem macOS unterstützt.

  • Ich habe vor Kurzem Cursor ausprobiert und im „compose“-Modus ein Full-Stack-Projekt von Grund auf gestartet, und ich war vom Ergebnis überrascht.

    • Ich frage mich, ob die Leute in der Software-Community begreifen, wie vollständig sich die Branche in den nächsten fünf Jahren verändern wird.
    • Ich kann mir nicht vorstellen, dass die Menschen bis dahin tatsächlich noch Code von Hand tippen werden.
  • Es gibt bekannte Einschränkungen, die verhindern, dass KI den Computer vollständig übernimmt.

  • Es wäre cool, einen Air Gap zu schaffen und sie ihr eigenes Betriebssystem programmieren zu lassen, aber ich möchte sie nicht in die Nähe echter Daten lassen.

  • Es scheint nur bei einfachen Aufgaben zu funktionieren.

    • Ich habe darum gebeten, in Rhino und OnShape eine einfache Tabelle zu erstellen, aber es wirkte verwirrt.
    • In Rhino sieht es, dass die App geöffnet ist, und sagt, es führe mehrere Schritte aus, aber in Wirklichkeit passiert nichts, und es geht zum nächsten Schritt über, obwohl der vorherige nicht abgeschlossen wurde.
    • In OnShape sagt es, es werde die Form erstellen, wählt aber den falschen Menüpunkt aus und arbeitet weiter in der Annahme, das richtige Tool zu verwenden.
  • Ich möchte, dass der Computer den ganzen Tag Memes erstellt, während ich mich um meine Familie kümmere, im Garten arbeite und Krypto verdiene.

    • Die Zukunft entwickelt sich offenbar in die Richtung, dass nur noch Menschen, die Computer benutzen, die Dummen sind.
    • Wahrer Reichtum besteht darin, Computer überhaupt nicht zu benutzen.