- Ich wollte die Leistung von Claudes neuer Computer Use API überprüfen, aber das Standardprojekt wirkte zu schwergewichtig
- Agent ist eine einfache Electron-App, mit der Claude 3.5 Sonnet den lokalen Computer direkt steuern kann
- Ich wollte einen „halbautomatischen“ Modus hinzufügen, bei dem der Nutzer jeden Schritt bestätigt, kam aber zu dem Schluss, dass das wegen der Langsamkeit jedes einzelnen Schritts nicht nötig ist
- Wenn das Modell durcheinandergerät, kann man mit der Schaltfläche „Stopp“ die Ausführung beenden
Erste Schritte
git clone https://github.com/corbt/agent.exe
cd agent.exe
npm install
.env.example in .env umbenennen und den Anthropic-API-Key hinzufügen
npm start
- Das Modell bitten, auf dem Computer etwas Interessantes zu tun
Unterstützte Systeme
- MacOS
- Theoretisch werden auch Windows und Linux unterstützt (alle Abhängigkeiten sind plattformübergreifend)
Bekannte Einschränkungen
- Funktioniert nur auf dem primären Display
- Die AI kann den Computer vollständig steuern
- Vermutlich gibt es noch viele weitere Probleme
Tipps
- Claude bevorzugt Firefox sehr stark
- Andere Browser können ebenfalls verwendet werden, aber mit installiertem Firefox funktioniert es besser
Roadmap
- Das Projekt wurde in 6 Stunden geschrieben und wird sich wahrscheinlich nicht weiterentwickeln
- Wenn es aber großartige PRs gibt, werden sie geprüft und zusammengeführt
Zusammenfassung von GN⁺
- Dieses Projekt bietet eine einfache Möglichkeit, Claudes Computer Use API schnell zu testen
- Da die AI den Computer vollständig steuern kann, kann es Sicherheitsbedenken geben
- Die Kompatibilität mit Firefox ist sehr gut, und es ist vor allem auf MacOS nutzbar
- Ähnliche Projekte mit vergleichbarer Funktionalität sind unter anderem AutoHotkey oder Sikuli
1 Kommentare
Hacker-News-Kommentare
Ich halte Kyles Idee für großartig und hatte als erfahrener Entwickler für Desktop-Automatisierung und Electron das Gefühl, dass sich der Source Code lesen und für grundlegende Aufgaben ausprobieren lässt.
Ich frage mich, wie lange es dauert, bis man nicht bemerkt, dass es dem System einen Daemon hinzugefügt hat.
Ich erinnere mich an die Geschichte in den Nachrichten vor ein paar Jahren: „Alexa, bestell mir ein Puppenhaus“.
Ich frage mich, wie man GUI-Apps außerhalb des Browsers unter Linux mit Wayland automatisieren kann.
Ich frage mich, warum es .exe heißt, obwohl es offenbar als plattformübergreifendes Programm gedacht ist, das vor allem macOS unterstützt.
Ich habe vor Kurzem Cursor ausprobiert und im „compose“-Modus ein Full-Stack-Projekt von Grund auf gestartet, und ich war vom Ergebnis überrascht.
Es gibt bekannte Einschränkungen, die verhindern, dass KI den Computer vollständig übernimmt.
Es wäre cool, einen Air Gap zu schaffen und sie ihr eigenes Betriebssystem programmieren zu lassen, aber ich möchte sie nicht in die Nähe echter Daten lassen.
Es scheint nur bei einfachen Aufgaben zu funktionieren.
Ich möchte, dass der Computer den ganzen Tag Memes erstellt, während ich mich um meine Familie kümmere, im Garten arbeite und Krypto verdiene.