- Headless-Browser-Automatisierungs-CLI für AI-Agenten
- Umstellung von der bisherigen Struktur mit Node.js + Playwright + CDP auf ein Rust-Binary, das CDP direkt aufruft
- Als eigenständig ausführbarer Daemon läuft zur Runtime kein Node.js-Prozess mehr, wodurch der Speicherverbrauch sinkt und der Footprint kleiner wird
- AI-freundliche Workflow-Befehle
- Der Befehl
snapshot ruft den Accessibility-Tree ab, erzeugt eindeutige refs (@e1, @e2) und arbeitet auf dieser Basis (klassische Selektoren werden ebenfalls unterstützt)
- Seitennavigation (
open, goto), Klicken und Eingabe (click, fill, type, hover, check, ..), Erstellen von Screenshots und PDFs (screenshot, pdf)
- Statusabfrage (
get text, get attr), Statusprüfung (is), Warten (wait), Steuerung von Maus und Tastatur (mouse, keyboard)
- Elementsuche (
find), Browser-Einstellungen (set), Tabs/Fenster/Frames/Dialoge (tab, window, frame, dialog)
- Vergleich (
diff): Vergleich per Snapshot/Screenshot/URL usw.
- Verwaltung von Sessions, Storage und Cookies (
cookie, storage) sowie Unterstützung für das Abfangen und Mocking von Netzwerk-Anfragen (network route)
- Mit
--session lassen sich isolierte Browser-Instanzen starten
- Mit
--profile oder --session-name bleibt der Login- und Storage-Status erhalten
- Die Option
--annotate unterstützt die Erstellung annotierter Screenshots mit eingeblendeten Elementnummern
- Rust-Binaries speziell für macOS, Linux und Windows verfügbar, mit Node.js-Fallback
- Apache-2.0-Lizenz
2 Kommentare
Ich nutze es wirklich sehr gern. Auch die Token-Effizienz ist gut.
Ich habe agent-browser wohl noch gar nicht vorgestellt. In letzter Zeit kommt einfach so viel zusammen, dass ich es wohl übersehen habe, haha.
Als neue experimentelle Funktion wurde der Parameter
--nativeeingeführt, wodurch es noch kleiner und schneller geworden ist.https://x.com/ctatedev/status/2028960626685386994
Das ist ein weiteres Projekt von Chris Tate, der auch portless - ein Tool, das Portnummern durch namensbasierte
.localhost-URLs ersetzt entwickelt hat.