AgentBlue – Open-Source-KI-Agent zur automatischen Steuerung von Android per natürlichem Sprachbefehl
(github.com/RGLie)Hallo, ich habe ein mobiles Agentensystem namens AgentBlue entwickelt.
AgentBlue ist ein Open-Source-KI-Automatisierungssystem, bei dem man im Terminal Befehle in natürlicher Sprache eingibt und das Android-Gerät dann selbstständig Apps durchsucht, tippt und Texte eingibt.
Funktionsweise
Über den Accessibility Service von Android wird der UI-Baum des aktuellen Bildschirms ausgelesen und an ein LLM übergeben, das daraus die nächste Aktion bestimmt. Diese ReAct-Schleife (Reasoning + Acting) wird wiederholt, bis die Abschlussbedingung erfüllt ist.
"Suche auf YouTube nach Lofi-Musik"
→ UI-Parsing → LLM-Entscheidung → CLICK "YouTube" → TYPE "Lofi" → CLICK Suche → DONE
CLI und Android-App kommunizieren in Echtzeit über Firebase Firestore als Relay-Server. Das Pairing erfolgt ohne separaten Server über einen 8-stelligen Session-Code.
Hauptmerkmale
- Unterstützung für mehrere LLMs — Auswahl zwischen OpenAI, Google Gemini, Anthropic Claude und DeepSeek
- Terminal-REPL — Start einer Session mit
agentblue start, Versand von Befehlen in natürlicher Sprache - Remote-Konfiguration — Ändern der Android-App-Einstellungen über
/settingund/modelin der CLI - Status in Echtzeit — Fortschritt jedes Schritts in Echtzeit im Terminal verfolgen
- Sicherheitsmechanismen — automatischer Stopp vor irreversiblen Aktionen wie Zahlungsbestätigung oder Kontolöschung
- Stuck-Erkennung und Wiederherstellung — bei wiederholtem Fehlschlagen auf demselben Bildschirm werden Hinweise injiziert oder BACK erzwungen
- Standalone-Nutzung auf dem Gerät — auch ohne CLI direkte Befehlseingabe auf dem Gerät über einen Floating Button möglich
Schnellstart
Verwendung
npm install -g @agentblue/cli
agentblue init # Firebase-Konfiguration + Sprachauswahl (gemeinsam genutzter Server standardmäßig enthalten)
agentblue start # Session-Code ausstellen → in der Android-App eingeben → Verbindung abgeschlossen
Die Android-App ist sofort einsatzbereit, sobald nur der Accessibility Service und die Overlay-Berechtigung erlaubt werden.
Warum ich das gebaut habe
Die meisten RPA-Tools basieren auf Bildschirmkoordinaten, sodass schon ein einzelnes App-Update das Skript zerstören kann. AgentBlue findet Ziele anhand der UI-Semantik (Text, contentDescription, Resource-ID) und ist dadurch deutlich robuster gegenüber Layout-Änderungen. Da das LLM bei jedem Schritt neu entscheidet, „was als Nächstes zu tun ist“, muss kein Szenario im Voraus festgelegt werden.
Feedback und Beiträge sind willkommen. Wenn ihr insbesondere bessere Strategien für UI-Parsing oder Ideen zur Verbesserung der Stuck-Erkennung habt, sagt bitte per Issue, PR oder Kommentar Bescheid!
Danke
Noch keine Kommentare.