AgentBlue – Open-Source-KI-Agent zur automatischen Steuerung von Android per natürlichem Sprachbefehl

(github.com/RGLie)

14 Punkte von j2hyeon02 2026-03-08 | Noch keine Kommentare. | Auf WhatsApp teilen

Hallo, ich habe ein mobiles Agentensystem namens AgentBlue entwickelt.

AgentBlue ist ein Open-Source-KI-Automatisierungssystem, bei dem man im Terminal Befehle in natürlicher Sprache eingibt und das Android-Gerät dann selbstständig Apps durchsucht, tippt und Texte eingibt.

Funktionsweise

Über den Accessibility Service von Android wird der UI-Baum des aktuellen Bildschirms ausgelesen und an ein LLM übergeben, das daraus die nächste Aktion bestimmt. Diese ReAct-Schleife (Reasoning + Acting) wird wiederholt, bis die Abschlussbedingung erfüllt ist.

"Suche auf YouTube nach Lofi-Musik"
→ UI-Parsing → LLM-Entscheidung → CLICK "YouTube" → TYPE "Lofi" → CLICK Suche → DONE
CLI und Android-App kommunizieren in Echtzeit über Firebase Firestore als Relay-Server. Das Pairing erfolgt ohne separaten Server über einen 8-stelligen Session-Code.

Hauptmerkmale

Unterstützung für mehrere LLMs — Auswahl zwischen OpenAI, Google Gemini, Anthropic Claude und DeepSeek
Terminal-REPL — Start einer Session mit agentblue start, Versand von Befehlen in natürlicher Sprache
Remote-Konfiguration — Ändern der Android-App-Einstellungen über /setting und /model in der CLI
Status in Echtzeit — Fortschritt jedes Schritts in Echtzeit im Terminal verfolgen
Sicherheitsmechanismen — automatischer Stopp vor irreversiblen Aktionen wie Zahlungsbestätigung oder Kontolöschung
Stuck-Erkennung und Wiederherstellung — bei wiederholtem Fehlschlagen auf demselben Bildschirm werden Hinweise injiziert oder BACK erzwungen
Standalone-Nutzung auf dem Gerät — auch ohne CLI direkte Befehlseingabe auf dem Gerät über einen Floating Button möglich
Schnellstart

Verwendung

npm install -g @agentblue/cli
agentblue init # Firebase-Konfiguration + Sprachauswahl (gemeinsam genutzter Server standardmäßig enthalten)
agentblue start # Session-Code ausstellen → in der Android-App eingeben → Verbindung abgeschlossen
Die Android-App ist sofort einsatzbereit, sobald nur der Accessibility Service und die Overlay-Berechtigung erlaubt werden.

Warum ich das gebaut habe

Die meisten RPA-Tools basieren auf Bildschirmkoordinaten, sodass schon ein einzelnes App-Update das Skript zerstören kann. AgentBlue findet Ziele anhand der UI-Semantik (Text, contentDescription, Resource-ID) und ist dadurch deutlich robuster gegenüber Layout-Änderungen. Da das LLM bei jedem Schritt neu entscheidet, „was als Nächstes zu tun ist“, muss kein Szenario im Voraus festgelegt werden.

Feedback und Beiträge sind willkommen. Wenn ihr insbesondere bessere Strategien für UI-Parsing oder Ideen zur Verbesserung der Stuck-Erkennung habt, sagt bitte per Issue, PR oder Kommentar Bescheid!

Danke