24 Punkte von princox 2026-02-19 | Noch keine Kommentare. | Auf WhatsApp teilen

https://github.com/unitedbyai/droidclaw
Dies ist ein Framework für mobile AI-Agenten, das bei Eingabe eines Ziels in natürlicher Sprache den Bildschirm erkennt und Touch- sowie Texteingaben automatisch über ADB ausführt.

Die Funktionsweise ist einfach: Es wiederholt in einer Schleife „Bildschirm aufnehmen → mit einem Vision-Modell erkennen → nächste Aktion ableiten → über ADB ausführen“. Wenn man zum Beispiel „Suche auf YouTube nach Claude“ eingibt, wird vom Starten der App bis zur Eingabe des Suchbegriffs alles automatisch erledigt.

Der Unterschied zu bestehenden RPA-Tools besteht darin, dass es den Bildschirm versteht und ohne hart kodierte Koordinaten arbeitet. Dadurch passt es sich bis zu einem gewissen Grad auch an, wenn sich die UI ändert.

Mögliche Einsatzszenarien:
∙ Automatisierung von App-UI-Tests
∙ Paralleles Verbinden mehrerer Smartphones zur verteilten Verarbeitung wiederkehrender Aufgaben
∙ Automatisierung, die physische Geräte erfordert (Fälle, die mit Emulatoren nicht funktionieren)

Wenn noch ein altes Smartphone in der Schublade liegt, kann man es unkompliziert ausprobieren. Eine ADB-Verbindung genügt.

Noch keine Kommentare.

Noch keine Kommentare.