RT-2: Vision-Language-Action-Modelle

xguru · 2023-08-02T11:05:01+09:00

"Robotics-Transformer 2": Wissen aus dem Web auf die Steuerung von Robotern übertragen Direktes Integrieren von mit Daten im Internetmaßstab trainierten Vision-Language-Modellen in die End-to-End-Robotersteuerung Die Bewegungen des Roboters werden in Text-Token umgewandelt und als eigene Sprache organisiert, die zusammen mit Vision-Language-Datenmodellen verwendet werden kann, um Arbeitsanweisungen in Aktionen umzusetzen Selbst wenn dem Roboter völlig neue Objekte präsentiert werden, auf die er zuvor nicht trainiert wurde, versteht er sie gut und führt die Aufgabe aus "put strawberry into the correct bowl" "place orange in matching bowl"

(robotics-transformer2.github.io)

7 Punkte von xguru 2023-08-02 | 2 Kommentare | Auf WhatsApp teilen

"Robotics-Transformer 2": Wissen aus dem Web auf die Steuerung von Robotern übertragen
Direktes Integrieren von mit Daten im Internetmaßstab trainierten Vision-Language-Modellen in die End-to-End-Robotersteuerung
Die Bewegungen des Roboters werden in Text-Token umgewandelt und als eigene Sprache organisiert, die zusammen mit Vision-Language-Datenmodellen verwendet werden kann, um Arbeitsanweisungen in Aktionen umzusetzen
Selbst wenn dem Roboter völlig neue Objekte präsentiert werden, auf die er zuvor nicht trainiert wurde, versteht er sie gut und führt die Aufgabe aus
- "put strawberry into the correct bowl"
- "place orange in matching bowl"

2 Kommentare

xguru 2023-08-02

Google’s RT-2 AI model brings uns einen Schritt näher an WALL-E

Der Titel des Artikels von Ars Technica erklärt es etwas leichter. Die Weiterentwicklung von LLMs dürfte bei der Robotersteuerung eine neue Innovation werden.

xguru 2023-08-02

Google testet Roboter, die sich selbst programmieren können
ChatGPT für Robotik: Designprinzipien und Fähigkeiten des Modells

RT-2: Vision-Language-Action-Modelle

Verwandte Beiträge

2 Kommentare