- "Robotics-Transformer 2": Wissen aus dem Web auf die Steuerung von Robotern übertragen
- Direktes Integrieren von mit Daten im Internetmaßstab trainierten Vision-Language-Modellen in die End-to-End-Robotersteuerung
- Die Bewegungen des Roboters werden in Text-Token umgewandelt und als eigene Sprache organisiert, die zusammen mit Vision-Language-Datenmodellen verwendet werden kann, um Arbeitsanweisungen in Aktionen umzusetzen
- Selbst wenn dem Roboter völlig neue Objekte präsentiert werden, auf die er zuvor nicht trainiert wurde, versteht er sie gut und führt die Aufgabe aus
- "put strawberry into the correct bowl"
- "place orange in matching bowl"
2 Kommentare
Google’s RT-2 AI model brings uns einen Schritt näher an WALL-E
Der Titel des Artikels von Ars Technica erklärt es etwas leichter. Die Weiterentwicklung von LLMs dürfte bei der Robotersteuerung eine neue Innovation werden.
Google testet Roboter, die sich selbst programmieren können
ChatGPT für Robotik: Designprinzipien und Fähigkeiten des Modells