Toyota Research Institute beansprucht Durchbruch beim Beibringen neuer Verhaltensweisen für Roboter

(tri.global)

2 Punkte von GN⁺ 2023-09-21 | 1 Kommentare | Auf WhatsApp teilen

Um anspruchsvolle Manipulationsaufgaben schnell zu skalieren, stellte das Toyota Research Institute einen Ansatz vor, bei dem robotisches Verhalten mit generativer KI auf Basis von Diffusion Policy erlernt wird
Dieser Ansatz ist ein Schritt hin zu Large Behavior Models für Roboter und versucht, die Rolle von LLMs in dialogorientierter KI auf das Erlernen von Roboterverhalten zu übertragen
TRI gibt an, mehr als 60 Fähigkeiten erlernt zu haben, darunter Eingießen von Flüssigkeiten, Werkzeugnutzung und die Manipulation verformbarer Objekte, indem nur neue Daten bereitgestellt wurden, ohne neuen Code zu schreiben
Das Lernen kombiniert taktile Demonstrationen von Lehrkräften mit sprachlichen Beschreibungen des Ziels; zentral ist dabei, dass sich mit nur einigen Dutzend Demonstrationen autonom einsetzbare Verhaltensweisen erzeugen lassen
Ziel sind bis Ende 2023 mehrere Hundert und bis Ende 2024 1.000 Fähigkeiten; zugleich werden mit Drake und einem maßgeschneiderten Control-Stack Sicherheitsgarantien mit entworfen

Höheres Lerntempo für Roboterverhalten mit Diffusion Policy

Das Toyota Research Institute stellte einen generativen KI-Ansatz vor, um Robotern neue anspruchsvolle Fähigkeiten schnell und zuverlässig beizubringen
Dieser Ansatz ist ein Schritt zum Aufbau von Large Behavior Models (LBMs) für Roboter und wird mit der Rolle von Large Language Models (LLMs) in dialogorientierter KI verglichen
Bisherige Verfahren auf dem neuesten Stand der Technik hatten mehrere Einschränkungen beim Vermitteln neuer Verhaltensweisen
- Das Lernen war langsam und wenig konsistent
- Die Effizienz war gering, und oft blieb es bei engen Aufgaben in stark eingeschränkten Umgebungen
- Robotikingenieurinnen und -ingenieure mussten über viele Stunden komplexen Code schreiben oder zahlreiche Iterationen durchlaufen

Mehr als 60 Fähigkeiten ohne neuen Code erlernt

Das Verhaltensmodell von TRI für Roboter nutzt sowohl taktile Demonstrationen einer Lehrkraft als auch sprachliche Beschreibungen des Ziels
Anschließend lernt es die demonstrierte Fähigkeit mit der KI-basierten Diffusion Policy
- Neue Verhaltensweisen können mit nur einigen Dutzend Demonstrationen autonom ausgerollt werden
- Im Fokus stehen schnelle Ergebnisse mit konsistenten, wiederholbaren und leistungsfähigen Verhaltensweisen
TRI hat Robotern bereits mehr als 60 anspruchsvolle Fähigkeiten beigebracht
- Beispiele sind das Eingießen von Flüssigkeiten, Werkzeugnutzung und die Manipulation verformbarer Objekte
- Erreicht wurde dies allein durch die Bereitstellung neuer Daten, ohne neuen Code zu schreiben
Die Zielmarke liegt bei mehreren Hundert bis Ende 2023 und bei 1.000 Fähigkeiten bis Ende 2024
Die neuen Fähigkeiten gehen über einfaches „pick and place“ hinaus und umfassen Verhaltensweisen, die auf vielfältige Weise mit der Welt interagieren
- Langfristig könnten sie in Robotern eingesetzt werden, die Menschen in alltäglichen, unvorhersehbaren und sich ständig verändernden Umgebungen unterstützen

Maßgeschneiderte Plattform und sicherheitsorientiertes Design auf Basis von Drake

TRI und die Professor-Song-Gruppe der Columbia University entwickelten Diffusion Policy als generativen KI-Ansatz für das Erlernen von Verhaltensweisen
- Diffusion Policy wurde auf der Robotics Science and Systems Conference 2023 vorgestellt
Die Roboterplattform von TRI wurde maßgeschneidert für anspruchsvolle Aufgaben der bimanuellen Manipulation
- Im Fokus steht die Ermöglichung von haptischem Feedback und taktiler Sensorik
TRI verwendet Drake als modellbasiertes Entwurfswerkzeug und Simulationsplattform für die Robotik
- Der interne Robotik-Stack basiert auf dem Optimierungs- und System-Framework von Drake
- Drake ist als Open Source verfügbar, um die Arbeit in der gesamten Robotik-Community zu fördern
Sicherheit ist ein zentrales Designelement der Roboterforschung von TRI
- Das System umfasst Schutzmechanismen, die von Drake und einem maßgeschneiderten Robotik-Control-Stack betrieben werden
- Es ist darauf ausgelegt, Sicherheitsgarantien einzuhalten, damit der Roboter weder mit sich selbst noch mit seiner Umgebung kollidiert

1 Kommentare

GN⁺ 2023-09-21

Meinungen auf Hacker News

Aus der Perspektive von jemandem, der in der Graduate School und in der Industrie Teil der Robot Learning-Community war: Ich verstehe gut, dass TRI hier den Großteil des Lobes bekommt, möchte aber auch den zentralen Beitrag korrekt einordnen.
Im Zentrum dieses Fortschritts steht Diffusion Policy [1], entwickelt und vorangetrieben vom Labor von Prof. Shuran Song an der Columbia University. Auch die ursprüngliche Projektseite [2] ist unbedingt einen Blick wert; sie enthält viele schwierige Experimente in der realen Welt.
Auf der diesjährigen R:SS-Konferenz [3] war das Paper ein Community-Favorit für den Best Paper Award, und unser Labor sowie andere Learning-Labs im Fachbereich Robotik haben es gründlich auseinandergenommen. Ich kenne auch Leute, die Projekte zu Behavior Cloning/Imitation Learning eingestellt haben und komplett auf diesen Ansatz umgeschwenkt sind, weil er multimodale Aktionsräume deutlich natürlicher behandelt.
Prof. Song ist derzeit eine wirklich herausragende Forscherin in der Robotik und hat mehrere hervorragende Ansätze vorgestellt, die sich elegant in die reale Welt skalieren lassen, etwa IRP [4]. IRP erhielt den R:SS 2022 Best Paper Award; auch FlingBot [5] und Scaling Up Distilling Down [6] sind sehenswert.
[1] - https://arxiv.org/abs/2303.04137
[2] - https://diffusion-policy.cs.columbia.edu/
[3] - https://roboticsconference.org/program/awards/
[4] - https://irp.cs.columbia.edu/
[5] - https://flingbot.cs.columbia.edu/
[6] - https://www.cs.columbia.edu/~huy/scalingup/
- Fairerweise schreibt auch TRI Prof. Song und dem verlinkten Paper Anerkennung zu. In dem Paper ist TRI als Kooperationspartner aufgeführt.
  „Diffusion Policy: Kooperationspartner von TRI und der Gruppe von Prof. Song an der Columbia University haben einen neuen, leistungsstarken Generative-AI-Ansatz für das Lernen von Verhaltensweisen entwickelt. Dieser Ansatz, Diffusion Policy genannt, ermöglicht ein einfaches und schnelles Anlernen von Verhalten durch Demonstrationen.“
- Es sieht so aus, als seien sowohl Diffusion Policy als auch IRP gemeinsame Arbeiten mit TRI gewesen.
- Kann jemand Diffusion einfach erklären? Gern auf einem Niveau für Leute, die Autoencoder, Transformer und Convolutional Neural Networks verstehen.
  Mich interessiert, warum es so viel besser funktioniert als die oben genannten Alternativen.
- Einige Forschende aus Prof. Songs Labor scheinen ebenfalls mit Toyota zusammengearbeitet zu haben.
Für Interessierte gibt es den YouTube-Kanal von Russ Tedrake: https://www.youtube.com/@underactuated5171
Dort sind die Vorlesungen 6.4210 (2023) Robotics Manipulation und 6.8210 (2023) Underactuated Robotics verfügbar.
Schön, aktuelle Arbeiten von Russ Tedrake zu sehen. Seine Online-Vorlesung Underactuated Robotics ist sehr gut, um die Komplexität der Robotik in den Griff zu bekommen.
Viele auf HN empfohlene Arbeiten zu Robot Learning laufen im Wesentlichen auf „einfach ein LLM irgendwie an einen Roboter hängen“ hinaus; es ist gut, jemanden mit deutlich tieferem Wissen behandelt zu sehen. Um in der chaotischen realen Welt echte verkörperte Agenten zu bauen, reicht es nicht, nur Sprachlernen zu lösen.
Die Website lädt bei mir nicht, aber ich habe das Video auf Toyota Research YouTube gefunden: https://www.youtube.com/watch?v=w-CGSQAO5-Q
- Bei etwa 2:40 im Video wird es als „Kindergarten für Roboter“ beschrieben, eine interessante Perspektive.
  Ich frage mich, ob man mit einem standardisierten Lerntechnik-Protokoll das Lernen neuer Aufgaben crowdsourcen könnte. Also auf gewünschte Aufgaben bieten, wer sie löst, wird belohnt, und alle profitieren. Der Long Tail der Aufgaben ist so lang, dass ein einzelnes zentrales Labor kaum alles abdecken kann.
Google hat vor etwa einem Monat etwas Ähnliches gemacht, und es war auch auf HN [1].
Ich frage mich, wie stark Kraft-Feedback genutzt wird. Ist das große runde weiche Objekt im Video so etwas wie ein großer Finger mit vielen Drucksensoren? Flächendrucksensoren gibt es seit den 1980er-Jahren, aber damals wusste man nicht, wie man all diese Daten nutzen sollte. Heute ist zu viel Sensordatenmaterial ein deutlich weniger großes Problem.
Ich habe früher einmal versucht, dieses Problem mit einem Endschlüssel an einem Roboterarm anzugehen. Die Idee war, den Schraubenkopf zu ertasten, den Schlüssel aufzusetzen und dann zu drehen. Ein 6-DOF-Kraftsensor hätte ausgereicht, aber das war vor Deep Learning, daher kamen wir nicht weit. Ein Schraubenschlüssel-Robotergerät haben wir trotzdem gebaut.
[1] https://news.ycombinator.com/item?id=37167698
- Dieses weiche Objekt ist im Grunde ein aufgeblasener Ballon mit einer Kamera im Inneren, und die Kamera beobachtet die Verformung des Ballons: https://punyo.tech
Wirklich beeindruckend. Wirkt sogar deutlich stärker als die Demos von Boston Dynamics.
Pfannkuchen zu wenden ist sehr schwierig, weil jeder Pfannkuchen anders ist. Mir ist klar, dass solche Videos kuratierte Szenen zeigen, aber einem Roboter das allein durch Vorführen beizubringen und ihn das dann machen zu lassen, fühlt sich wie ein gewaltiger Sprung an.
- Pfannkuchenwenden gab es schon 2010. Dinge, die auf Menschen beeindruckend wirken, sind für Roboter leicht, und umgekehrt gilt das genauso: https://youtu.be/W_gxLKSsSIE?si=HDyNXe1Ys_eFXiVU
  Ein anderes Beispiel: Roboter-Jonglage gab es schon in den 1990ern, aber bis heute gibt es keinen Roboter, der zuverlässig jede Tür wie ein Mensch öffnen kann. Das ist so etwas wie eine Variante von Moravecs Paradox.
- Für Laien ausgedrückt: Ist die effizienteste Methode, solche Roboter zu trainieren, ihnen Milliarden von Videos zu füttern, die zeigen, wie man Aufgaben erledigt?
- Ich dachte, körperliche Arbeitsplätze wären noch sehr lange sicher, aber vielleicht stimmt das nicht. Ich hoffe, die Leute, die Politik machen, denken ernsthaft darüber nach, wie eine Welt aussehen würde, in der Menschen nichts mehr zu tun haben.
Klingt ähnlich wie die Arbeit, die Google mit PaLM-E gemacht hat: https://blog.research.google/2023/03/palm-e-embodied-multimodal-language.html
Eine wirklich spannende Zeit in der Robotik.
- Das hier sieht deutlich besser aus als PaLM-E. Der eingesetzte Roboter ist fähiger, und die Aufgaben sind viel komplexer.
  Außerdem führt er die Aktionen mit derselben Geschwindigkeit aus, mit der ein Mensch sie beim Steuern des Roboters vorführt. Die PaLM-E-Demos waren in Wirklichkeit schmerzhaft langsam und wurden alle als beschleunigte Videos gezeigt.
Ich glaube, der Weg zu universellen humanoiden Robotern wird ungefähr so aussehen.
Nehmen wir zum Beispiel einen humanoiden Roboter im Stil von Boston Dynamics auf einer Baustelle, sagen wir als Maurer. Außerhalb der Baustelle gibt es eine offene Fläche mit omnidirektionalem Laufbandboden, Kameras und Tiefensensoren ringsum, und ein Mensch trägt einen Motion-Capture-Anzug im Hollywood-Stil sowie ein VR-Headset, durch das er das Bild der Roboterkameras sieht.
Diese Person geht wie auf der Baustelle zu einem Ziegelstapel, hebt Ziegel auf und legt sie ab. Der Roboter bewegt sich in Echtzeit auf der Baustelle und ahmt die Bewegungen des Menschen nach. Ich weiß nicht, ob man dafür Requisiten braucht oder ob die über Jahre aufgebaute Muskelgedächtnis-Erfahrung von der Baustelle ausreicht.
Alle Daten werden aufgezeichnet, und jemand sieht sich den Videostream an und labelt jede ausgeführte Aktion. Danach steckt man alles in Machine-Learning-Algorithmen, bis man schließlich an den Punkt kommt, an dem man dem Roboter nur noch die Baupläne schickt und sagt: „Bau diese Wand.“
- Die ersten etwa drei Viertel sind fast exakt wie der Film Sleep Dealer von 2008, daher dachte ich, du hättest dich darauf bezogen.
- Soweit ich weiß, gibt es aber noch keine ausgereifte Umsetzung dieser Art, nicht einmal bei Geräten mit deutlich gröberen Bewegungen, die nur lose physisch den Bewegungen eines menschlichen Bedieners zugeordnet sind. Zum Beispiel Bagger, die mit zwei Joysticks gesteuert werden.
- Kurzfristig könnte das so sein, langfristig eher nicht.
  Wahrscheinlich wird man ein Team schicken, das die Baustelle digitalisiert und einen digitalen Zwilling erstellt. Der Architekt mappt alles auf diesen Zwilling, und ein Computersystem simuliert die Bauphasen. Danach werden Roboter auf die Baustelle geschickt und bauen automatisch, gegebenenfalls mit einem feinabgestimmten Modell.
- Ich habe früher einmal einen Roman oder eine Kurzgeschichte mit so einem Konzept gelesen. Die Roboter wurden zum Lernen vor Ort gesteuert und später dann selbstständig losgelassen. An die übrige Handlung oder den Autor erinnere ich mich nicht.
- Genau, das nennt man Reinforcement Learning.
Ich verstehe den Begriff „großes Sprachmodell“ so, dass LLMs dank der gewaltigen Menge an Text aus dem gesamten Web, der Library of Congress usw. riesige Datensätze zum Trainieren haben. Darauf bezieht sich hier „groß“.
Aber wenn in diesem Video von einem „großen Verhaltensmodell“ die Rede ist: Was daran ist groß? Woher bekommt man ähnlich gewaltige Mengen an Verhaltens-Inputdaten? Es sieht so aus, als würden Dutzende Leute in einem großen Labor Handlungen demonstrieren. Das ist zwar gut, aber diese Zahl von Personen kann offenbar nicht so viele Daten erzeugen wie sämtliche digitalen Textinhalte.
Sieht ziemlich cool aus, aber ich bin mir nicht sicher, ob jemand gleichzeitig Vollzeit-Professor am MIT und Vollzeit-Vizepräsident bei TRI sein kann.
Ich habe solche Doppelrollen schon früher gesehen, verstehe aber schwer, wie das praktisch funktionieren soll, wenn man nicht mehr als 70 Stunden pro Woche arbeitet.
- Wahrscheinlich ist es so, dass die Person selbst dann, wenn sie unter 40 Stunden pro Woche arbeitet, in ihrem Gebiet so sehr Expertin ist, dass ihre 10 Stunden Arbeit nicht durch die Vollzeitstelle einer anderen Person ersetzt werden können.
  Als Analogie aus der Softwaretechnik: Man würde John Carmack gern ein gutes Gehalt und eine Rolle geben, selbst wenn er nur 6 bis 7 Tage im Monat an einem Projekt arbeitet. Weil er eben John Carmack ist.

Toyota Research Institute beansprucht Durchbruch beim Beibringen neuer Verhaltensweisen für Roboter

Höheres Lerntempo für Roboterverhalten mit Diffusion Policy

Mehr als 60 Fähigkeiten ohne neuen Code erlernt

Maßgeschneiderte Plattform und sicherheitsorientiertes Design auf Basis von Drake

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News