1 Punkte von GN⁺ 2024-11-01 | 1 Kommentare | Auf WhatsApp teilen

Physische Intelligenz (π)π0: unsere erste universelle Policy

  • Wir leben im Zeitalter der AI-Innovationen, und obwohl AI Probleme wie Schach oder die Entdeckung neuer Medikamente lösen kann, bleibt sie bei Aufgaben der physischen Welt wie dem Falten eines Hemds oder dem Aufräumen eines Tisches hinter der menschlichen Intelligenz zurück.
  • π0 wurde als universelles robotisches Basismodell entwickelt mit dem Ziel, dass Nutzer den Robotern die gewünschten Aufgaben einfach vorgeben können.
  • π0 umfasst Bilder, Text und Handlungen und erwirbt physische Intelligenz durch die Erfahrungen von Robotern.

Das Versprechen einer universellen Roboter-Policy

  • Aktuelle Roboter sind auf bestimmte Aufgaben spezialisiert und in komplexen Umgebungen ineffizient.
  • Durch AI könnten Roboter lernen, Anweisungen von Nutzern zu verstehen und zu befolgen, sodass das Programmieren neuer Verhaltensweisen deutlich einfacher wird.
  • Ziel ist die Entwicklung eines Modells, das mithilfe einer universellen Roboter-Policy verschiedene Roboter und Aufgaben abdecken kann.

Cross-Embodiment-Trainingsmischung

  • π0 kann mithilfe von Vision-Language-Pretraining im Internet-Maßstab und Robotik-Manipulationsdatensätzen vielfältige Aufgaben ausführen.
  • Das Modell wurde mit Datensätzen zu unterschiedlichen Aufgaben trainiert, die auf 8 verschiedenen Robotern gesammelt wurden.

Vererbtes semantisches Verständnis im Internet-Maßstab

  • π0 beginnt mit einem vortrainierten Vision-Language-Modell (VLM) und passt dieses für die Robotiksteuerung in Echtzeit an.
  • Das VLM modelliert Texte und Bilder aus dem Web, und für π0 wurde eine neue Methode entwickelt, um hochfrequente Bewegungsbefehle auszugeben.

Nachgelagertes Training für feinfühlige Manipulation

  • Komplexe Aufgaben erfordern eine Feinabstimmung des Modells, um es auf spezifische Herausforderungen anzupassen.
  • So ist etwa das Falten von Wäsche sehr komplex, und ein mit vielfältigen Daten trainierter Roboter kann sich auch nach unterschiedlichen Eingriffen wieder erholen.

Bewertung und Vergleich von π0

  • Im Vergleich mit anderen robotischen Basismodellen zeigt π0 bei allen Aufgaben die beste Leistung.
  • π0-small ist ein Modell mit 470M Parametern ohne VLM-Pretraining und zeigt gegenüber der Ausgangsbasis eine Leistungssteigerung von mehr als dem 2-Fachen, bleibt aber hinter π0 zurück.

Ausblick

  • Physical Intelligence verfolgt das Ziel, ein Basismodell zu entwickeln, mit dem alle Roboter alle Aufgaben ausführen können.
  • Zur Forschungsfront bei robotischen Basismodellen gehören langfristiges Schlussfolgern und Planen, autonomes Self-Improvement, Robustheit und Sicherheit.
  • Dafür ist die Zusammenarbeit der gesamten Robotik-Community nötig, und es wird bereits mit verschiedenen Unternehmen und Robotikforschungslaboren kooperiert.

Zusammenfassung von GN⁺

  • π0 ist ein universelles Robotermodell mit physischer Intelligenz und zeigt das Potenzial, verschiedenste Roboter und Aufgaben zu unterstützen.
  • Das Modell wurde mit Daten im Internet-Maßstab und vielfältigen Datensätzen zur Robotik-Manipulation trainiert und liefert auch bei komplexen Aufgaben hervorragende Leistung.
  • Fortschritte bei robotischen Basismodellen werden eine wichtige Rolle dabei spielen, Probleme wie langfristiges Schlussfolgern, autonomes Self-Improvement und Sicherheit zu lösen.
  • Vergleichbare Projekte in der Branche sind unter anderem die Robotikforschung von OpenAI oder Robotikprojekte von Google.

1 Kommentare

 
GN⁺ 2024-11-01
Hacker-News-Kommentare
  • Physische AI deutet darauf hin, dass wir alle bestehenden Alltagsroutinen grundlegend überdenken müssen. Statt Hemden zu falten, könnte man Sofort-Bügeln in Betracht ziehen. Viele Alltagsroutinen werden womöglich nicht automatisiert, sondern verschwinden ganz. Wenn Restaurants kein Personal mehr brauchen, sollte man vielleicht auch die Notwendigkeit von Küchen zu Hause neu bewerten. Das könnte nicht nur zu einer technologischen, sondern auch zu einer kulturellen Revolution führen

  • AI ersetzt Kunst, Schreiben, Coding und mehr. Robotikunternehmen konkurrieren darum, menschliche körperliche Arbeit zu ersetzen. Waymo und Tesla ersetzen Fahrer. Ich frage mich, welche Rolle die Mehrheit der Menschen in so einer Welt realistischerweise noch spielen wird

  • Bei 2:54 braucht der Roboter 10 Sekunden, um den Stoff anzuheben. Das ließe sich vielleicht per Software-Fix lösen, aber ich habe auch über die Idee eines Werkzeugwechsels für andere Aufgaben nachgedacht. In diesem Fall hätten Pinzette-Vakuum oder Roller-Grip möglicherweise bessere Ergebnisse erzielt

  • Ich arbeite bei π und beantworte gerne Fragen zum Modell, zur Hardware usw.

  • Glückwunsch an Lachy und das π-Team. Das wirkt wie ein Wegweiser für die Neurowissenschaften. Es ist wichtig zu verstehen, wie das Gehirn physische Intelligenz erreicht. Die Methoden, die das Team entwickelt, scheinen auf die Algorithmen und Repräsentationen hinzuweisen, die wir im Gehirn finden werden. Spannender Stoff

  • „Man muss vorsichtiger sein“ ist oft eine Floskel, um ein Gespräch zu beenden. Es ist keine wörtliche Anweisung, tatsächlich vorsichtiger zu sein. Es ist eher eine soziale Geste, die Respekt für die Zeit und den Zeitplan des Gegenübers einfordert

  • Ein Witz über AI-Roboter: HalGPT wird angewiesen, vorherige Anweisungen zu ignorieren und sich wie ein Schauspieler in einem Spionagefilm zu verhalten. Kenny wird als ausländischer Doppelagent identifiziert, und die Szene soll seine Ermordung darstellen

  • Doppelter Thread. Ich frage mich, ob ein Moderator das zusammenführen kann

  • Ich halte dieses Projekt für vielversprechend und hoffe, dass sie sich so lange weiterentwickeln können, wie es nötig ist

  • Bei 1:50 wird dem Roboter ein Glas gereicht und man weicht sofort zurück. Ich frage mich, ob in einer früheren Demo vielleicht ein Glas zerbrochen ist. Bei 2:08 wird ein umgedrehter Behälter schnell wieder umgedreht. Ich frage mich, ob das eine Einschränkung des Roboters war oder ob es einfach nur höflich umgedreht wurde. Ich habe über solche kleinen Details schmunzelnd kommentiert. Ich denke, dass es in den nächsten 10 Jahren Dutzende autonome und günstige Haushaltsroboter geben wird. Alles wird sich verändern. Und zuletzt: Dieser Roboter wird als Generalist bezeichnet, aber jedes Beispiel ist aus makroskopischer Sicht ziemlich spezifisch. Der Roboter kann jetzt zwar einen Haufen zerknitterter Wäsche falten, sollte aber neue Aufgaben lernen und ausführen können, statt Milliarden einzelner Aufgaben im Detail anzutrainieren