Physical Intelligence zeigt seine erste universelle Roboter-Policy π0 – bis hin zum Wäschefalten

(physicalintelligence.company)

1 Punkte von GN⁺ 2024-11-12 | 1 Kommentare | Auf WhatsApp teilen

Physical Intelligence hat π0 (pi-zero) vorgestellt, ein universelles Roboter-Foundation-Modell, mit dem Roboter anhand von Textanweisungen verschiedene physische Aufgaben ausführen können
π0 wurde mit Internet-scale Vision-Language-Pretraining, dem Open X Embodiment Dataset und Daten zu Geschicklichkeitsaufgaben trainiert, die mit 8 Robotertypen gesammelt wurden
Das Modell verarbeitet Bilder, Text und Aktionen gemeinsam und erzeugt per kontinuierlicher Aktionsausgabe auf Basis von Flow Matching bis zu 50 Mal pro Sekunde Motorbefehle für Roboter
Nach Post-Training kann es auch komplexe Manipulationsaufgaben ausführen, deren Zustand jedes Mal anders ist, etwa Wäsche falten, Tische abräumen oder Kartons zusammenbauen
In 5 Evaluierungsaufgaben erzielte π0 im Durchschnitt bessere Ergebnisse als OpenVLA, Octo und π0-small; langfristiges Schlussfolgern und Planen, autonome Verbesserung, Robustheit und Sicherheit bleiben jedoch weiterhin die nächsten Herausforderungen

Die universelle Roboter-Policy, auf die π0 abzielt

Physical Intelligence hat in den vergangenen 8 Monaten das universelle Roboter-Foundation-Modell π0 (pi-zero) entwickelt
Ziel ist es, dass Nutzer einem Roboter die gewünschte Aufgabe so mitteilen können, wie sie einen LLM oder Chatbot darum bitten würden, und der Roboter diese Aufgabe dann in der physischen Welt ausführt
π0 wird wie ein LLM mit breiten und vielfältigen Daten trainiert und befolgt Textanweisungen, verarbeitet im Unterschied zu LLMs jedoch Bilder, Text und Aktionen gemeinsam
Das Modell lernt physische Intelligenz aus der verkörperten Erfahrung von Robotern und gibt über eine neue Architektur direkt Low-Level-Motorbefehle aus
Es kann mehrere Roboter steuern; gewünschte Aufgaben lassen sich per Prompt anweisen oder das Modell kann für schwierige Anwendungsszenarien feinabgestimmt werden

Warum es über enge Automatisierung hinausgeht

Heutige Roboter bleiben weiterhin auf enge Spezialbereiche beschränkt
- Industrieroboter werden für repetitive Bewegungen programmiert, etwa um an derselben Stelle einer Montagelinie zu schweißen oder immer denselben Gegenstand in dieselbe Box zu legen
- Selbst solche einfachen Bewegungen erfordern viel manuelles Engineering
- Komplexere Handlungen in unordentlichen realen Umgebungen wie Haushalten auszuführen, ist deutlich schwieriger
Damit Roboter Nutzeranweisungen lernen und befolgen können, sind große Datenmengen nötig
- Sprachmodelle und andere Foundation-Modelle nutzen große Dokumentdatenmengen aus dem Web
- Für Roboterdaten gibt es kein entsprechendes großes Repository
- Um neue Fähigkeiten zu trainieren, müssen viele Daten gesammelt werden, die auf einen bestimmten Roboter und eine bestimmte Anwendung zugeschnitten sind
Wenn eine einzelne universelle Roboter-Policy mehrere Fähigkeiten und mehrere Roboter abdecken kann, lässt sich die für jeden Roboter und jede Anwendung benötigte Datenmenge reduzieren
So wie Sprachmodelle auf Basis vielfältigen Pretrainings spezialisierte Systeme zur Sprachverarbeitung ersetzt haben, wird eine universelle Roboter-Policy die Rolle eines Roboter-Foundation-Modells für physische Intelligenz übernehmen

Trainingsdaten und Roboterkonfiguration

π0 ist ein erster Prototyp einer universellen Roboter-Policy, der mit dem bislang größten Datensatz für Roboterinteraktionen trainiert wurde
Der gesamte Trainingsmix umfasst Open-Source-Daten sowie von Physical Intelligence gesammelte Daten zu Geschicklichkeitsaufgaben mit 8 Robotertypen
Zusammensetzung der Trainingsdaten
- Open X Embodiment Dataset
- Internet-scale Pretraining
- π Dataset, bestehend aus mehreren Robotern für Geschicklichkeitsaufgaben
- Zu den Roboterkonfigurationen gehören UR5e, Bimanual UR5e, Franka, Bimanual Trossen, Bimanual Arx, Mobile Trossen, Mobile Fibocom und weitere
Enthaltene Aufgabentypen
- Geschirr abräumen
- Gegenstände in eine Tüte legen
- Kleidung falten
- Kabel verlegen
- Kartons zusammenbauen
- Netzstecker einstecken
- Essen in Take-away-Boxen füllen
- Müll aufheben und wegwerfen
- Ziel der Aufgabenauswahl ist nicht, eine einzelne spezifische Anwendung zu lösen, sondern dem Modell ein allgemeines Verständnis physischer Interaktionen zu vermitteln

Verständnis auf Internetmaßstab und kontinuierliche Aktionsausgabe

π0 wird mit Daten mehrerer Roboter trainiert und übernimmt zugleich semantisches Wissen und visuelles Verständnis aus einem vortrainierten Vision-Language Model (VLM)
VLMs werden darauf trainiert, Text und Bilder aus dem Web zu modellieren; GPT-4V und Gemini sind weit verbreitete Beispiele
π0 nutzt ein kleineres VLM mit 3 Milliarden Parametern als Ausgangspunkt und passt es für die Echtzeitsteuerung von Geschicklichkeitsrobotern an
Das VLM kann aus dem Web gewonnenes semantisches Wissen übertragen, gibt ursprünglich aber nur diskrete Sprach-Tokens aus
Geschickliche Robotermanipulation erfordert eine hochfrequente Ausgabe von Motorbefehlen
- π0 muss bis zu 50 Mal pro Sekunde Motorbefehle ausgeben
- Dafür ergänzt es das vortrainierte VLM über Flow Matching, eine Variante von Diffusion-Modellen, um kontinuierliche Aktionsausgaben
Das finale Modell ist ein Vision-Language-Action-Flow-Matching-Modell und wird anschließend mit hochwertigen Roboterdaten per Post-Training trainiert, um mehrere Downstream-Aufgaben zu lösen

Geschicklichkeitsaufgaben, die per Post-Training behandelt wurden

Für komplexere Aufgaben, die mehr Geschicklichkeit erfordern, muss das Modell unter Umständen auf Downstream-Aufgaben feinabgestimmt werden
Das Fine-Tuning auf schwierige Aufgaben mit hochwertigen Daten ähnelt dem Post-Training, das beim Design von LLMs eingesetzt wird
Das Pretraining bringt dem Modell die physische Welt bei, das Fine-Tuning sorgt dafür, dass es bestimmte Aufgaben gut ausführt
Wäsche falten
- π0 wurde mit einem mobilen Roboter oder einem stationären zweiarmigen Roboter für die Aufgabe Wäsche falten feinabgestimmt
- Ziel ist es, Kleidung zu einem ordentlichen Stapel zu formen
- Ein einzelnes flach auf einem Tisch liegendes T-Shirt lässt sich in manchen Fällen durch die Wiederholung vordefinierter Bewegungen falten
- Ein verhedderter Wäschehaufen ist jedes Mal auf unterschiedliche Weise zerknittert, sodass es nicht ausreicht, dieselben Armbewegungen zu wiederholen
- Nach dem Post-Training kann der Roboter Kleidung aus dem Trockner nehmen, sie zum Tisch bringen und zu einem Stapel falten
- Das Video zeigt eine unbearbeitete Szene, in der eine einzelne Policy vollständig autonom arbeitet
- Durch das Training mit vielfältigen Daten konnte sich der Roboter auch dann erholen, wenn ein Mensch auf verschiedene Weise einzugreifen versuchte
- Nach Kenntnis von Physical Intelligence gab es bislang kein früheres Robotersystem, das diese Aufgabe mit diesem Komplexitätsgrad ausgeführt hat
Tisch abräumen
- π0 wurde auch für das Abräumen von Geschirr und Müll auf einem Tisch feinabgestimmt
- Teller, Besteck und Becher werden in einen Bussing Bin gelegt, Müll in den Mülleimer
- Diese Aufgabe erfordert den Umgang mit sehr unterschiedlichen Gegenständen
- Als Ergebnis des Trainings mit großen und vielfältigen Daten zeigten sich mehrere Strategien
- Statt Gegenstände einzeln zu greifen, kann der Roboter mehrere Teller stapeln und gemeinsam ablegen
- Bevor er Teller in den Bussing Bin legt, kann er Müll auf den Tellern abschütteln und in den Mülleimer fallen lassen
Kartons zusammenbauen
- Flache Wellpappkartons müssen aufgerichtet, die Seitenflächen gefaltet und anschließend die Klappen eingesteckt werden
- Jeder Falt- und Einsteckschritt kann unerwartet fehlschlagen, sodass der Roboter den Fortschritt beobachten und seine Bewegungen anpassen muss
- Um zu verhindern, dass ein teilweise gefalteter Karton wieder aufgeht, muss der Roboter den Karton mit beiden Armen und dem Tisch abstützen

Evaluierungsvergleich mit OpenVLA und Octo

π0 wurde mit OpenVLA und Octo verglichen, in der Wissenschaft vorgeschlagenen Roboter-Foundation-Modellen
OpenVLA ist ein VLA-Modell mit 7 Milliarden Parametern und verwendet diskretisierte Aktionen
Octo ist ein Modell mit 93 Millionen Parametern und verwendet Diffusion-Ausgaben
Die Evaluierungsaufgaben sind komplexer angelegt als typische akademische Experimente
- Die Aufgaben in der OpenVLA-Evaluierung sind meist einstufige Handlungen wie „eine Aubergine in einen Topf legen“
- Schon die einfachste Tischabräum-Aufgabe in der π0-Evaluierung muss mehrere Objekte in Mülleimer oder Bussing Bin sortieren
- Komplexere Aufgaben erfordern mehrere Schritte, die Manipulation verformbarer Objekte und die Auswahl verschiedener Strategien je nach Umgebungszustand
Die Evaluierung verwendet eine Rubrik, die für vollständigen Erfolg 1,0 Punkte vergibt und für teilweise korrekte Ausführung Teilpunkte
- Wenn beispielsweise die Hälfte der Objekte abgeräumt wird, werden 0,5 Punkte vergeben
Ergebnisse der 5 Evaluierungsaufgaben
- Bussing Easy (UR5e)
  - π0: 0.971
  - π0-small: 0.443
  - OpenVLA: 0
  - OpenVLA (nur UR5e): 0.343
  - Octo: 0.043
- Bussing Hard (UR5e)
  - π0: 0.875
  - π0-small: 0.333
  - OpenVLA: 0
  - OpenVLA (nur UR5e): 0
  - Octo: 0
- Shirt Folding (Bi-ARX)
  - π0: 1.000
  - π0-small: 0.500
  - OpenVLA: 0
  - OpenVLA (nur UR5e): 0
  - Octo: 0
- Grocery Bagging (UR5e)
  - π0: 0.786
  - π0-small: 0.271
  - OpenVLA: 0
  - OpenVLA (nur UR5e): 0
  - Octo: 0
- Toast out of Toaster (Bi-Trossen)
  - π0: 0.750
  - π0-small: 0
  - OpenVLA: 0
  - OpenVLA (nur UR5e): 0
  - Octo: 0
- π0-small ist ein Modell mit 470 Millionen Parametern, das kein VLM-Pretraining verwendet
- OpenVLA und Octo erzielten nur bei der einfachsten Aufgabe „Bussing Easy“ eine von 0 verschiedene Leistung; über alle Aufgaben hinweg zeigte π0 die beste Performance
- Durch die Nutzung der Architektur in voller Größe und von VLM-Pretraining verbessert sich die Leistung gegenüber π0-small um mehr als das Doppelte

Offene Aufgaben und Richtung der Zusammenarbeit

Ziel von Physical Intelligence ist die Entwicklung eines Foundation-Modells, das jeden Roboter so steuern kann, dass er jede Aufgabe ausführt
Die aktuellen Experimente zeigen, dass es mehrere Roboter steuern und Aufgaben ausführen kann, die frühere robotische Lernsysteme nicht erfolgreich bewältigen konnten, etwa Kleidung aus einem Wäschekorb falten oder Wellpappkartons zusammenbauen
Universelle Roboter-Policies stehen noch am Anfang, und es bleiben folgende Forschungsfronten
- Langfristiges Schlussfolgern und Planen
  - Autonome Selbstverbesserung
  - Robustheit
  - Sicherheit
  - Physical Intelligence arbeitet mit mehreren Unternehmen und Robotikforschungslaboren zusammen
  - Das Hardwaredesign für Teleoperation und Autonomie wird verbessert
  - Partnerdaten sollen in das vortrainierte Modell integriert werden, um Zugang zu Modellen zu bieten, die auf bestimmte Plattformen zugeschnitten sind
  - Das Unternehmen ist an Kooperationen mit Firmen interessiert, die die Datensammlung mit in realen Anwendungen eingesetzten Robotern ausweiten

1 Kommentare

GN⁺ 2024-11-12

Hacker-News-Kommentare

Das implizite Ziel scheint zu sein, Wäsche und andere Hausarbeit zu ersetzen. Menschliche Zufriedenheit könnte am Ende genau dort gelöst werden.
Wirtschaft und Wertmaßstäbe drehen sich letztlich um menschliches Glück bzw. Zufriedenheit, und auch Geld hat nur deshalb Wert, weil Menschen es wollen. Wenn Menschen ausreichend wohlhabend werden, lagern sie Hausarbeit aus, indem sie Haushälterinnen oder Köche anstellen oder Fertiggerichte kaufen.
In den vergangenen 50 Jahren haben westliche Unternehmen durch den Eintritt von Frauen in den Arbeitsmarkt einen kostenlosen Boost bekommen: Früher zahlte man einer Person die Kosten für den Unterhalt eines Haushalts, heute teilt man dieselben Haushaltskosten auf zwei Personen auf und bekommt dafür doppelt so viele Arbeitskräfte.
Dadurch haben die meisten Haushalte 35 Stunden pro Woche verloren, während der Umfang der Hausarbeit gleich geblieben ist. Man kann nicht jedem einen Hausangestellten geben, aber vielleicht könnte man jedem einen Roboter-Hausangestellten geben.
Wie Ziegel, Heizung und Elektrizität kommen die meisten Innovationen und Technologien am Ende ins Zuhause und machen das Leben bequemer. Ich dachte immer, ein echter Roboter-Hausangestellter würde eher über gesellschaftliche Veränderungen kommen, etwa veränderte Waschmaschinendesigns, tägliches Essen außer Haus oder staubabweisende Oberflächen, aber dieser Roboter wirkt ziemlich interessant.
Mir ist klar, dass diese Sichtweise auf die westliche Mittelschicht fokussiert ist, aber ich frage mich, was sonst 6 Milliarden Menschen am Ende anstreben würden.
- Ich weiß nicht, woher der wirtschaftliche Boost kam, als Frauen in den Arbeitsmarkt eintraten. Das deutsche Wirtschaftswunder der Nachkriegszeit fand größtenteils ohne Frauen statt.
  Als in den frühen 1970ern mehr Frauen in den Arbeitsmarkt eintraten, verschlechterten sich wegen der Ölkrise die makroökonomischen Bedingungen, sodass sich das schwer trennen lässt.
  Trotzdem führte mehr Arbeitsangebot eher zu niedrigeren Löhnen und zur Schaffung von mehr Bullshit-Jobs. Dass auch Männer Bullshit-Jobs erschaffen und ausführen, ist offensichtlich.
  Heute braucht man zwei Einkommen, um Haus und Familie zu stemmen. Ein großer Fortschritt.
  Im Supermarkt boykottiere ich Self-Checkout-Kassen, selbst wenn die Schlange lang ist, damit die freundlichen Kassiererinnen und Kassierer weiter Arbeit haben.
- Vielleicht ist das eigentliche Endziel ganz unten, Sex mit Robotern zu haben. Beim Internet hieß es auch, es werde das Tor zu allem Wissen, und am Ende wurde es für Pornos genutzt.
- Wenn die Nachfrage nach Arbeit fest wäre, könnten die Löhne grundsätzlich sinken, wenn sich das Arbeitsangebot aus Männern und Frauen eines Haushalts verdoppelt. Die Nachfrage muss aber nicht fest sein.
  Ich würde das die Reise-nach-Jerusalem-Theorie der Beschäftigung nennen. Bedeutet eine Verdopplung der arbeitsfähigen Bevölkerung von 1954 bis 2024, dass jeder weniger verdient? Bedeutet Zuwanderung, dass für jeden Einwanderer ein Einheimischer arbeitslos wird?
  Die Belege sagen nein, und in der Wirtschaft gibt es parallel andere Veränderungen, die die Arbeitsnachfrage erhöhen. Wenn man die Literatur zu den Auswirkungen von Einwanderung auf Arbeitslosigkeit und Löhne betrachtet, besonders bei großen kurzfristigen Schocks, ist das ziemlich klar.
  Mit Studien zu den Effekten steigender Frauenerwerbstätigkeit kenne ich mich nicht gut aus. Das war ein langsamer Prozess über Jahrzehnte und deshalb viel schwerer zu erforschen. Außerdem war das nicht nur im Westen so, sondern an vielen Orten weltweit.
- Das Team von Physical Intelligence ist sehr stark, aber ich glaube nicht, dass es genug Geld einsammeln wird, um das Ziel zu erreichen. Das Problem ist, zu behaupten, dass die Entwicklung dieser Technologie 30 Millionen Dollar kostet; in Wirklichkeit werden es mindestens 1 Milliarde Dollar, wahrscheinlich eher nahe an 5 Milliarden Dollar sein.
In Fabriken oder geschlossenen Umgebungen wird es schnell besser, aber in der übrigen realen Welt gibt es ohne menschliche Aufsicht keine praktischen Roboter oder KI. Ich arbeite an der Automatisierung physischer Dinge, deshalb bin ich davon überzeugt.
Das Erste, was so ein Roboter tun könnte, wäre, wegen mangelnden Weltverständnisses einen Trockner mit einem Kleinkind darin zu starten.
Dann wäre es das Ende für universelle Haushaltsroboter. Oder er stößt eine Kerze um oder vermasselt etwas, das banal wirkt, im Kontext aber furchtbar gefährlich ist.
Ich träume auch von universellen Maschinen, aber ich halte sie entweder für unmöglich oder, falls sie möglich sind, noch für sehr weit entfernt.
- Ich erinnere mich an viele HN-Kommentare, die selbstsicher vorhersagten, selbstfahrende Autos seien erledigt, sobald ein tödlicher Unfall passiert.
  Solche Unfälle gab es tatsächlich, dazu Klagen und Untersuchungen von Aufsichtsbehörden, aber vorbei war es deshalb nicht. Unter der nächsten US-Regierung werden die rechtlichen und regulatorischen Hürden für den Ausbau von Robotik und Automatisierung voraussichtlich deutlich sinken.
- Selbst wenn Aufsicht nötig ist, ist es besser, einem Roboter beim Wäscheaufhängen zuzusehen, als es selbst zu tun.
  Wie das Sprichwort sagt: „Ich liebe Arbeit. Ich könnte ihr den ganzen Tag zusehen.“
- Wäre es anfangs nicht sinnvoll, Kameras anzubringen und jemanden im Ausland vor Beginn der Arbeit die Umgebung prüfen zu lassen? Das wäre günstig und zugleich sicherer.
- Stimme zu. Ich habe bislang nicht einmal Roboter gesehen, die relativ einfache landwirtschaftliche Arbeiten wie das Pflücken von Tomaten im Gewächshaus und die Pflanzenpflege auf Produktionsniveau ausführen.
  Das machen alles billige ausländische Arbeitskräfte. Wenn schon das schwer zu automatisieren ist, fällt es schwer, an universelle Haushaltsroboter in absehbarer Zeit große Erwartungen zu haben.
  Die Videos in diesem Artikel wirken allerdings ziemlich vielversprechend, und ich würde gern sehen, wie diese Technik im Gewächshaus funktioniert.
- Klar, genau so wie Achterbahnen verboten wurden, sobald einmal ein Defekt eintrat und ein paar Leute starben.
Das schwierige Problem bei einem Wäscheroboter ist nicht das Falten der Kleidung, sondern in die Waschküche zu kommen.
Wenn man in einer europäischen Stadt lebt, ist Platz die größte Einschränkung. In Paris liegt die Miete bei 30 Euro pro m² und Monat.
Waschküchen sind klein, und dieser Roboter ist zu breit, um durch die Tür meiner Waschküche zu kommen. Es gibt einen Grund, warum Bügelbretter klappbar sind. Man muss sie jedes Mal aufstellen. Dieser Roboter kann nicht einmal das, und mit einer Flasche Weichspüler für die Waschmaschine kann er auch nicht umgehen.
Einen freien Tisch von 1 m² nur zum Falten bereitzuhalten, ist für die meisten eine Illusion. Der Grund, warum es Waschsalons gibt, ist ja gerade, dass manche Wohnungen nicht einmal Platz für eine Waschmaschine haben.
Die Waschküche ist wegen Feuchtigkeit und Belüftung ein separater Raum, und in Wohnhäusern, die oft mehr als 30 Jahre alt sind, wurde sie bei der Planung vermutlich nicht nach Zugänglichkeit für Roboter, sondern funktional möglichst klein ausgelegt.
Auch Menschen, die nicht in Wohnungen leben, haben ihre Waschküche oft im Keller, der nur über Treppen oder Stufen erreichbar ist.
Angesichts humanoider Roboter, die praktisch vor der Tür stehen, glaube ich nicht, dass Architekten und bauliche Zugänglichkeitsstandards sich schnell genug ändern werden. Der für Haushaltsroboter nötige freie Platz wurde durch die hohen Raumkosten schon längst mehrfach aufgebraucht.
- Wenn man weiter nach unten scrollt, sieht man, dass dies ein General-Purpose-Roboter ist. Er kann umhergehen, den Esstisch abräumen oder Wellpappkartons zusammenfalten.
  Es ist schwer, sicher zu sagen, dass er keinen Weichspüler handhaben kann, und bei einer V2 ist gut möglich, dass sie sogar ein Bügelbrett aufstellen kann.
  Auch von der Größe her ist er derzeit kleiner als ein Kühlschrank, eine Waschmaschine, ein Geschirrspüler und andere zeitsparende Haushaltsgeräte. Für historische Städte mit vielen jahrhundertealten Häusern passt er natürlich nicht perfekt, aber in den meisten Wohnungen sind das ganz gewöhnliche Geräte.
  Es ist auch noch gar kein ernsthafter Aufwand in die Verkleinerung geflossen. Wenn er die Phase des Forschungsprototyps hinter sich lässt, könnte man ihn mit cleverem Engineering vielleicht deutlich kompakter bauen.
  Die andere Frage sind die Kosten. Solche Roboter liegen meist bei 100.000 Dollar, und das hat seine Gründe. Kann man das senken? Hoffentlich.
- Der Waschsalon ist ziemlich lästig, weil man fast 2 Stunden dort bleiben muss, um 5 Minuten Arbeit zu erledigen, die keine Maschine übernimmt.
  Einen Wasch- und Faltservice zu beauftragen ist dagegen ein teurer Luxus. Wenn ein Waschsalon den ganzen Prozess automatisieren könnte, könnten die Preise für Waschen und Falten sinken, und vielleicht würden dann weniger Menschen eine Maschine zu Hause haben wollen, die sie nur ein paar Stunden pro Woche nutzen.
  Oder man kombiniert Waschsalons mit Cafés oder Bars und macht Hausarbeit zu einer Gelegenheit für Erholung und soziale Kontakte. Der Großteil der Welt ist für so viel Zivilisation allerdings noch nicht bereit.
- Ich weiß nicht, warum man denkt, dass Menschen, die sich keine komfortable Wohnung und keine eigene Waschmaschine leisten können, einen Wäscheroboter nutzen würden.
  Am Ende wird das wohl in die Waschmaschine integriert, sodass es ein einziges Gerät gibt, in das man schmutzige Kleidung hineinlegt und saubere, gefaltete Kleidung herausnimmt. Die bestehende Waschmaschine selbst besteht nicht aus so teuren Komponenten, dass sie zwingend in ihrer heutigen getrennten Form bleiben müsste.
- 30 Euro pro m² in Paris gelten nur für ausreichend große Wohnungen.
  Eine 20-m²-Wohnung ist kaum für unter 850 Euro zu bekommen, also etwa 42 Euro pro m². Solche Wohnungen sind natürlich nicht nur für einen Wäschefaltroboter, sondern selbst für eine Waschmaschine zu klein.
Mit nur etwas mehr Präzision wäre das ein hervorragendes Laborautomatisierungs-Tool. Labore auf der ganzen Welt wären wohl bereit, 1 Million Dollar für einen Roboter zu zahlen, der manuelle Experimentierarbeit erledigt.
Laborarbeit ist auch gar nicht so schwierig. Viele Tätigkeiten beruhen auf klar definierten, etablierten Protokollen. Ein Roboter, der ohne separate Programmierung Dinge greifen und Arbeiten mit Reagenzgläsern ausführen kann, wäre meiner Meinung nach ein Kassenschlager.
- Stimme zu. Meine Freundin hat einen Abschluss in Biochemie und arbeitet in so einem Labor. Dazu gehören Probenentnahme, Vorbereitung, Eingabe, grundlegende Wartung der Geräte, etwas Analyse sowie administrative und Assistenzaufgaben wie das Eintragen von Ergebnissen ins System oder Anrufe bei Ärzten.
  Meiner Ansicht nach lässt sich das alles automatisieren.
  Es hängt allerdings stark von der Region ab. In den USA könnte sich das ziemlich schnell rechnen, aber meine Freundin lebt in einem kleinen EU-Land mit eher niedrigen Löhnen, und dieser Job ist eine Junior-Position, die bei Studierenden beliebt ist. Diese Stelle kostet ungefähr 25.000 Dollar pro Jahr.
  Wenn man 1 Million Dollar investiert, um einen Cashflow von 25.000 Dollar pro Jahr zu ersetzen, ist der Kapitalwert bei einem üblichen Diskontsatz negativ. Sinn ergibt es erst, wenn man ein Gehalt von 120.000 Dollar mit einem Roboter für 1 Million Dollar ersetzen kann.
  Ich denke auch, dass Jobs zur Überwachung der Roboter bleiben werden. In großen, zentralisierten Produktionsstandorten kann eine Person mehrere Roboter beaufsichtigen, was sinnvoll ist, aber in kleinen, verteilten Standorten nicht unbedingt. Viele Labore müssen wegen der zeitkritischen Natur ihrer Arbeit an vielen Orten in Kundennähe sein, und ich denke, daher ist die Struktur so. Natürlich könnte sich das ändern.
- Ich würde die Erwartungen nicht zu hoch schrauben. Für General-Purpose-Roboter ist selbst das Aufschrauben einer Mutter auf einen Bolzen ein großes Problem.
  Am Ende wird man wohl ein roboterfreundliches Labor brauchen, in dem selbst primitive Roboterhände alles erledigen können. Die Alternativen wären, fähigere Hände zu bauen oder vollständig robotisierte Speziallabore zu schaffen.
  Das Erste ist am spannendsten und der Weg, den man gehen sollte. Wenn das möglich wird, eröffnen sich viele Möglichkeiten, etwa „selbstreparierende“ Fahrzeuge oder planetare Basen. Man braucht dann nur noch einen technischen Roboter an Bord.
- Solche Produkte für die Laborautomatisierung gibt es bereits, und einige Startups in diesem Bereich kämpfen letztlich mit dem gleichen Gegenwind wie alle anderen, bei denen die Kunden eigentlich für die Software zahlen, man aber Hardware verkaufen muss.
  Akademische Labore kaufen keine Startup-Laborausrüstung für 1 Million Dollar. Ein gemeinsames Core-Lab für 30 Forschungsgruppen würde vielleicht etwas kaufen, aber dann etwas, das direkt zur Veröffentlichung von Papers beiträgt, also Geräte mit nachgewiesener Erfolgsbilanz.
  Deshalb kommt selbst das von dir beschriebene Produkt, obwohl es schon existiert, nicht in die Labore hinein.
- Viele Stoffe in chemischen Laboren sind giftig und können für Menschen sogar tödlich sein. Wenn Roboter so etwas stattdessen handhaben könnten, wäre das ein großer Gewinn.
- Definitiv möglich. Ich habe einen Freund, der in diesem Bereich arbeitet, also in der AI-Laborautomatisierung, und er erwartet, dass der Wettbewerb in ein paar Jahren sehr intensiv wird.
Im Vergleich zu humanoiden Robotern wirkt dieser Roboter ziemlich simpel, daher dürften die Kosten viel niedriger sein. Ich verstehe allerdings nicht ganz, warum man sich auf das Falten von Kleidung konzentriert. Waschen wirklich so viele Leute häufiger als einmal pro Woche?
Wenn er stattdessen kochen könnte, was man mindestens einmal am Tag macht, wäre das viel nützlicher.
Andererseits hätte ich gern endlich eine neue Innovation bei Waschmaschinen. Die heutige Technik ist auf einem sehr grundlegenden Stand: Wasser erhitzen und immer weiter drehen. Warum gibt es nichts, das eher wie ein großer Papierdrucker funktioniert: Man steckt ein Hemd hinein, es läuft durch Rollen, wird mit minimalem Wasser unter hohem Druck besprüht, dann erhitzt und kommt 30 Minuten später perfekt gebügelt wieder heraus?
- Wäsche ist beinahe die perfekte Demo, um ein fortgeschrittenes Bewegungsplanungssystem zu zeigen. Stoff ist in klassischen Paradigmen der Bewegungsplanung praktisch nicht handhabbar.
  Er ist extrem nicht starr, sodass die Vorhersage seines Verhaltens in den Bereich spezialisierter und teurer Dynamiksimulatoren fällt, und rückwärts zu fragen, welche Bewegung nötig ist, um ein gewünschtes Ergebnis zu erzeugen, ist nahezu unmöglich. Selbst wenn Vorhersage möglich ist, ist sie hochkontinuierlich und widersetzt sich der Diskretisierung.
  Auch Annahmen wie „die Breite einer Falte ist 0“, die beim Nachdenken über Origami oft verwendet werden, lassen sich nicht anwenden.
  Kleidung ist selbst unter Stoffen ein Extremfall. Sie ist nicht nur hochgradig uneinheitlich, sondern auch empfindlich: Jedes Hemd ist ein labbriges topologisches Gebilde, bedeckt mit seltsamen Texturen sowie komplexen und unvorhersehbaren lokalen Eigenschaften. Schon bei leicht falscher Handhabung reißen Nähte auf. Rüschen, Reißverschlüsse, Taschen, Bänder — die Liste ist endlos.
  Außerdem macht jeder Wäsche, daher ist es leicht nachvollziehbar, im Labor leicht aufzubauen, und Menschen können die Leistung auf einen Blick intuitiv beurteilen.
  In fast 70 Jahren Forschung hat niemand überzeugende Leistung gezeigt; es ist also schwieriger als Backflips, Basketballwürfe oder das Beladen von Lastwagen. Deshalb werden neue Algorithmen, die mehr als nur Blöcke auf einem Tisch handhaben können, fast immer auf Wäsche angewendet.
- Wäschefalten ist nicht das Endziel. Es wurde gewählt, weil es für Roboter eine sehr schwierige Aufgabe ist, die Fingerfertigkeit, Planung und Reaktion auf sensorische Eingaben erfordert.
  Anders gesagt: Wenn ein Roboter Wäsche falten kann, ist die Wahrscheinlichkeit groß, dass man ihm fast jede andere Hausarbeit ebenfalls beibringen kann.
- Schon mit nur einem Kind wird Wäsche nicht zu einer Aufgabe mit Anfang und Ende, sondern zu einem kontinuierlichen Prozess.
  Kochen ist für viele Menschen eine Tätigkeit, die sich zutiefst lohnend und menschlich anfühlt. Für mich nicht, aber ich weiß, dass ich damit die Ausnahme bin. Dagegen dürfte es schwer sein, jemanden zu finden, der es für wertvoll hält, seine begrenzte Zeit auf der Erde mit Wäsche zu verbringen.
- Viele Leute waschen drei- bis viermal pro Woche. Manche kochen überhaupt nicht zu Hause. Auf der Welt gibt es 8 Milliarden Menschen.
- Vermutlich weil die Leute auf der Axiom saubere Overalls brauchen?
  Im Ernst: Wäschefalten ist aus Sicht eines Roboters eine komplexe Aufgabe, die erhebliche Fingerfertigkeit und präzise Objektmanipulation erfordert, ist aber im Gegensatz zum Kochen relativ ungefährlich.
  Selbst wenn der Roboter versagt, ist die Wahrscheinlichkeit gering, dass der Roboter selbst, die Umgebung oder Menschen in der Nähe größeren Schaden nehmen. Daher ist es als Forschungsaufgabe ziemlich gut geeignet und würde, wenn es gelöst ist, auch bei Event-Demos beeindruckend wirken.
Wäschefalten ist eine kleine Nebenaufgabe, und der wahre heilige Gral ist ein Roboterarm, der rund um die Uhr kochen kann.
Wenn in jedem Fast-Food-Laden, Restaurant, Hotel, Krankenhaus, Militärstützpunkt, Kreuzfahrtschiff und überall sonst, wo Essen zubereitet wird, ein Roboterarm stünde, würde sich der Arbeitsmarkt davon nicht erholen.
Der größte Gewinner könnten Lebensmittelgeschäfte sein, die mit eigenen Produkten warme Mahlzeiten zubereiten und per Drohne in die umliegenden Haushalte liefern. Natürlich könnte das auch übertrieben optimistisch gedacht sein.
- Man müsste seinem lokalen Roboterkoch einfach seine Lieblingsrezepte schicken, um jedes Mal genau das gewünschte Gericht zu bekommen.
  Hätten Restaurants mit fester Speisekarte dann überhaupt noch einen Sinn?
Das wurde schon vor 9 Tagen auf HN gepostet.
https://news.ycombinator.com/item?id=42011770
Interessante Arbeit.
Ich hatte nie darüber nachgedacht, was möglich wird, wenn man bei einer zeitunkritischen Aufgabe nicht versucht, Roboter in Echtzeit zu betreiben, sondern die Sache so weit verlangsamt, bis die Latenz dem entspricht, was aktuelle Transformer-Modelle auf realer Hardware bewältigen können.
- In von Neumanns Theory of self-reproducing automata (1966), S. 72, „Role of High Complication“, steht dazu Folgendes:
  „Ein Automat kann nicht von der Umgebung getrennt werden, auf die er reagiert.“
  „Gegenwärtig sind die Überlebenseigenschaften des Menschen auf der Erdoberfläche gut definiert, aber für die meisten menschlichen Typen muss man die Bedingungen noch etwas stärker spezifizieren. Es ist sinnlos zu diskutieren, wie ein Mensch unter dem Meer oder bei 1000 Grad Celsius überleben würde. Genauso ist es sinnlos zu fragen, wie schnell oder langsam eine Rechenmaschine ist, wenn nicht angegeben wird, welche Art von Problemen ihr gestellt werden soll.“
Ich kenne kaum jemanden unter 40, der Kleidung faltet und bügelt, und ich bin mir nicht einmal sicher, ob ich jemanden unter 30 kenne, der überhaupt ein Bügelbrett und ein Bügeleisen besitzt. Falls doch, sind sie wahrscheinlich kaputt, und wenn nicht kaputt, dann verloren gegangen.
„Wäsche machen“ wird meiner Ansicht nach sogar noch schneller veraltet als selbst Wäsche zu waschen. Ähnlich wie Menschen kaputte Kleidung nicht von Robotern reparieren lassen, sondern alte Kleidung wegwerfen, auf Fast Fashion umsteigen und das Nähen ganz aufgeben.
Wenn dieses Produkt auf Menschen mit hohem Einkommen zielt, sehe ich selbst dann keine echten Chancen, wenn der Preis von 100.000 Dollar auf 1.000 Dollar fällt.
- Fast-Fashion-Kleidung lässt sich zunehmend gar nicht mehr bügeln. Gleichzeitig wird es immer schwieriger, Kleidung in guter Qualität zu kaufen.
  Durch den Einfluss von Fast Fashion bringen selbst sehr teure Designermarken Dinge wie ungefütterte Mäntel oder dünne Pullover heraus.
  Ein Grund ist auch, dass die Lieferketten für hochwertige Kleidung stark geschrumpft sind. Selbst wenn Designer gute Stoffe beschaffen wollen, müssen sie dafür mehr bezahlen als früher.
Vielleicht weiß das jemand auf HN: Warum bewegen sich diese Roboter immer so langsam? Liegt das an der Sicherheit, oder steigt die Schwierigkeit bei höherer Geschwindigkeit stark an?
- Geschwindigkeit scheint nicht ihre erste Priorität zu sein.
- Sie erzeugen Roboteraktionen tokenweise mit einem Vision-Language-Model. VLM-Inferenz ist der Engpass.

Physical Intelligence zeigt seine erste universelle Roboter-Policy π0 – bis hin zum Wäschefalten

Die universelle Roboter-Policy, auf die π0 abzielt

Warum es über enge Automatisierung hinausgeht

Trainingsdaten und Roboterkonfiguration

Zusammensetzung der Trainingsdaten

Enthaltene Aufgabentypen

Verständnis auf Internetmaßstab und kontinuierliche Aktionsausgabe

Geschicklichkeitsaufgaben, die per Post-Training behandelt wurden

Wäsche falten

Tisch abräumen

Kartons zusammenbauen

Evaluierungsvergleich mit OpenVLA und Octo

Ergebnisse der 5 Evaluierungsaufgaben

Offene Aufgaben und Richtung der Zusammenarbeit

Langfristiges Schlussfolgern und Planen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare