- Shoggoth Mini ist ein weicher Tentakelroboter, der mithilfe von GPT-4o und Reinforcement Learning natürliche und ausdrucksstarke Bewegungen erzeugt
- Anders als herkömmliche Haushaltsroboter wurde er so entworfen, dass er bei der Interaktion mit Menschen innere Zustände oder Absichten ausdrücken kann
- Vom Hardware-Design über die Software bis hin zu kamerabasierter Wahrnehmung und Steuerungssystem wird der gesamte Prozess detailliert beschrieben
- Durch die intuitive Abbildung von 2D-Trackpad-Eingaben auf die 3D-Steuerung des Tentakels wurde die Bedienbarkeit verbessert; zugleich sorgen moderne Computer Vision und RL-Techniken für Präzision und Ausdruckskraft der Bewegungen
- Zum Schluss werden Überlegungen zur Balance zwischen Lebendigkeit, Unvorhersehbarkeit und Menschenfreundlichkeit des Roboters sowie Ideen für zukünftige Erweiterungen vorgestellt
Einleitung und Hintergrund
- Im vergangenen Jahr hat sich der Bereich Robotik durch die Verbindung mit dem Zeitalter der Large Language Models (LLMs) rasant weiterentwickelt
- Beispiele wie π0.5 oder Tesla Optimus verstehen Befehle in natürlicher Sprache und führen reale Aktionen aus, bleiben aber meist auf dem Niveau funktionaler Roboter
- Es wird hervorgehoben, dass für natürliche Mensch-Roboter-Interaktion und die Vermittlung innerer Zustände wie Absicht, Aufmerksamkeit oder Sicherheit „Ausdrucksstärke (expressiveness)“ entscheidend ist
- Angeregt von Pixar-artigen Lampen wie Apple ELEGNT und SpiRobs, die mit simplen Bewegungen auf merkwürdige Weise „lebendig“ wirken, richtet sich das Interesse auf den Unterschied zwischen gezielt entworfenem Ausdruck und zufällig entstehender Lebendigkeit
- Um dies zu erproben, begann die Entwicklung von Shoggoth Mini; geteilt werden der von Zufall und Experimenten geprägte Designprozess sowie die gewonnenen Erkenntnisse
Hardware
- Die erste Version des Testbeds begann mit einer einfachen Struktur aus drei Motoren, einer Platte zur Befestigung des Tentakels und einer kuppelförmigen Abdeckung
- Während des 3D-Drucks ging das Filament aus, wodurch ein Teil der Kuppel eine andere Farbe bekam und eine gesichtartige Form mit Ball und Mund entstand; mithilfe von ChatGPT wurden visuelle Entwürfe erkundet und die Form festgelegt
- An der Kuppel wurde eine Stereo-Kamera zur Verfolgung des Tentakels angebracht; der „Vorhersagefehler“ der Roboteraugen erzeugt dabei den Effekt, den Blick auf sich zu ziehen
- Das offene Spulen-Design hatte den Nachteil, dass Kabel leicht heraussprangen und sich verhedderten; durch das Hinzufügen einer einfachen Spulenabdeckung wurde das Problem gelöst und die Geschwindigkeit wiederholter Experimente verbessert
- Mit Kalibrierungsskripten und zusätzlicher Reserve für die Drahtlänge lassen sich Wartung und Motorkraftanpassung schnell durchführen
- Um das Durchhängen des Tentakels zu minimieren, wurde die Wirbelsäule (Spine) passend dicker ausgelegt
- Sowohl die CAD-Baugruppe als auch die STL-Dateien für den 3D-Druck sind im GitHub-Repository veröffentlicht
Manuelle Steuerung
- Zu Beginn wurde die Steuerung der drei Sehnenlängen mithilfe eines Trackpads zu einer 2D-Bedienung vereinfacht, damit sich der Tentakel intuitiv bewegen lässt
- Jede Sehne besitzt in der 2D-Ebene eine Hauptrichtung; der Richtungsvektor des Cursors wird auf jede Achse projiziert, um die nötige Längenänderung entsprechend der erforderlichen Spannung zu berechnen
- Positive Werte bedeuten Verkürzung der Sehne, negative ihre Verlängerung
- Diese 2D→3D-Transformationsmethode wurde auch in der automatisierten Steuerung, etwa beim Reinforcement Learning, als grundlegende Projection Layer wiederverwendet
- Trotz des begrenzten Bedienbereichs ist eine intuitive Steuerung möglich, was Reaktionsfähigkeit und Nutzererfahrung deutlich verbessert
Systemdesign
- Zweistufige hierarchische Steuerungsstruktur:
- Auf der unteren Ebene laufen Open-Loop-Policies (z. B.
<yes>, <shake>) und Closed-Loop-RL-Policies (z. B. Finger-Tracking); die Verfolgung von Tentakelspitze und Handposition übernimmt eine auf Stereo Vision basierende Pipeline
- Auf der oberen Ebene verarbeitet GPT-4o Sprache/Text in Echtzeit (Vision ist noch nicht veröffentlicht); Videoereignisse wie Winken werden als Text-Cues an GPT-4o übergeben, das dann über API-Aufrufe entscheidet
- Statt einer direkten end-to-end Vision-Language-Action-(VLA)-Integration auf Basis großer Modelle wurde eine gestufte Architektur aus spezialisierter Vision und leichtgewichtigen Einzel-Controllern entworfen
- Die Anpassung des RL-Beobachtungsbereichs, natürliche Homing-Bewegungen und Idle-Zustände (Atmungsmodus) zwischen API-Aufrufen verstärken das „lebendige“ Gefühl des Roboters
- Aufgrund praktischer Grenzen von VLA-Systemen, etwa bei Problemen der zeitlichen Abstimmung, spielt Prompt Engineering eine wichtige Rolle
Wahrnehmung
- Kombination aus MediaPipe für Hand-Tracking sowie einem benutzerdefinierten Datensatz und einem YOLO-Modell für das Tracking der Tentakelspitze
- k-means-Clustering, automatisches Labeling/Active Learning mit Roboflow und der Einsatz von Segment Anything dienten der Datensatzerweiterung und präzisen Beschriftung
- Trainiert wurde mit Ultralytics YOLO; mit dem DeepLabCut-Notebook wurden innere und äußere Kameraparameter geschätzt und 3D-Triangulation umgesetzt
- Die Echtzeitverfolgung von 3D-Positionen von Hand und Tentakel ermöglicht eine robuste Closed-Loop-Steuerung
Low-Level-Control-API
- Bei weichen Robotern funktioniert inverse Kinematik anders als bei starren Körpern nicht besonders gut, daher wurde die 2D-Control-Projection durchgängig verwendet
- Durch die dickere Wirbelsäule wurde zudem die Reproduzierbarkeit der Bewegungen über mehrere Sitzungen hinweg sichergestellt
- Experimente mit Greifbewegungen und ähnlichen Aufgaben zeigten die für weiche Roboter typische mechanische Robustheit, die Unterschiede in Form und Gewicht gegriffener Objekte auffangen kann
- Hochfrequente Feinmanipulation ist schwierig, doch grundlegende Manipulation erweist sich allein durch das mechanische Design als überraschend stabil
Reinforcement Learning (RL)
- RL wurde zunächst auf einfache Policies wie das Verfolgen des Fingers eines Nutzers angewendet; im MuJoCo-Simulator verbesserte Domain Randomization (PPO, MLP, Frame Stacking, Randomisierung von Masse/Reibung/Dämpfung) die Sim-to-Real-Übertragbarkeit
- Anfangs wurde die Sehnenlänge selbst als Action Space verwendet, was jedoch zu Reward Hacking und zum Scheitern der Übertragung in die reale Welt führte
- Durch die Beschränkung der Aktionen über die 2D-Projektionsmethode konnten unrealistische Bewegungen wie Instabilität oder Schwingungen unterdrückt werden; zugleich wird die Möglichkeit einer schrittweisen Erweiterung auf höhere Dimensionen per Curriculum Learning aufgezeigt
- Um Jitter durch abrupte Aktionsänderungen zu verringern, wurden dem Reward Strafkomponenten hinzugefügt und die Aktionen per EMA geglättet
Fazit und Ausblick
- Die anfangs empfundene Unvorhersehbarkeit und Interpretationsoffenheit vermittelte ein Gefühl von „Lebendigkeit“, doch mit zunehmender Analyse und Verinnerlichung verschwand die Frische dieses Feedbacks allmählich
- Es wird betont, dass die Balance zwischen Ausdrucksstärke (Vermittlung von Absicht) und Lebendigkeit (Unvorhersehbarkeit) für die Mensch-Roboter-Interaktion entscheidend ist
- Ideen für zukünftige Erweiterungen:
- eine nichtmenschliche Stimme
- Aufhebung der 2D-Beschränkung
- vielfältigere Ausdrucksbewegungen durch RLHF oder Ähnliches
- zusätzliche Tentakel und eigenständige Fortbewegung
- geringere Lautstärke durch den Einsatz von Direktantriebsmotoren
- Quellcode und Dateien sind im GitHub-Repository verfügbar; Zusammenarbeit und Diskussion sind willkommen
1 Kommentare
Hacker-News-Kommentare
Ich hatte das Gefühl, hier trifft Technik auf menschliche Psychologie auf eine interessante Weise: Der Roboter wirkte anfangs sehr lebendig, aber je länger man ihn benutzt, desto leichter werden seine Bewegungen vorhersehbar und desto weniger lebendig fühlt er sich an. „Ausdruckskraft“ hat damit zu tun, innere Zustände zu vermitteln, aber „Lebendigkeit“ entsteht aus Unvorhersehbarkeit und einem gewissen Maß an Undurchsichtigkeit, weil echte lebende Systeme komplex sind und viele verschiedene Variablen verfolgen. Shoggoth Mini erreicht dieses Niveau nicht. Ich frage mich, ob wir überhaupt Roboter wollen, die sich wirklich lebendig anfühlen, oder ob es einen Grenzpunkt gibt, an dem sie so unvorhersehbar werden, dass man sie nur ungern in der Nähe von Menschen haben möchte.
Das erinnert mich an Furby: ähnliche Form und Größe, zwei Augen und sich bewegende Ohren. Anfangs ist es faszinierend, aber wenn man sich nur ein wenig damit beschäftigt, zeigt es nur begrenzte Verhaltensweisen auf Basis sehr einfacher Reize und interner Zustandskombinationen. Viele machen zwar den Witz „Sind Menschen nicht genauso?“, aber in der Praxis erkennt man die Wiederholungsmuster sehr schnell.
Das ist ähnlich wie bei Spielen: Sobald man die Regeln des Systems versteht, macht es keinen Spaß mehr. Selbst wenn es durch bloße Regelanwendung komplex wirkt, fühlt sich das Ergebnis festgelegt an. Der magische Reiz verschwindet.
Menschen haben Feuer, fließendem Wasser, Automaten aus dem 18. Jahrhundert, primitiven Chatbots, ChatGPT – und sogar vielen anderen Maschinen – Anthropomorphismus und Eigenständigkeit zugeschrieben. Manchmal wirken Maschinen sogar so, als hätten sie eine „Stimmung“.
Jemand teilt Erfahrungen mit Sprachassistenten und Kunstsprachen: Der Sprachassistent ist auf britischen Akzent eingestellt, weil er dadurch ausreichend fremd wirkt und deshalb viel vertrauenswürdiger erscheint. Für Briten gilt das vielleicht nicht, aber so empfindet es die Person. Früher wurde bei der Arbeit an einem Spiel versucht, NPC-Dialoge dynamisch zu erzeugen, doch es war sehr schwer, das auf Englisch glaubwürdig hinzubekommen. Am Ende ließ man die NPCs in einer fiktiven Sprache sprechen und fügte Puzzle-Elemente hinzu, sodass die Nutzer diese Sprache lernen mussten; dadurch wirkten die Figuren deutlich realistischer. Tatsächlich investiert man seine Energie in die Übersetzung und vergisst dadurch kurzzeitig, dass es sich um eine Kunstsprache handelt – so wird das Uncanny Valley umgangen. Allerdings fragt sich die Person nun, ob man, sobald man mit dem Spiel vertraut ist und die Sprache besser beherrscht, am Ende doch merkt, dass es nur ein manipuliertes künstliches System ist.
Statt „Ah, es hat gezögert“ fühlt sich bei praktisch jeder Frage immer ein ähnliches Zögern an. Die Verzögerung, bis GPT eine Reaktion erzeugt, ist ziemlich störend und unangenehmer als eine Leitungsverzögerung bei einer Nachrichtenschalte. Vielleicht wäre es besser, wenn man etwas wie LEDs an den Augen hätte, die anzeigen, dass das System arbeitet. Wenn eine Anfrage an GPT geschickt wird, ist diese Verzögerung unvermeidlich – besonders, wenn die Anfrage in die Cloud geht. Außerdem scheint die Einstellung problematisch zu sein, bei der GPT-4o ständig den gesamten Audiostream mithört.
Für so eine einfache Aufgabe sollte ein kleines LLM wie Qwen 0.6B ausreichen. Man könnte die Zero-Shot-Leistung eines großen Modells nutzen, um einen eigenen Datensatz zu erzeugen, und dann ein separates, viel schnelleres Modell trainieren.
Was das ständige Mithören von GPT-4o betrifft: Das ließe sich mit einer Wake-Word-Bibliothek lösen, zum Beispiel openWakeWord oder porcupine. Dann könnte der Nutzer das System mit einem bestimmten Aktivierungswort wecken und erst danach den Prompt schicken; das würde auch Sicherheits- und Datenschutzprobleme verringern. Im Normalzustand könnte eine „schläft“-Animation angezeigt werden, und beim Aufruf würde es aufwachen und reagieren. Dazu wurden diese Open-Source-Links geteilt: openWakeWord porcupine
Ich teile die Meinung nicht, dass die Verzögerung bei GPT-Antworten störend ist. Wenn die Tentakel anhalten und sich sofort aufrichten, wirkt es eher so, als würde das Ding konzentriert zuhören und nachdenken, und genau das finde ich eher niedlich.
Ich finde, es braucht Augenbrauen wie Johnny 5 Beispielvideo zu Johnny 5
Nach der Prototypenphase könnte man auch ein kleines optimiertes Modell direkt auf dem lokalen Gerät laufen lassen. Das wäre deutlich schneller, sicherer und besser für ein Endprodukt geeignet, auch wenn es im Prototyping weniger flexibel ist.
Jemand teilt ein großartiges Video von SpiRobs, das diese Idee inspiriert hat: SpiRobs YouTube-Video
Das Design ist unglaublich niedlich. Als ich letztes Jahr Tentakelroboter erforscht habe, habe ich gelernt, dass der offizielle Begriff „continuum robots“ lautet, und besonders in der Medizinrobotik viel dazu geforscht wird. Wer mehr wissen will, findet hier eine gute Einführungsvorlesung: passendes Vorlesungsvideo
Ich finde, das ist ein wirklich tolles Projekt. Jetzt, wo AI so viele Fähigkeiten hat und sich auch die Robotik weiterentwickelt, finde ich es schade, dass immer nur humanoide Formen gebaut werden. Ich würde gern erleben, dass in Wohnungen auch Roboter mit einzigartigen Formen auftauchen, etwa eine Spinnen-Kalmar-Hybridmaschine.
Es gibt so viele Debatten über AI-Sicherheit, aber ich will einfach, dass ein Spinnen-Kalmar-Hybridroboter durch mein Haus läuft.
In der Robotik gibt es die Tendenz, Systeme möglichst kompatibel mit einer humanoiden Welt zu machen. Aber auch unterschiedliche Beinformen auszuprobieren und verschiedene Optionen zu testen, wäre durchaus spannend.
Auf keinen Fall, ich habe solche Filme gesehen. Ich will ganz sicher keinen Facehugger-artigen Organismus auf meinem Schreibtisch sitzen haben.
Hentai-Fans würden das vielleicht eher begrüßen.
Wenn die Tentakel länger wären und es ein Programm gäbe, mit dem man Kollegen Streiche spielen könnte, wäre das vielleicht sogar lustig.
Ich mag die Lovecraft-Referenz. Ich frage mich, ob dafür nicht auch ein kleines Modell ausreichen würde.
Hier wurden ein paar hilfreiche Links zum Shoggoth-Meme geteilt: Shoggoth With Smiley Face Meme NYT-Artikel zum Shoggoth-Meme
Ich sehe das ähnlich. Eigentlich könnte es sogar noch einfacher sein. Es wurde der Entwickler zitiert, der sagte, er habe über ein End-to-End-VLA-Modelltraining nachgedacht, aber bei kabelgetriebenen Softrobotern entstünden für dieselbe Spitzenposition unterschiedliche Kombinationen von Kabellängen, wodurch die Unvorhersehbarkeit steige und demonstratorbasiertes Lernen nicht gut skaliere. Deshalb habe man sich letztlich für eine Kaskadenarchitektur entschieden, bei der spezialisierte Vision in einen leichtgewichtigen Controller eingespeist wird. Trotzdem wäre es großartig, das noch einmal mit einem kleinen Modell zu versuchen, und als Witz wurde ergänzt, dass man sich mit einem lokalen Modell sicherer fühlen würde, wenn es innerhalb eines Pentagramms stünde.
Ich habe genug Medien aus Japan gesehen, um zu ahnen, in welche Richtung das gehen könnte.
Die Grundidee ist einfach großartig. Mich zieht besonders der Versuch an, einem nichtsprachlichen und nichtmenschlichen Wesen Ausdruckskraft zu verleihen.
Ich halte das für wirklich wunderschöne Arbeit. Besonders eindrucksvoll finde ich, dass dieser Roboter so gestaltet wurde, dass er keinem Lebewesen aus der Natur ähnelt. Ich möchte keine Zukunft, in der die Grenze zwischen Robotik und Wirklichkeit verschwimmt. Bisher sehen sogar humanoide Roboter noch klar künstlich aus, und ich hoffe, dass dieser Trend anhält.