5 Punkte von GN⁺ 2025-06-26 | 1 Kommentare | Auf WhatsApp teilen
  • Ein hochgradig universelles VLA-Modell (Vision-Language-Action), das für den direkten Einsatz auf Robotern optimiert ist
  • Bietet schnelle Aufgabenanpassung und allgemeine Geschicklichkeit und läuft lokal ohne Internetverbindung, was geringe Latenz und Robustheit sicherstellt
  • Benötigt nur minimale Rechenressourcen und verfügt über präzise Manipulation auf Basis von Zweiarm-Robotern sowie schnelle Aufgabenwechsel
  • Entwickler können mit dem Gemini Robotics SDK schnell direkt in ihrer eigenen Umgebung testen; schon mit kleinen Demos im Umfang von 50 bis 100 Durchläufen ist eine rasche Aufgabenanpassung möglich
  • Zeigt bessere Generalisierungs- und Anpassungsleistung als andere On-Device-Modelle und bewältigt auch komplexe Anweisungen oder neue Aufgaben effizient
  • Unter Anwendung von Prinzipien für Sicherheit und verantwortungsvolle Entwicklung wurden Risikominimierung für reale Umgebungen und gesellschaftliche Auswirkungen sowie ein System zur Aufnahme von Feedback eingeführt

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

  • Gemini Robotics On-Device ist ein hocheffizientes VLA-Modell (Vision-Language-Action), das für den direkten Betrieb auf lokalen Robotikgeräten ausgelegt ist
  • Es überträgt die im März vorgestellten multimodalen Reasoning-Fähigkeiten und das Verständnis der realen Welt von Gemini Robotics auf reale physische Umgebungen
  • Stärken des On-Device-Modells

    • Funktioniert auch ohne Netzwerk eigenständig und eignet sich dadurch besonders für Umgebungen, die geringe Latenz erfordern oder instabile Verbindungen haben
    • Ist für lokale Umgebungen optimiert und ermöglicht schnelle Echtzeit-Ausführung
    • Verfügt über vielfältige Fähigkeiten zur visuellen, semantischen und verhaltensbezogenen Generalisierung
    • Kann präzise Manipulationsaufgaben auf Basis von Zweiarm-Robotern ausführen, etwa Reißverschlüsse öffnen oder Kleidung falten
    • Versteht natürlichsprachliche Anweisungen und kann komplexe mehrstufige Aufgaben ausführen

Einfach einsetzbar und anpassbar dank SDK

  • Mit dem Gemini Robotics SDK können Entwickler das Modell in ihrer eigenen Umgebung testen, mit dem MuJoCo-Physiksimulator evaluieren und auf verschiedene Aufgaben anwenden
  • Schon mit kleinen Demos im Umfang von 50 bis 100 Durchläufen ist eine schnelle Anpassung an neue Domänen möglich

Model capabilities and performance

  • Gemini Robotics On-Device wurde für bi-arm-Roboter mit minimalem Bedarf an Rechenressourcen ausgelegt
  • Es ist optimiert für schnelles Experimentieren, geschicklichkeitsbasierte Manipulation, lokalen Betrieb und Inferenz mit geringer Latenz
  • Es erkennt natürlichsprachliche Befehle und führt auch anspruchsvolle Manipulationen wie das Öffnen von Reißverschlüssen oder das Falten von Kleidung direkt aus
  • Gegenüber bisherigen On-Device-Modellen bietet es eine überlegene Universalität und Generalisierungsleistung und verarbeitet auch komplexe mehrstufige Anweisungen effektiv
  • Wenn höhere Leistung oder eine Umgebung ohne solche Einschränkungen benötigt wird, steht auch das serverbasierte Gemini-Robotics-Modell zur Verfügung

Adaptable to new tasks, generalizable across embodiments

  • Gemini Robotics On-Device ist das erste VLA-Modell, das Fine-Tuning unterstützt
  • Es passt sich mit nur 50 bis 100 Demos schnell an neue Aufgaben an und zeigt bei Geschicklichkeitsaufgaben verschiedener Schwierigkeitsgrade wie Reißverschlüsse schließen, Karten ziehen oder Dressing eingießen eine höhere Anpassungsleistung als Konkurrenzmodelle
  • Es wurde zwar für einen bestimmten Roboter (ALOHA) trainiert, lässt sich aber durch zusätzliches Training auch auf verschiedenartige Roboter wie Franka FR3 und Apollo humanoid erweitern
  • Auch verschiedene Anweisungen, neue Objekte und komplexe industrielle Aufgaben wie die Montage von Riemen können verarbeitet werden

Responsible development and safety

  • Das Modell wurde auf Basis der AI Principles und eines integrierten Sicherheits-Frameworks entwickelt
  • Über die [Live API] wird semantische und inhaltliche Sicherheit sichergestellt; in Verbindung mit Sicherheitscontrollern auf niedriger Ebene wird die Sicherheit im realen Betrieb zusätzlich verbessert
  • Risiken werden mit verschiedenen Evaluierungsverfahren wie Semantic Safety Benchmark und Red-Teaming überprüft
  • Ein spezialisiertes Team (Responsible Development & Innovation, RSC) bewertet fortlaufend die gesellschaftlichen Auswirkungen und sammelt Feedback
  • Das Modell wird ausgewählten vertrauenswürdigen Testgruppen vorab bereitgestellt, um frühe Erkenntnisse zu Nutzbarkeit und Sicherheit zu gewinnen

Accelerating innovation in robotics

  • Gemini Robotics On-Device soll der Robotik-Community ein universelles und anpassungsfähiges KI-Modell bereitstellen, um Latenz- und Konnektivitätsprobleme zu überwinden
  • Durch die schnelle Einführung per SDK und die Fähigkeit zur Aufgabenanpassung wird eine Beschleunigung von Innovation erwartet
  • Über das Trusted Tester Program ist Zugang zum Modell und zum SDK möglich
  • Damit wird die Anwendung von KI in der physischen Welt erweitert und eine Vision für die Zukunft der Robotik aufgezeigt

1 Kommentare

 
GN⁺ 2025-06-26
Hacker-News-Kommentare
  • Ich bin bei humanoider Robotik optimistisch, frage mich aber wegen der Zuverlässigkeit. Menschliche Arme, Beine und Hände sind ein erstaunliches System, das die Welt ständig berührt, dabei auf natürliche Weise verschleißt und sich trotzdem selbst wieder erholt.

    • Industrieroboter sind in Sachen Zuverlässigkeit sehr stark. Die MTBF (mittlere Betriebsdauer zwischen Ausfällen) liegt oft bei über 100.000 Stunden. Wichtig ist, dass Industrieroboter so konstruiert werden, dass sie möglichst lange ohne Ausfall laufen, um die Rentabilität zu erhöhen. Deutsche und japanische Unternehmen legten großen Wert auf Zuverlässigkeit, entwickelten elektrische Aktuatoren und beherrschten so den Markt für Industrieroboter. Die hydraulischen Roboter des US-Unternehmens Cincinnati Millicron waren früher zwar leistungsstark, verloren wegen geringerer Zuverlässigkeit aber im Wettbewerb. Gleichzeitig gibt es die skeptische Sicht, dass humanoide Hände schwer dieselbe Zuverlässigkeit wie Industrieroboter erreichen können, weil viele kleine Bauteile große Kräfte aushalten müssen relevanter Link

    • Wenn man an die Möglichkeiten in naher Zukunft denkt, ist das entweder sehr spannend oder leicht unheimlich. Früher dachte ich, man würde sich auf einen bestimmten Zweck konzentrieren, zum Beispiel einen reinen Reinigungsroboter, aber tatsächlich scheint es so, als würde das Ganze, sobald es fertig ist, sehr universell einsetzbar sein. Es werden viele Sensoren und Motoren nötig sein, aber interessant ist, dass das im Vergleich zu autonomen Fahrzeugen wohl geringere rechtliche Risiken und einen niedrigeren Ressourcenbedarf haben dürfte.

    • Ich denke, es wäre auch möglich, dass andere Roboter Verschleißteile automatisch austauschen.

    • Ich denke, zusätzliche Forschung in der Materialwissenschaft könnte auch dieses Problem lösen. In Kombination mit Servos, die gut reagieren und zugleich ein niedriges Drehmoment haben, scheint auch das lösbar.

    • Interessant ist, dass Roboter sich im Laufe der Zeit individuell "anders" entwickeln. In rauen Umgebungen wie bei Bergbaurobotern können Bauteile zum Beispiel stark mit Staub verschmutzen, an verschiedenen Stellen abnutzen oder durch herabfallende Gesteinsbrocken verbogen werden. Selbst wenn ein anderer Roboter provisorische Reparaturen durchführt, würden sich mit der Zeit wohl alle Roboter jeweils ein wenig unterschiedlich entwickeln. So wie Wartungsarbeiten an Verkehrsflugzeugen je nach Kollision oder Schaden jedes Mal einzigartig ausfallen, könnte bei Robotern Recycling am Ende die einfachere Lösung sein.

  • Ich frage mich, wie leicht man in das "trusted tester program" aufgenommen wird und ob es Module gibt, mit denen sich das SDK einfach nutzen lässt.

    • Es wird darauf hingewiesen, dass es unten im Artikel einen Anmelde-Button gibt.
  • Ich frage mich, auf welcher Hardware das SDK läuft und ob es auch auf einem aktuellen Raspberry Pi funktioniert.

    • Laut Blogpost wird mindestens ein NVIDIA Jetson Orin mit 8 GB RAM benötigt, und optimiert ist es für die Module Jetson AGX Orin (64 GB) und Orin NX (16 GB).

    • Es wird erwähnt, dass einer der Projektmitwirkenden auf X geschrieben habe, dass es auf einer 4090-Grafikkarte läuft relevanter X-Link

    • Im Grunde kann man dieses System als multimodales LLM (Large Language Model) verstehen. Kleinere Modelle wie SmolVLA (0,5B Parameter) sind schnell und effizient für bestimmte Aufgaben, während OpenVLA (Llama2-7B-Finetune) ein größeres Modell für allgemeinere Aufgaben ist. Manche Spezialmodelle könnte man auch auf einem Raspberry Pi betreiben, und für allgemeinere Modelle dürfte leistungsfähige Consumer-Hardware ausreichen.

  • Der MuJoCo-Link verweist in Wirklichkeit auf github.com/google-deepmind/aloha_sim

  • Ich bin neugierig auf die Modellarchitektur und vermute, dass sie sich stark von einem LLM unterscheidet. Falls jemand einen Link hat, der die VLA-Architektur im Detail erklärt, bitte teilen.

    • Ich denke tatsächlich, dass die Struktur sehr nah an einem LLM ist. Es ist ein "Visual Language Action"-VLA-Modell und basiert auf Gemini 2.0. Gemini 2.0 unterstützt Sprache, Audio und Video nativ, daher kann man vermuten, dass auch "action"-Daten eingebunden werden können. Wahrscheinlich ist es eine Struktur, bei der im Output-Finetuning-Schritt Bewegungsdaten hinzugefügt wurden. Solche nativ multimodalen LLMs werden wohl bald die Rolle des "Gehirns" übernehmen.
  • Es ist sicher, dass diese Technologien zwangsläufig auch für Kriegsmaschinen genutzt werden. On-Device-Autonomie ist ideal, um zentrale Macht oder Rückverfolgung von Verantwortung zu umgehen. Anders als Drohnenpiloten lassen sich keine Menschen wegen Kriegsverbrechen anklagen. Militärverträge sind zu groß, um sich wirksam dagegen zu wehren, und die Abschaffung harter Arbeit führt in diesem Verlauf direkt zur umfassenden Abschaffung des Menschen. Eine Zukunft, in der mit "AI-Powered Automation for Every Decision" ein profitables menschliches Leben verschwindet, rückt sichtbar näher palantir.com

    • Boston Dynamics, ein aus dem MIT-Umfeld hervorgegangenes und von Google übernommenes Unternehmen, versprach zwar, Roboter nicht zu militarisieren, aber angesichts von Hintergründen wie DARPA und dem US-Verteidigungsministerium ist das nur schwer zu glauben.

    • Praktisch jede nützliche Technologie hat militärische Anwendungen. Ich verstehe nicht, warum das hier ein so heißes Diskussionsthema ist.

    • Ich glaube, es wäre für diesen Roboter sehr schwer, auf dem Schlachtfeld mit Drohnen zu konkurrieren. Wahrscheinlich würde er so viel kosten wie 1.000 autonome Drohnen und mehr als das 100-Fache an Zeit und Ressourcen benötigen. Drohnen haben ihre Rolle auf echten Schlachtfeldern wie in der Ukraine bereits als klein und wirkungsvoll bewiesen, und egal wie agil die Bewegungen werden, einer explodierenden Drohne davonzulaufen dürfte schwierig sein. Selbst wenn ein Terminator eine Schrotflinte hält, ließen sich wohl leicht fünf Drohnen pro Einheit einsetzen, und solche Drohnen könnten wiederum von einem anderen autonomen Roboter gebaut werden.

  • Es ist bemerkenswert, wie Google innovative Produkte stillschweigend vorstellt und sie dann schnell wieder vergessen werden. Ohne große Werbekampagne erscheint nur ein Blogpost, das Ganze zirkuliert kurz in der Tech-Community und verschwindet, und ein paar Jahre später fragt man sich wieder: "Was ist eigentlich daraus geworden?" Dieses Produkt sieht aber cool aus, deshalb wäre es schön, wenn jemand darauf ein spannendes Startup aufbauen würde.

    • Der Hauptzweck solcher Google-Projekte ist es, Regulierungsbehörden in Schach zu halten. Es geht nicht darum, solche Produkte zu monetarisieren; stattdessen wird bewusst Geld verbrannt und weitergezogen. Dass man sich so etwas leisten kann, ist nur als Monopolunternehmen möglich.
  • Ich werde mir eine Tasse Kaffee holen und währenddessen darauf warten, eine Antwort von der API zu bekommen.

  • Ich denke, die einzige Möglichkeit zu verhindern, dass ein Roboter ausbricht und so etwas wie einen Bankraub begeht, besteht darin, die GPU in eine private SOTA-Sicherheits-GPU-Cloud zu verlagern.

  • Ich frage mich, ob es Leitplanken wie die Three Laws of Robotics geben wird, damit Roboter beim Ausführen von Prompts nicht völlig durchdrehen.

    • Die drei Robotergesetze wurden als fiktionales Konfliktkonstrukt geschaffen; für reale Systeme wäre so etwas problematisch. Tatsächlich ist das Sicherheitsdesign von Gemini Robotics mehrschichtig. Das Modell schlussfolgert, was sicher ist, das VLA liefert Ausführungsoptionen, und am Ende greift ein Low-Level-Controller mit eingebauten sicherheitskritischen Funktionen wie Geschwindigkeits- oder Kraftbegrenzungen.

    • Der allgemeine Begriff in dieser Forschung ist Constitutional AI, und das wird in vielen robotischen VLAs erprobt bzw. zitiert relevantes Paper

    • Die heute eingesetzten Leitplanken liegen wohl näher an IEC 61508 (internationaler Standard für funktionale Sicherheit) als an drei Gesetzen.

    • Manche sagen auch einfach: ein Code zum Ausschalten des Stroms.

    • Die Meinung lautet, dass die drei Robotergesetze in der Realität bedeutungslose Regeln sind.