Wie Google das Gemini-Robotics-Modell entwickelt hat

(blog.google)

6 Punkte von GN⁺ 2025-04-04 | 1 Kommentare | Auf WhatsApp teilen

Google DeepMind hat Gemini Robotics entwickelt, ein multimodales KI-Modell der nächsten Generation für Roboter, die physische Aufgaben ausführen können
Das Modell ist eine mit roboterspezifischen Daten feinabgestimmte Version von Gemini 2.0, die nicht nur Text, Video und Audio verarbeiten, sondern auch reale Handlungen ausführen kann
Der Roboter führt verschiedene Aufgaben aus, etwa Salat zubereiten, Tic-Tac-Toe spielen, Origami falten oder Lunchboxen verpacken

Konkrete Tests und Bestätigung des Potenzials

Dem Forschungsroboter ALOHA mit zwei Armen wurden verschiedene Aufgaben gestellt
- Beispiele: einen Stift in einen Schuh stecken, einen Dunking mit einem Basketball ausführen
- Obwohl der Roboter weder die Objekte noch die Aufgaben zuvor gesehen hatte, verstand er die Aufforderungen und führte sie beim ersten Versuch erfolgreich aus
Anders als bisherige Modelle kann er komplexe physische Anweisungen in natürlicher Sprache verstehen und ausführen

Zentrale Merkmale von Gemini Robotics

Verfügt über hohe Flexibilität, Interaktionsfähigkeit und Generalisierungsvermögen
- Kann sich auch ohne zusätzliches Training an neue Objekte, Umgebungen und Anweisungen anpassen
Schafft die Grundlage dafür, KI und Robotik als einen integrierten Agenten umzusetzen
Bietet menschenähnliche Wahrnehmungs-, Entscheidungs- und Handlungsfähigkeiten

Vorstellung der Modellvarianten

Gemini Robotics-ER (Embodied Reasoning):
- Basierend auf Gemini 2.0 Flash
- Erkennt Objekte, bestimmt Positionen, sagt Bewegungsbahnen voraus, legt Greifparameter fest und generiert sowie führt darauf basierend Code aus
- Wird vertrauenswürdigen Testern und Partnern bereitgestellt
Gemini Robotics:
- Integriertes Vision-Language-Action-Modell
- Kann Szenen verstehen, mit Nutzern interagieren und mehrstufige Aufgaben ausführen
- Erzielt auch bei Aufgaben, die komplexe Manipulation und räumliches Schlussfolgern erfordern, Spitzenwerte bei der feinmotorischen Geschicklichkeit

Konkrete technische Fähigkeiten

2D- und 3D-Objekterkennung
Pointing-Funktion (Zeigen/Anweisen)
Finden von Korrespondenzpunkten über mehrere Ansichten hinweg
Beherrscht Manipulation unter Nutzung vielfältiger visueller Informationen

Trainingsansatz und Vorteile

Statt des in der Industrie üblichen repetitiven Trainings für eine einzelne Aufgabe wurde ein breites Lernen über viele unterschiedliche Aufgaben gewählt
Dadurch zeigte sich Generalisierungsfähigkeit auf natürliche Weise
Auf verschiedene Robotertypen anwendbar
- Beispiele: ALOHA (für Forschung), Apollo von Apptronik (humanoider Roboter)

Unterstützung für verschiedene Robotik-Formfaktoren

Unterschiedliche Robotertypen führen verschiedenste Aufgaben aus, etwa Lunchboxen verpacken, Whiteboards wischen oder kleine Objekte greifen
Entscheidend ist, dass ein einziges Modell sich an mehrere Roboter anpassen kann

Ausblick

Es wird Nutzen in Industriebereichen erwartet, die Präzisionsarbeit verlangen oder in Umgebungen stattfinden, die für Menschen ungeeignet sind
Auch in menschenzentrierten Umgebungen wie dem Zuhause könnten sich hilfreiche Roboter entwickeln
Im Alltag könnten Roboter zu einer weiteren Schnittstelle zur KI werden

1 Kommentare

GN⁺ 2025-04-04

Hacker-News-Kommentare

Sie können das zwar, aber der Gemini Assistant auf Pixel-Smartphones scheitert immer noch daran, einen Timer zu setzen oder etwas zur Einkaufsliste hinzuzufügen. (Mit Google Assistant hat das gut funktioniert)
Es gibt überhaupt keine Erklärung zum „Wie“, aber wenn diese Funktion auch nur halbwegs zuverlässig arbeitet, wird sie etwa 100-mal so viel Einfluss haben wie ChatGPT
Die Fortschritte bei KI und Robotik sind äußerst spannend. Wegen komplexer Systeme wie Gemini werden Unternehmen wohl auf spezialisierte Teams angewiesen sein, um solche Innovationen umzusetzen
- Wenn man bestimmte Rollen wie KI-Forschung oder Robotikingenieure auslagert, können Unternehmen Spitzenkräfte gewinnen, ohne die Belastung durch Festanstellungen
- Es ist spannend zu sehen, wie Outsourcing Forschung und Entwicklung in fortschrittlichen Branchen wie der Robotik ergänzen kann
- Ich bin besonders neugierig, wie sich die Branche verändern wird, vor allem in Bezug auf Skalierbarkeit und Geschwindigkeit beim Markteintritt
Irgendwann wird wohl jemand bei der Hausarbeit helfen
- Ah, schön. Nur dass dahinter natürlich alles militärische Zwecke hat, aber ich finde den Versuch gut, uns glauben zu machen, dass sie unsere Wäsche zusammenlegen werden
„Heb den Basketball auf und mach einen Dunk.“ Der Killer-Use-Case, auf den wir so lange gewartet haben :)
Selbst wenn Googles Robotiktechnologie (Software und Hardware) State of the Art ist, frage ich mich, ob sie das tatsächlich zu einem Produkt machen können
- Das wirkt ähnlich wie damals, als sie bei Transformern vorne lagen, aber alle Vorteile an ChatGPT verloren haben
- Es scheint irgendetwas zu geben, das Google daran hindert, Forschung effektiv in Produkte zu überführen
- Waymo könnte ein gutes Gegenbeispiel sein, wenn man meint, dass es heute Product-Market-Fit erreicht hat, aber ich werde das Gefühl nicht los, dass Google Dinge meist entweder nicht auf den Markt bringt oder sie aufgibt, bevor sie sich etablieren
- Ich frage mich, ob jemand starke Meinungen oder Einsichten zu ihren Robotik-Bemühungen hat
Es ist beängstigend, an die Möglichkeit zu denken, dass solche Roboter eines Tages in der Rüstungsindustrie eingesetzt werden
- Wenn ein Roboter allgemeine Befehle wie „Räum den Radiergummi weg“ versteht, dann stell dir den Befehl „Beseitige alle Feinde“ vor
Nur aus Neugier: Was würde er tun, wenn man ihm befiehlt, jemanden zu töten? Würde er die Gesetze der Robotik befolgen?
Aprilscherz!

Wie Google das Gemini-Robotics-Modell entwickelt hat

Konkrete Tests und Bestätigung des Potenzials

Zentrale Merkmale von Gemini Robotics

Vorstellung der Modellvarianten

Konkrete technische Fähigkeiten

Trainingsansatz und Vorteile

Unterstützung für verschiedene Robotik-Formfaktoren

Ausblick

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare