Wie Google das Gemini-Robotics-Modell entwickelt hat
(blog.google)- Google DeepMind hat Gemini Robotics entwickelt, ein multimodales KI-Modell der nächsten Generation für Roboter, die physische Aufgaben ausführen können
- Das Modell ist eine mit roboterspezifischen Daten feinabgestimmte Version von Gemini 2.0, die nicht nur Text, Video und Audio verarbeiten, sondern auch reale Handlungen ausführen kann
- Der Roboter führt verschiedene Aufgaben aus, etwa Salat zubereiten, Tic-Tac-Toe spielen, Origami falten oder Lunchboxen verpacken
Konkrete Tests und Bestätigung des Potenzials
- Dem Forschungsroboter ALOHA mit zwei Armen wurden verschiedene Aufgaben gestellt
- Beispiele: einen Stift in einen Schuh stecken, einen Dunking mit einem Basketball ausführen
- Obwohl der Roboter weder die Objekte noch die Aufgaben zuvor gesehen hatte, verstand er die Aufforderungen und führte sie beim ersten Versuch erfolgreich aus
- Anders als bisherige Modelle kann er komplexe physische Anweisungen in natürlicher Sprache verstehen und ausführen
Zentrale Merkmale von Gemini Robotics
- Verfügt über hohe Flexibilität, Interaktionsfähigkeit und Generalisierungsvermögen
- Kann sich auch ohne zusätzliches Training an neue Objekte, Umgebungen und Anweisungen anpassen
- Schafft die Grundlage dafür, KI und Robotik als einen integrierten Agenten umzusetzen
- Bietet menschenähnliche Wahrnehmungs-, Entscheidungs- und Handlungsfähigkeiten
Vorstellung der Modellvarianten
-
Gemini Robotics-ER (Embodied Reasoning):
- Basierend auf Gemini 2.0 Flash
- Erkennt Objekte, bestimmt Positionen, sagt Bewegungsbahnen voraus, legt Greifparameter fest und generiert sowie führt darauf basierend Code aus
- Wird vertrauenswürdigen Testern und Partnern bereitgestellt
-
Gemini Robotics:
- Integriertes Vision-Language-Action-Modell
- Kann Szenen verstehen, mit Nutzern interagieren und mehrstufige Aufgaben ausführen
- Erzielt auch bei Aufgaben, die komplexe Manipulation und räumliches Schlussfolgern erfordern, Spitzenwerte bei der feinmotorischen Geschicklichkeit
Konkrete technische Fähigkeiten
- 2D- und 3D-Objekterkennung
- Pointing-Funktion (Zeigen/Anweisen)
- Finden von Korrespondenzpunkten über mehrere Ansichten hinweg
- Beherrscht Manipulation unter Nutzung vielfältiger visueller Informationen
Trainingsansatz und Vorteile
- Statt des in der Industrie üblichen repetitiven Trainings für eine einzelne Aufgabe wurde ein breites Lernen über viele unterschiedliche Aufgaben gewählt
- Dadurch zeigte sich Generalisierungsfähigkeit auf natürliche Weise
- Auf verschiedene Robotertypen anwendbar
- Beispiele: ALOHA (für Forschung), Apollo von Apptronik (humanoider Roboter)
Unterstützung für verschiedene Robotik-Formfaktoren
- Unterschiedliche Robotertypen führen verschiedenste Aufgaben aus, etwa Lunchboxen verpacken, Whiteboards wischen oder kleine Objekte greifen
- Entscheidend ist, dass ein einziges Modell sich an mehrere Roboter anpassen kann
Ausblick
- Es wird Nutzen in Industriebereichen erwartet, die Präzisionsarbeit verlangen oder in Umgebungen stattfinden, die für Menschen ungeeignet sind
- Auch in menschenzentrierten Umgebungen wie dem Zuhause könnten sich hilfreiche Roboter entwickeln
- Im Alltag könnten Roboter zu einer weiteren Schnittstelle zur KI werden
1 Kommentare
Hacker-News-Kommentare