- Gemini 2.0 wird in die Robotik eingeführt; vorgestellt werden ein Vision-Language-Action-(VLA)-Modell und ein ER-Modell mit räumlichem Verständnis
- Google DeepMind hat seine multimodalen Schlussfolgerungsfähigkeiten mit Text, Bildern, Audio und Video weiterentwickelt, um komplexe Probleme zu lösen
- Diese Fähigkeiten waren bislang jedoch auf digitale Umgebungen beschränkt
- Damit KI in der physischen Welt nützlich wird, braucht sie die Fähigkeit zum „embodied reasoning“, also die Umwelt wie ein Mensch zu verstehen und darauf zu reagieren sowie Aufgaben sicher auszuführen
- Entsprechend wurden zwei neue Modelle vorgestellt
- Gemini Robotics: ein auf Gemini 2.0 basierendes Vision-Language-Action-(VLA)-Modell, das Roboter direkt steuern kann
- Gemini Robotics-ER: ein Modell mit verbessertem räumlichem Verständnis und erweiterten Fähigkeiten zur Robotersteuerung
- In Zusammenarbeit mit Apptronik wird an der nächsten Generation humanoider Roboter gearbeitet
- Gemeinsam mit einer kleinen Zahl vertrauenswürdiger Testnutzer wird die Modellleistung weiter verbessert
Gemini Robotics: das fortschrittlichste Vision-Language-Action-Modell
1. Generalisierungsfähigkeit (Generality)
- Kann sich auch an neue Situationen anpassen und verschiedene Aufgaben ausführen
- Zeigt starke Leistung bei neuen Objekten, Anweisungen und Umgebungen
- Laut technischem Bericht ist die Generalisierungsleistung im Vergleich zu bestehenden VLA-Modellen um mehr als das Doppelte verbessert
2. Interaktionsfähigkeit (Interactivity)
- Kann natürlichsprachliche Anweisungen verstehen und darauf reagieren
- Reagiert auf verschiedene Sprachen und alltagssprachliche Befehle
- Kann in Echtzeit auf Veränderungen in der Umgebung reagieren und sein Verhalten anpassen
- Selbst wenn ein Objekt aus der Hand rutscht oder seine Position wechselt, kann das System sofort neu planen und die Aufgabe fortsetzen
3. Geschicklichkeit (Dexterity)
- Verbesserte Fähigkeit zur Ausführung feinmotorischer Aufgaben
- Kann komplexe mehrstufige Aufgaben ausführen (z. B. Origami falten oder Snacks in einen Zipper-Beutel füllen)
4. Für verschiedene Robotertypen einsetzbar (Multiple embodiments)
- Lässt sich leicht auf unterschiedliche Roboterausführungen anwenden
- Funktioniert nachweislich auf ALOHA 2, Franka-basierten Robotern und dem humanoiden Apollo-Roboter
Gemini Robotics-ER: verstärkte räumliche Verständnisfähigkeiten
- Die Fähigkeiten von Gemini 2.0 bei räumlicher Wahrnehmung und 3D-Erkennung wurden deutlich verbessert
- Der Roboter kann die Position von Objekten erkennen und sie auf geeignete Weise manipulieren
- In Kombination mit Code-Generierungsfähigkeiten kann der Roboter neue Vorgehensweisen für Aufgaben spontan erzeugen
- Die Erfolgsrate ist im Vergleich zu Gemini 2.0 um das 2- bis 3-Fache verbessert
- Beispiel aus der Demo: Der Roboter erkennt den Henkel einer Kaffeetasse, nähert sich über einen sicheren Pfad und hebt sie auf
Strategien zur Verbesserung der Sicherheit von KI und Robotern
- Fokus auf die Lösung physischer Sicherheitsprobleme bei Robotern
- Der Roboter führt klassische Sicherheitsmaßnahmen aus, etwa Kollisionsvermeidung, Begrenzung der Kontaktkraft und Aufrechterhaltung dynamischer Stabilität
- Gemini Robotics-ER kann beurteilen, ob eine Aufgabe bei Sicherheitsbedenken ausgeführt werden sollte, und entsprechend reagieren
- Neues ASIMOV-Dataset veröffentlicht → zur Bewertung und Verbesserung der Sicherheit von Roboterverhalten
- Ethische Fragen werden in Zusammenarbeit mit internen Gremien für Verantwortung und Sicherheit sowie externen Experten behandelt
Wichtige Partner und weitere Pläne
- Zusammenarbeit mit Apptronik bei der Entwicklung humanoider Roboter
- Agile Robots, Agility Robots, Boston Dynamics und Enchanted Tools testen Gemini Robotics-ER
- Künftig soll die Weiterentwicklung von KI- und Robotertechnologien kontinuierlich vorangetrieben werden
Verwandte Links
1 Kommentare
Hacker-News-Kommentare