Google DeepMind stellt Gemini Robotics vor

(deepmind.google)

4 Punkte von GN⁺ 2025-03-13 | 1 Kommentare | Auf WhatsApp teilen

Gemini 2.0 wird in die Robotik eingeführt; vorgestellt werden ein Vision-Language-Action-(VLA)-Modell und ein ER-Modell mit räumlichem Verständnis
Google DeepMind hat seine multimodalen Schlussfolgerungsfähigkeiten mit Text, Bildern, Audio und Video weiterentwickelt, um komplexe Probleme zu lösen
Diese Fähigkeiten waren bislang jedoch auf digitale Umgebungen beschränkt
Damit KI in der physischen Welt nützlich wird, braucht sie die Fähigkeit zum „embodied reasoning“, also die Umwelt wie ein Mensch zu verstehen und darauf zu reagieren sowie Aufgaben sicher auszuführen
Entsprechend wurden zwei neue Modelle vorgestellt
- Gemini Robotics: ein auf Gemini 2.0 basierendes Vision-Language-Action-(VLA)-Modell, das Roboter direkt steuern kann
- Gemini Robotics-ER: ein Modell mit verbessertem räumlichem Verständnis und erweiterten Fähigkeiten zur Robotersteuerung
In Zusammenarbeit mit Apptronik wird an der nächsten Generation humanoider Roboter gearbeitet
Gemeinsam mit einer kleinen Zahl vertrauenswürdiger Testnutzer wird die Modellleistung weiter verbessert

Gemini Robotics: das fortschrittlichste Vision-Language-Action-Modell

1. Generalisierungsfähigkeit (Generality)

Kann sich auch an neue Situationen anpassen und verschiedene Aufgaben ausführen
Zeigt starke Leistung bei neuen Objekten, Anweisungen und Umgebungen
Laut technischem Bericht ist die Generalisierungsleistung im Vergleich zu bestehenden VLA-Modellen um mehr als das Doppelte verbessert

2. Interaktionsfähigkeit (Interactivity)

Kann natürlichsprachliche Anweisungen verstehen und darauf reagieren
Reagiert auf verschiedene Sprachen und alltagssprachliche Befehle
Kann in Echtzeit auf Veränderungen in der Umgebung reagieren und sein Verhalten anpassen
Selbst wenn ein Objekt aus der Hand rutscht oder seine Position wechselt, kann das System sofort neu planen und die Aufgabe fortsetzen

3. Geschicklichkeit (Dexterity)

Verbesserte Fähigkeit zur Ausführung feinmotorischer Aufgaben
Kann komplexe mehrstufige Aufgaben ausführen (z. B. Origami falten oder Snacks in einen Zipper-Beutel füllen)

4. Für verschiedene Robotertypen einsetzbar (Multiple embodiments)

Lässt sich leicht auf unterschiedliche Roboterausführungen anwenden
Funktioniert nachweislich auf ALOHA 2, Franka-basierten Robotern und dem humanoiden Apollo-Roboter

Gemini Robotics-ER: verstärkte räumliche Verständnisfähigkeiten

Die Fähigkeiten von Gemini 2.0 bei räumlicher Wahrnehmung und 3D-Erkennung wurden deutlich verbessert
Der Roboter kann die Position von Objekten erkennen und sie auf geeignete Weise manipulieren
In Kombination mit Code-Generierungsfähigkeiten kann der Roboter neue Vorgehensweisen für Aufgaben spontan erzeugen
Die Erfolgsrate ist im Vergleich zu Gemini 2.0 um das 2- bis 3-Fache verbessert
Beispiel aus der Demo: Der Roboter erkennt den Henkel einer Kaffeetasse, nähert sich über einen sicheren Pfad und hebt sie auf

Strategien zur Verbesserung der Sicherheit von KI und Robotern

Fokus auf die Lösung physischer Sicherheitsprobleme bei Robotern
Der Roboter führt klassische Sicherheitsmaßnahmen aus, etwa Kollisionsvermeidung, Begrenzung der Kontaktkraft und Aufrechterhaltung dynamischer Stabilität
Gemini Robotics-ER kann beurteilen, ob eine Aufgabe bei Sicherheitsbedenken ausgeführt werden sollte, und entsprechend reagieren
Neues ASIMOV-Dataset veröffentlicht → zur Bewertung und Verbesserung der Sicherheit von Roboterverhalten
Ethische Fragen werden in Zusammenarbeit mit internen Gremien für Verantwortung und Sicherheit sowie externen Experten behandelt

Wichtige Partner und weitere Pläne

Zusammenarbeit mit Apptronik bei der Entwicklung humanoider Roboter
Agile Robots, Agility Robots, Boston Dynamics und Enchanted Tools testen Gemini Robotics-ER
Künftig soll die Weiterentwicklung von KI- und Robotertechnologien kontinuierlich vorangetrieben werden

1 Kommentare

GN⁺ 2025-03-13

Hacker-News-Kommentare

Es gibt einen Link zu einer kompletten Playlist mit 20 Video-Demos auf YouTube
Ich frage mich, ob sich niemand daran erinnert, dass früher beeindruckende Demos von Google Gemini manipuliert waren
Ich hielt Asimovs Robotergesetze für ein interessantes Science-Fiction-Requisit, aber für weit von realem Computing entfernt
- Wie sich herausstellt, schrieb Asimov seiner Zeit voraus LLM-Prompts
Wenn die Müllsortierung einfacher und schneller wird, könnte das die Effizienz des Recyclings um das 100-Fache steigern
- Es gibt bereits Orte, die das so machen, aber es gibt viele einfache Aufgaben, mit denen Roboter die Welt verbessern können
Beeindruckend war die Szene am Ende des Hauptvideos, in der der Roboter einen Rundriemen auf eine Riemenscheibe aufzieht
- Vermutlich gibt es viele solcher Handlungen in den Trainingsdaten, aber es wirkte intuitiver als Hemdenfalten oder das Sortieren von Gegenständen
- Die Video-Autoplay-/Pause-/Scroll-Funktion auf der Seite scheint kaputt zu sein
Ich hätte gern ein Gerät, das als bidirektionaler Echtzeitübersetzer funktioniert
- Es wäre schön, dort leben zu können, ohne Zeit mit dem Lernen von Deutsch oder anderen Sprachen zu verschwenden
- Wenn man nur mit Englisch Essen bestellen und Behördengänge erledigen könnte, wäre das erstaunlich
Jeder wird in China einen Roboterarm bestellen, ihn in der Garage installieren und wie ein LLM per Text programmieren können
- Es ist Zeit, größer zu denken
Ich bin mir nicht sicher, ob das Video die tatsächliche Leistung zeigt oder Marketing ist, aber es ist beeindruckend
- Es erinnert an die Roboterarme aus Iron Man 1
Wenn Roboter geschickt genug werden, um Mahlzeiten zuzubereiten, wird das ein Wendepunkt für den Arbeitsmarkt sein
- Das aktuelle Modell ist noch nicht auf diesem Niveau, aber ich werde beobachten, ob große Investitionen in die Erzeugung synthetischer Daten in den nächsten Jahren in diese Nähe führen
Googles Problem ist, dass das Werbegeschäft so viel Gewinn abwirft, dass andere Produkte bedeutungslos wirken
- Was man durch Roboter lernt, wird man nutzen, um die Werbeeinnahmen zu steigern

Google DeepMind stellt Gemini Robotics vor

Gemini Robotics: das fortschrittlichste Vision-Language-Action-Modell

1. Generalisierungsfähigkeit (Generality)

2. Interaktionsfähigkeit (Interactivity)

3. Geschicklichkeit (Dexterity)

4. Für verschiedene Robotertypen einsetzbar (Multiple embodiments)

Gemini Robotics-ER: verstärkte räumliche Verständnisfähigkeiten

Strategien zur Verbesserung der Sicherheit von KI und Robotern

Wichtige Partner und weitere Pläne

Verwandte Links

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare