4 Punkte von GN⁺ 2025-03-13 | 1 Kommentare | Auf WhatsApp teilen
  • Gemini 2.0 wird in die Robotik eingeführt; vorgestellt werden ein Vision-Language-Action-(VLA)-Modell und ein ER-Modell mit räumlichem Verständnis
  • Google DeepMind hat seine multimodalen Schlussfolgerungsfähigkeiten mit Text, Bildern, Audio und Video weiterentwickelt, um komplexe Probleme zu lösen
  • Diese Fähigkeiten waren bislang jedoch auf digitale Umgebungen beschränkt
  • Damit KI in der physischen Welt nützlich wird, braucht sie die Fähigkeit zum „embodied reasoning“, also die Umwelt wie ein Mensch zu verstehen und darauf zu reagieren sowie Aufgaben sicher auszuführen
  • Entsprechend wurden zwei neue Modelle vorgestellt
    • Gemini Robotics: ein auf Gemini 2.0 basierendes Vision-Language-Action-(VLA)-Modell, das Roboter direkt steuern kann
    • Gemini Robotics-ER: ein Modell mit verbessertem räumlichem Verständnis und erweiterten Fähigkeiten zur Robotersteuerung
  • In Zusammenarbeit mit Apptronik wird an der nächsten Generation humanoider Roboter gearbeitet
  • Gemeinsam mit einer kleinen Zahl vertrauenswürdiger Testnutzer wird die Modellleistung weiter verbessert

Gemini Robotics: das fortschrittlichste Vision-Language-Action-Modell

1. Generalisierungsfähigkeit (Generality)

  • Kann sich auch an neue Situationen anpassen und verschiedene Aufgaben ausführen
  • Zeigt starke Leistung bei neuen Objekten, Anweisungen und Umgebungen
  • Laut technischem Bericht ist die Generalisierungsleistung im Vergleich zu bestehenden VLA-Modellen um mehr als das Doppelte verbessert

2. Interaktionsfähigkeit (Interactivity)

  • Kann natürlichsprachliche Anweisungen verstehen und darauf reagieren
  • Reagiert auf verschiedene Sprachen und alltagssprachliche Befehle
  • Kann in Echtzeit auf Veränderungen in der Umgebung reagieren und sein Verhalten anpassen
  • Selbst wenn ein Objekt aus der Hand rutscht oder seine Position wechselt, kann das System sofort neu planen und die Aufgabe fortsetzen

3. Geschicklichkeit (Dexterity)

  • Verbesserte Fähigkeit zur Ausführung feinmotorischer Aufgaben
  • Kann komplexe mehrstufige Aufgaben ausführen (z. B. Origami falten oder Snacks in einen Zipper-Beutel füllen)

4. Für verschiedene Robotertypen einsetzbar (Multiple embodiments)

  • Lässt sich leicht auf unterschiedliche Roboterausführungen anwenden
  • Funktioniert nachweislich auf ALOHA 2, Franka-basierten Robotern und dem humanoiden Apollo-Roboter

Gemini Robotics-ER: verstärkte räumliche Verständnisfähigkeiten

  • Die Fähigkeiten von Gemini 2.0 bei räumlicher Wahrnehmung und 3D-Erkennung wurden deutlich verbessert
  • Der Roboter kann die Position von Objekten erkennen und sie auf geeignete Weise manipulieren
  • In Kombination mit Code-Generierungsfähigkeiten kann der Roboter neue Vorgehensweisen für Aufgaben spontan erzeugen
  • Die Erfolgsrate ist im Vergleich zu Gemini 2.0 um das 2- bis 3-Fache verbessert
  • Beispiel aus der Demo: Der Roboter erkennt den Henkel einer Kaffeetasse, nähert sich über einen sicheren Pfad und hebt sie auf

Strategien zur Verbesserung der Sicherheit von KI und Robotern

  • Fokus auf die Lösung physischer Sicherheitsprobleme bei Robotern
  • Der Roboter führt klassische Sicherheitsmaßnahmen aus, etwa Kollisionsvermeidung, Begrenzung der Kontaktkraft und Aufrechterhaltung dynamischer Stabilität
  • Gemini Robotics-ER kann beurteilen, ob eine Aufgabe bei Sicherheitsbedenken ausgeführt werden sollte, und entsprechend reagieren
  • Neues ASIMOV-Dataset veröffentlicht → zur Bewertung und Verbesserung der Sicherheit von Roboterverhalten
  • Ethische Fragen werden in Zusammenarbeit mit internen Gremien für Verantwortung und Sicherheit sowie externen Experten behandelt

Wichtige Partner und weitere Pläne

  • Zusammenarbeit mit Apptronik bei der Entwicklung humanoider Roboter
  • Agile Robots, Agility Robots, Boston Dynamics und Enchanted Tools testen Gemini Robotics-ER
  • Künftig soll die Weiterentwicklung von KI- und Robotertechnologien kontinuierlich vorangetrieben werden

Verwandte Links

1 Kommentare

 
GN⁺ 2025-03-13
Hacker-News-Kommentare
  • Es gibt einen Link zu einer kompletten Playlist mit 20 Video-Demos auf YouTube
  • Ich frage mich, ob sich niemand daran erinnert, dass früher beeindruckende Demos von Google Gemini manipuliert waren
  • Ich hielt Asimovs Robotergesetze für ein interessantes Science-Fiction-Requisit, aber für weit von realem Computing entfernt
    • Wie sich herausstellt, schrieb Asimov seiner Zeit voraus LLM-Prompts
  • Wenn die Müllsortierung einfacher und schneller wird, könnte das die Effizienz des Recyclings um das 100-Fache steigern
    • Es gibt bereits Orte, die das so machen, aber es gibt viele einfache Aufgaben, mit denen Roboter die Welt verbessern können
  • Beeindruckend war die Szene am Ende des Hauptvideos, in der der Roboter einen Rundriemen auf eine Riemenscheibe aufzieht
    • Vermutlich gibt es viele solcher Handlungen in den Trainingsdaten, aber es wirkte intuitiver als Hemdenfalten oder das Sortieren von Gegenständen
    • Die Video-Autoplay-/Pause-/Scroll-Funktion auf der Seite scheint kaputt zu sein
  • Ich hätte gern ein Gerät, das als bidirektionaler Echtzeitübersetzer funktioniert
    • Es wäre schön, dort leben zu können, ohne Zeit mit dem Lernen von Deutsch oder anderen Sprachen zu verschwenden
    • Wenn man nur mit Englisch Essen bestellen und Behördengänge erledigen könnte, wäre das erstaunlich
  • Jeder wird in China einen Roboterarm bestellen, ihn in der Garage installieren und wie ein LLM per Text programmieren können
    • Es ist Zeit, größer zu denken
  • Ich bin mir nicht sicher, ob das Video die tatsächliche Leistung zeigt oder Marketing ist, aber es ist beeindruckend
    • Es erinnert an die Roboterarme aus Iron Man 1
  • Wenn Roboter geschickt genug werden, um Mahlzeiten zuzubereiten, wird das ein Wendepunkt für den Arbeitsmarkt sein
    • Das aktuelle Modell ist noch nicht auf diesem Niveau, aber ich werde beobachten, ob große Investitionen in die Erzeugung synthetischer Daten in den nächsten Jahren in diese Nähe führen
  • Googles Problem ist, dass das Werbegeschäft so viel Gewinn abwirft, dass andere Produkte bedeutungslos wirken
    • Was man durch Roboter lernt, wird man nutzen, um die Werbeeinnahmen zu steigern