Gemini Robotics-ER 1.6: Verbesserte verkörperte Schlussfolgerung
(deepmind.google)- Ein Modell für verbesserte verkörperte Schlussfolgerung (embodied reasoning), das dafür entwickelt wurde, dass Roboter ihre physische Umgebung präzise verstehen und autonom handeln können, mit deutlich verstärkten Fähigkeiten in räumlicher Schlussfolgerung und Aufgabenplanung
- Führt hochrangige Entscheidungsfunktionen von Robotern aus, darunter visuelles und räumliches Verständnis, Erfolgserkennung und Multi-View-Schlussfolgerung, und verarbeitet komplexe Aufgaben direkt über Google Search oder externe Funktionsaufrufe
- Mit der Funktion Pointing führt es vielfältige räumliche Logik aus, darunter Objekterkennung, Vergleiche und Wegschätzung, reduziert Halluzinationsfehler gegenüber der vorherigen Version und verbessert die Erkennungsgenauigkeit
- Neu eingeführt wurde die Funktion Instrument Reading, mit der der Roboter Spot von Boston Dynamics Thermometer, Druckmesser und andere Instrumente in Industrieanlagen präzise interpretieren kann
- Kennzeichnend sind die verbesserte Einhaltung von Sicherheitsrichtlinien und die Zusammenarbeit mit der Community, wodurch Autonomie und Zuverlässigkeit in realen Umgebungen erhöht werden
Überblick über Gemini Robotics-ER 1.6
- Gemini Robotics-ER 1.6 ist ein Modell für verbesserte verkörperte Schlussfolgerung, das dafür entwickelt wurde, dass Roboter ihre physische Umgebung präzise verstehen und autonom handeln können
- Es stärkt für Roboter essenzielle hochrangige Schlussfolgerungsfähigkeiten wie räumliche Schlussfolgerung, Multi-View-Verständnis, Aufgabenplanung und Erfolgserkennung
- Kann verschiedene Werkzeuge wie Google Search, Vision-Language-Action-(VLA)-Modelle und externe benutzerdefinierte Funktionen direkt aufrufen, um Aufgaben auszuführen
- Im Vergleich zu Gemini Robotics-ER 1.5 und Gemini 3.0 Flash deutliche Leistungssteigerungen bei räumlicher und physischer Schlussfolgerung (Pointing, Counting, Erfolgserkennung)
- Neu hinzugefügte Funktion Instrument Reading, entwickelt in Zusammenarbeit mit Boston Dynamics
Hauptfunktionen und Leistungsverbesserungen
- Gemini Robotics-ER 1.6 wird Entwicklern über die Gemini API und Google AI Studio bereitgestellt
- Colab-Beispiele auf GitHub zeigen, wie das Modell eingerichtet und Prompts für Aufgaben der verkörperten Schlussfolgerung erstellt werden
- Das Modell fungiert als übergeordnete Schlussfolgerungs-Engine für hochrangige Entscheidungen von Robotern wie visuelles und räumliches Verständnis, Aufgabenplanung und Erfolgserkennung
- Durch den Einsatz von agentic vision kombiniert es visuelle Schlussfolgerung mit Code-Ausführung und erreicht auch in komplexen physischen Umgebungen hohe Genauigkeit
Pointing: Grundlage räumlicher Schlussfolgerung
- Pointing ist eine Kernfunktion des Modells für verkörperte Schlussfolgerung und wird für vielfältige räumliche Logik wie Objekterkennung, Vergleiche und Wegschätzung genutzt
- Räumliche Schlussfolgerung: präzise Objekterkennung und Zählen
- Relationale Logik: Identifizierung des kleinsten Elements in einer Menge, Definition von Beziehungen wie „Bewege X an die Position von Y“
- Bewegungsschlussfolgerung: Trajektorien-Mapping und Identifizierung optimaler Greifpunkte
- Einhaltung von Einschränkungen: Verarbeitung komplexer Anweisungen wie „Zeige auf alle Objekte, die klein genug sind, um in die blaue Tasse zu passen“
- Gemini Robotics-ER 1.6 nutzt Pointing als Zwischenschritt, um komplexe Aufgaben schrittweise zu lösen
- Beispiele: Zählen von Objekten in einem Bild, Identifizierung wichtiger Punkte für mathematische Berechnungen
- Experimentelle Ergebnisse zeigen, dass 1.6 Hammer, Schere, Pinsel, Zange und weitere Objekte präzise identifiziert und nicht auf nicht vorhandene Objekte (z. B. Schubkarre, Bohrmaschine) zeigt
- 1.5 erkannte einige Objekte fälschlich oder halluzinierte nicht vorhandene Objekte
- 3.0 Flash zeigt eine ähnliche Leistung, ist aber bei der Erkennung von Zangen weniger präzise
Erfolgserkennung: Der Kernmotor der Autonomie
- Die Fähigkeit eines Roboters, den Zeitpunkt des Aufgabenabschlusses zu erkennen, ist ein zentrales Element der Autonomie
- Gemini Robotics-ER 1.6 verbessert die Multi-View-Schlussfolgerung und versteht Beziehungen zwischen mehreren Kamerafeeds
- Ermöglicht konsistente Szeneninterpretation auch in komplexen Umgebungen, bei Verdeckungen (occlusion), Beleuchtungsproblemen und mehrdeutigen Anweisungen
- Beispiel: Es beurteilt anhand von Videos aus mehreren Perspektiven präzise, wann die Aufgabe „Lege den blauen Stift in den schwarzen Stifthalter“ abgeschlossen ist
Instrument Reading: Visuelle Schlussfolgerung in realen Umgebungen
- Eine Funktion zur Interpretation von Instrumenten in Industrieanlagen wie Thermometern, Druckanzeigen und Schaugläsern
- Der Spot-Roboter von Boston Dynamics fotografiert Instrumente in der Anlage, und Gemini Robotics-ER 1.6 interpretiert sie
- Unterstützt das Ablesen verschiedenster Instrumenttypen, darunter runde Druckanzeigen, vertikale Füllstandsanzeigen und digitale Messgeräte
- Der Ableseprozess interpretiert komplexe visuelle Elemente integriert, darunter Flüssigkeitsstand, Skalen, Einheitentext und mehrere Zeiger
- Bei Schaugläsern wird die Flüssigkeitshöhe unter Berücksichtigung von Kameraverzerrungen geschätzt
- Durch agentic vision führt es Zoom, Pointing und Code-Ausführung schrittweise aus und erreicht präzise Ablesungen auf Sub-Tick-Niveau
- Marco da Silva, Vice President bei Boston Dynamics, sagte, dass diese Funktion Spot in die Lage versetze, Probleme in der realen Welt vollständig autonom zu erkennen und darauf zu reagieren
Verbesserte Sicherheit
- Gemini Robotics-ER 1.6 wird als sicherstes Robotikmodell bewertet
- Die Einhaltungsrate der Gemini-Sicherheitsrichtlinien ist höher als bei früheren Generationen
- Verbesserte Fähigkeit zur Einhaltung physischer Sicherheitsbeschränkungen
- Beispiel: Einschränkungen wie „Keine Flüssigkeiten handhaben“ oder „Keine Objekte über 20 kg heben“ werden bereits in der Phase der räumlichen Ausgabe (Pointing) berücksichtigt
- In Tests zur Erkennung von Text- und Video-Sicherheitsszenarien, die auf realen Unfallberichten basieren,
- Verbesserung gegenüber Gemini 3.0 Flash um +6 % bei Text und +10 % bei Video
- In der Bewertung Safety Instruction Following deutliche Verbesserungen gegenüber 1.5, ebenso bei der Pointing-Genauigkeit
Zusammenarbeit mit der Robotik-Community
- Google DeepMind treibt die Zusammenarbeit mit der Robotik-Community voran, um die Fähigkeiten von Gemini Robotics-ER kontinuierlich zu verbessern
- Wenn es in bestimmten Anwendungsbereichen Einschränkungen gibt, wird darum gebeten, Fehlfälle zu teilen, indem 10 bis 50 gelabelte Bilder eingereicht werden
- Ziel ist es, in künftigen Releases die Robustheit der Schlussfolgerungsfähigkeiten zu stärken
- Gemini Robotics-ER 1.6 kann sofort in Google AI Studio ausprobiert werden
1 Kommentare
Hacker-News-Kommentare
Es fühlt sich an, als kämen wir dem Punkt immer näher, an dem menschliches oder tierisches Verhalten nachgeahmt werden kann
Wenn man auf generative Modelle ein Orchestrierungsmuster setzen könnte, das wie ein Gehirn arbeitet, dann ließe sich bei ausreichend hoher Inferenzgeschwindigkeit vermutlich viel mehr damit machen
Zum Beispiel ist das Generieren und Ausführen eines Python-Skripts zum Ablesen eines Messgeräts heute noch langsam, aber wenn es 100- bis 1000-mal schneller würde, könnte das Modell Fotos aufnehmen, die Zukunft simulieren und eine Schleife zur eigenständigen Entscheidungsfindung bilden
Das verwendete Modell ist zwar ein altes Llama und daher qualitativ schwächer, aber wenn sich das skalieren lässt, wäre das wirklich beeindruckend
Ich denke, es ist letztlich nur eine Frage der Zeit
Menschen sind ein evolutionäres Produkt aus Jagd und Werkzeugbau, während sich reale Industrieautomatisierung nicht humanoid, sondern in praktischen Formen wie R2D2 entwickelt hat
Bei Haushaltsrobotern dürfte es eher in diese Richtung gehen
slop²herauskommtDie Vorstellung: ein Stück Land, dazu Roboterbeine, -arme, Batterien, GPUs und Solarpanels vorbereiten
und dann per Prompt sagen: „Verwalte dieses Land und baue Gemüse an“
Japans Satoyama, afrikanische Fruchtwechselwirtschaft oder russische Konturlandwirtschaft zeigen ebenfalls, dass es je nach Region eigene Methoden gab
Betont wird letztlich, dass die Pflege von Land von Regionalität und Zielen abhängt
Google und Boston Dynamics entwickeln das Modell gemeinsam,
und inzwischen versucht Hyundai nach der Übernahme von Boston Dynamics, Roboter in der Fabrikautomatisierung einzusetzen
Ich dachte, es wäre nützlich, Software zu haben, die ein Druckmessgerät mit einer Kamera aufnimmt und als Graph protokolliert
Ich frage mich, ob es so etwas für Verbraucher gibt
Ich bin nicht sicher, ob es der richtige Ansatz ist, analoge Instrumente von Robotern ablesen zu lassen
Wäre es nicht besser, sie einfach durch digitale Sensoren zu ersetzen?
Ein einfacher Vergleich ist schwierig, und man unterschätzt leicht die Komplexität solcher Änderungen
Das Prinzip „Wenn es nicht kaputt ist, repariere es nicht“ gilt hier
Wenn ich das mit meinem System „LLMs can control robots over MCP“ verbinde, wäre es perfekt
Da LLMs gut Code schreiben, möchte ich diese Fähigkeit dafür nutzen
Ich will es mit dem neu gekauften großen Roboter testen
Zugehöriger Post
Dort wurden ein Robotersteuerungsmodell und ein LLM über eine Attention-Layer gekoppelt
Am neugierigsten war ich auf die Latenz
Bei manchen Erkennungsaufgaben ist es besser als Frontier-Vision-Modelle, aber für Robotik ist Leistung im Hz-Bereich entscheidend
Vermutlich ist es eher langsam
Es „denkt“ nur ein paar Sekunden nach und liefert dann ein Ergebnis
Beim Zählen von Tierbeinen oder dem Ablesen analoger Uhren war das Verhältnis von Effizienz zu Leistung sehr hoch
Die Formulierung „das sicherste Robotermodell“ ist interessant
Gemini Robotics-ER 1.6 hält Sicherheitsrichtlinien besser ein als die vorherige Generation,
ist aber noch immer nicht vollständig marktreif, und ein Ansatz, der Sicherheit als Zielgröße verfolgt, wirkt realistisch
Für Robotik könnte es intern KI-Modelle auf dem Niveau von GPT-2 oder GPT-3 geben,
aber Fehlschläge in Alltagsumgebungen wären so gravierend, dass man sie schwer öffentlich machen kann
Wenn zum Beispiel in der Spülmaschine auch nur ein Teller zerbricht, würde das als großes Problem gelten
Das war ein guter Film für den aktuellen Zeitpunkt
Die frühen Roomba-Modelle waren oft chaotisch, wurden vom Markt aber trotzdem akzeptiert und haben sich dann verbessert
Ich denke, es ist wichtig, auch ohne Perfektion zuerst in den Markt zu gehen und Daten zu sammeln
Ein perfektes System gibt es nicht
Wenn ein Roboter besser ist als das, wäre das bereits eine Verbesserung
Zu behaupten, man habe bereits Modelle auf GPT-Niveau, erscheint mir unehrlich
Ich überlege, ob ich das aktuelle Modell weiterverwenden sollte,
bis Google Gemini Flash 3.1 offiziell veröffentlicht