Gemini Robotics-ER 1.6: Verbesserte verkörperte Schlussfolgerung

(deepmind.google)

1 Punkte von GN⁺ 14 일 전 | 1 Kommentare | Auf WhatsApp teilen

Ein Modell für verbesserte verkörperte Schlussfolgerung (embodied reasoning), das dafür entwickelt wurde, dass Roboter ihre physische Umgebung präzise verstehen und autonom handeln können, mit deutlich verstärkten Fähigkeiten in räumlicher Schlussfolgerung und Aufgabenplanung
Führt hochrangige Entscheidungsfunktionen von Robotern aus, darunter visuelles und räumliches Verständnis, Erfolgserkennung und Multi-View-Schlussfolgerung, und verarbeitet komplexe Aufgaben direkt über Google Search oder externe Funktionsaufrufe
Mit der Funktion Pointing führt es vielfältige räumliche Logik aus, darunter Objekterkennung, Vergleiche und Wegschätzung, reduziert Halluzinationsfehler gegenüber der vorherigen Version und verbessert die Erkennungsgenauigkeit
Neu eingeführt wurde die Funktion Instrument Reading, mit der der Roboter Spot von Boston Dynamics Thermometer, Druckmesser und andere Instrumente in Industrieanlagen präzise interpretieren kann
Kennzeichnend sind die verbesserte Einhaltung von Sicherheitsrichtlinien und die Zusammenarbeit mit der Community, wodurch Autonomie und Zuverlässigkeit in realen Umgebungen erhöht werden

Überblick über Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 ist ein Modell für verbesserte verkörperte Schlussfolgerung, das dafür entwickelt wurde, dass Roboter ihre physische Umgebung präzise verstehen und autonom handeln können
Es stärkt für Roboter essenzielle hochrangige Schlussfolgerungsfähigkeiten wie räumliche Schlussfolgerung, Multi-View-Verständnis, Aufgabenplanung und Erfolgserkennung
Kann verschiedene Werkzeuge wie Google Search, Vision-Language-Action-(VLA)-Modelle und externe benutzerdefinierte Funktionen direkt aufrufen, um Aufgaben auszuführen
Im Vergleich zu Gemini Robotics-ER 1.5 und Gemini 3.0 Flash deutliche Leistungssteigerungen bei räumlicher und physischer Schlussfolgerung (Pointing, Counting, Erfolgserkennung)
Neu hinzugefügte Funktion Instrument Reading, entwickelt in Zusammenarbeit mit Boston Dynamics

Hauptfunktionen und Leistungsverbesserungen

Gemini Robotics-ER 1.6 wird Entwicklern über die Gemini API und Google AI Studio bereitgestellt
- Colab-Beispiele auf GitHub zeigen, wie das Modell eingerichtet und Prompts für Aufgaben der verkörperten Schlussfolgerung erstellt werden
Das Modell fungiert als übergeordnete Schlussfolgerungs-Engine für hochrangige Entscheidungen von Robotern wie visuelles und räumliches Verständnis, Aufgabenplanung und Erfolgserkennung
Durch den Einsatz von agentic vision kombiniert es visuelle Schlussfolgerung mit Code-Ausführung und erreicht auch in komplexen physischen Umgebungen hohe Genauigkeit

Pointing: Grundlage räumlicher Schlussfolgerung

Pointing ist eine Kernfunktion des Modells für verkörperte Schlussfolgerung und wird für vielfältige räumliche Logik wie Objekterkennung, Vergleiche und Wegschätzung genutzt
- Räumliche Schlussfolgerung: präzise Objekterkennung und Zählen
- Relationale Logik: Identifizierung des kleinsten Elements in einer Menge, Definition von Beziehungen wie „Bewege X an die Position von Y“
- Bewegungsschlussfolgerung: Trajektorien-Mapping und Identifizierung optimaler Greifpunkte
- Einhaltung von Einschränkungen: Verarbeitung komplexer Anweisungen wie „Zeige auf alle Objekte, die klein genug sind, um in die blaue Tasse zu passen“
Gemini Robotics-ER 1.6 nutzt Pointing als Zwischenschritt, um komplexe Aufgaben schrittweise zu lösen
- Beispiele: Zählen von Objekten in einem Bild, Identifizierung wichtiger Punkte für mathematische Berechnungen
Experimentelle Ergebnisse zeigen, dass 1.6 Hammer, Schere, Pinsel, Zange und weitere Objekte präzise identifiziert und nicht auf nicht vorhandene Objekte (z. B. Schubkarre, Bohrmaschine) zeigt
- 1.5 erkannte einige Objekte fälschlich oder halluzinierte nicht vorhandene Objekte
- 3.0 Flash zeigt eine ähnliche Leistung, ist aber bei der Erkennung von Zangen weniger präzise

Erfolgserkennung: Der Kernmotor der Autonomie

Die Fähigkeit eines Roboters, den Zeitpunkt des Aufgabenabschlusses zu erkennen, ist ein zentrales Element der Autonomie
Gemini Robotics-ER 1.6 verbessert die Multi-View-Schlussfolgerung und versteht Beziehungen zwischen mehreren Kamerafeeds
- Ermöglicht konsistente Szeneninterpretation auch in komplexen Umgebungen, bei Verdeckungen (occlusion), Beleuchtungsproblemen und mehrdeutigen Anweisungen
- Beispiel: Es beurteilt anhand von Videos aus mehreren Perspektiven präzise, wann die Aufgabe „Lege den blauen Stift in den schwarzen Stifthalter“ abgeschlossen ist

Instrument Reading: Visuelle Schlussfolgerung in realen Umgebungen

Eine Funktion zur Interpretation von Instrumenten in Industrieanlagen wie Thermometern, Druckanzeigen und Schaugläsern
- Der Spot-Roboter von Boston Dynamics fotografiert Instrumente in der Anlage, und Gemini Robotics-ER 1.6 interpretiert sie
Unterstützt das Ablesen verschiedenster Instrumenttypen, darunter runde Druckanzeigen, vertikale Füllstandsanzeigen und digitale Messgeräte
Der Ableseprozess interpretiert komplexe visuelle Elemente integriert, darunter Flüssigkeitsstand, Skalen, Einheitentext und mehrere Zeiger
- Bei Schaugläsern wird die Flüssigkeitshöhe unter Berücksichtigung von Kameraverzerrungen geschätzt
Durch agentic vision führt es Zoom, Pointing und Code-Ausführung schrittweise aus und erreicht präzise Ablesungen auf Sub-Tick-Niveau
Marco da Silva, Vice President bei Boston Dynamics, sagte, dass diese Funktion Spot in die Lage versetze, Probleme in der realen Welt vollständig autonom zu erkennen und darauf zu reagieren

Verbesserte Sicherheit

Gemini Robotics-ER 1.6 wird als sicherstes Robotikmodell bewertet
- Die Einhaltungsrate der Gemini-Sicherheitsrichtlinien ist höher als bei früheren Generationen
Verbesserte Fähigkeit zur Einhaltung physischer Sicherheitsbeschränkungen
- Beispiel: Einschränkungen wie „Keine Flüssigkeiten handhaben“ oder „Keine Objekte über 20 kg heben“ werden bereits in der Phase der räumlichen Ausgabe (Pointing) berücksichtigt
In Tests zur Erkennung von Text- und Video-Sicherheitsszenarien, die auf realen Unfallberichten basieren,
- Verbesserung gegenüber Gemini 3.0 Flash um +6 % bei Text und +10 % bei Video
In der Bewertung Safety Instruction Following deutliche Verbesserungen gegenüber 1.5, ebenso bei der Pointing-Genauigkeit

Zusammenarbeit mit der Robotik-Community

Google DeepMind treibt die Zusammenarbeit mit der Robotik-Community voran, um die Fähigkeiten von Gemini Robotics-ER kontinuierlich zu verbessern
- Wenn es in bestimmten Anwendungsbereichen Einschränkungen gibt, wird darum gebeten, Fehlfälle zu teilen, indem 10 bis 50 gelabelte Bilder eingereicht werden
- Ziel ist es, in künftigen Releases die Robustheit der Schlussfolgerungsfähigkeiten zu stärken
Gemini Robotics-ER 1.6 kann sofort in Google AI Studio ausprobiert werden

1 Kommentare

GN⁺ 14 일 전

Hacker-News-Kommentare

Es fühlt sich an, als kämen wir dem Punkt immer näher, an dem menschliches oder tierisches Verhalten nachgeahmt werden kann
Wenn man auf generative Modelle ein Orchestrierungsmuster setzen könnte, das wie ein Gehirn arbeitet, dann ließe sich bei ausreichend hoher Inferenzgeschwindigkeit vermutlich viel mehr damit machen
Zum Beispiel ist das Generieren und Ausführen eines Python-Skripts zum Ablesen eines Messgeräts heute noch langsam, aber wenn es 100- bis 1000-mal schneller würde, könnte das Modell Fotos aufnehmen, die Zukunft simulieren und eine Schleife zur eigenständigen Entscheidungsfindung bilden
- Taalas experimentiert damit, Modelle direkt auf Chips einzubetten, um ultraschnelle Inferenz zu erreichen
  Das verwendete Modell ist zwar ein altes Llama und daher qualitativ schwächer, aber wenn sich das skalieren lässt, wäre das wirklich beeindruckend
- Taalas hat gezeigt, dass sich ein LLM in einen ASIC umwandeln lässt, der schnell mehr als 10.000 Tokens erzeugen kann
  Ich denke, es ist letztlich nur eine Frage der Zeit
- Ich frage mich, ob das Nachahmen menschlichen Verhaltens wirklich ein wertvolles Ziel ist
  Menschen sind ein evolutionäres Produkt aus Jagd und Werkzeugbau, während sich reale Industrieautomatisierung nicht humanoid, sondern in praktischen Formen wie R2D2 entwickelt hat
  Bei Haushaltsrobotern dürfte es eher in diese Richtung gehen
- Ein Witz darüber, was passiert, wenn man ein „Slop-Bild“ in eine „Slop-Maschine“ steckt und dann slop² herauskommt
Die Vorstellung: ein Stück Land, dazu Roboterbeine, -arme, Batterien, GPUs und Solarpanels vorbereiten
und dann per Prompt sagen: „Verwalte dieses Land und baue Gemüse an“
- Was dabei herauskommt, ist noch offen, aber der traditionelle Prompt lautete: „Seid fruchtbar und mehret euch“
- „Verwalte dieses Land“ könnte auch kontrollierte Kleinfeuer bedeuten, wie sie indigene Kalifornier über Tausende Jahre eingesetzt haben
  Japans Satoyama, afrikanische Fruchtwechselwirtschaft oder russische Konturlandwirtschaft zeigen ebenfalls, dass es je nach Region eigene Methoden gab
  Betont wird letztlich, dass die Pflege von Land von Regionalität und Zielen abhängt
- Ich frage mich, wie Experimente wie Proof of Corn tatsächlich laufen
- Ein Witz: „Geschafft! Jetzt ist die ganze Erde ein Gemüsegarten“
Google und Boston Dynamics entwickeln das Modell gemeinsam,
und inzwischen versucht Hyundai nach der Übernahme von Boston Dynamics, Roboter in der Fabrikautomatisierung einzusetzen
Ich dachte, es wäre nützlich, Software zu haben, die ein Druckmessgerät mit einer Kamera aufnimmt und als Graph protokolliert
Ich frage mich, ob es so etwas für Verbraucher gibt
- Wenn man Claude darum bittet, kann es das in einem Zug erstellen, inklusive Home-Assistant-Dashboard
- Ich frage mich, wie Behörden reagieren würden, wenn an den Zählern rund ums Haus Kameras angebracht wären
- Ein Blick auf OpenCV reicht dafür aus
- Mit Frigate oder Openclaw geht es auch, aber Ersteres ist Overkill und Letzteres etwas weniger Overkill
Ich bin nicht sicher, ob es der richtige Ansatz ist, analoge Instrumente von Robotern ablesen zu lassen
Wäre es nicht besser, sie einfach durch digitale Sensoren zu ersetzen?
- In der Praxis ist ein Austausch aber mit enormen Kosten und Prozessen verbunden: Engineering-Freigabe, Anlagenstillstand, Verkabelung, SCADA-Anbindung usw.
  Ein einfacher Vergleich ist schwierig, und man unterschätzt leicht die Komplexität solcher Änderungen
- Statt die Anlage anzuhalten und Teile auszutauschen, kann es viel günstiger und zuverlässiger sein, einfach eine IoT-Kamera zu installieren
  Das Prinzip „Wenn es nicht kaputt ist, repariere es nicht“ gilt hier
Wenn ich das mit meinem System „LLMs can control robots over MCP“ verbinde, wäre es perfekt
Da LLMs gut Code schreiben, möchte ich diese Fähigkeit dafür nutzen
Ich will es mit dem neu gekauften großen Roboter testen
Zugehöriger Post
- Das erinnert mich an ein Video zu Google PaLM-E, das ich vor etwa zwei Wochen gesehen habe
  Dort wurden ein Robotersteuerungsmodell und ein LLM über eine Attention-Layer gekoppelt
Am neugierigsten war ich auf die Latenz
Bei manchen Erkennungsaufgaben ist es besser als Frontier-Vision-Modelle, aber für Robotik ist Leistung im Hz-Bereich entscheidend
Vermutlich ist es eher langsam
- Beim Testen in AI Studio lag die Erkennungsleistung auf dem Niveau von 3.1 Pro, war aber deutlich schneller
  Es „denkt“ nur ein paar Sekunden nach und liefert dann ein Ergebnis
  Beim Zählen von Tierbeinen oder dem Ablesen analoger Uhren war das Verhältnis von Effizienz zu Leistung sehr hoch
Die Formulierung „das sicherste Robotermodell“ ist interessant
Gemini Robotics-ER 1.6 hält Sicherheitsrichtlinien besser ein als die vorherige Generation,
ist aber noch immer nicht vollständig marktreif, und ein Ansatz, der Sicherheit als Zielgröße verfolgt, wirkt realistisch
Für Robotik könnte es intern KI-Modelle auf dem Niveau von GPT-2 oder GPT-3 geben,
aber Fehlschläge in Alltagsumgebungen wären so gravierend, dass man sie schwer öffentlich machen kann
Wenn zum Beispiel in der Spülmaschine auch nur ein Teller zerbricht, würde das als großes Problem gelten
- Ich habe am Wochenende Bicentennial Man (1999) gesehen, und die Geschirrspüler-Szene ist mir im Gedächtnis geblieben
  Das war ein guter Film für den aktuellen Zeitpunkt
- Vielleicht ist ein zerbrochener Teller aber gar nicht so dramatisch
  Die frühen Roomba-Modelle waren oft chaotisch, wurden vom Markt aber trotzdem akzeptiert und haben sich dann verbessert
  Ich denke, es ist wichtig, auch ohne Perfektion zuerst in den Markt zu gehen und Daten zu sammeln
- Ich selbst habe auch schon oft Teller in der Spülmaschine zerbrochen
  Ein perfektes System gibt es nicht
- Auch ich als Mensch zerbreche ungefähr zweimal im Monat einen Teller
  Wenn ein Roboter besser ist als das, wäre das bereits eine Verbesserung
- In der Robotik fehlt es noch an Daten im Internet-Maßstab
  Zu behaupten, man habe bereits Modelle auf GPT-Niveau, erscheint mir unehrlich
Ich überlege, ob ich das aktuelle Modell weiterverwenden sollte,
bis Google Gemini Flash 3.1 offiziell veröffentlicht

Gemini Robotics-ER 1.6: Verbesserte verkörperte Schlussfolgerung

Überblick über Gemini Robotics-ER 1.6

Hauptfunktionen und Leistungsverbesserungen

Pointing: Grundlage räumlicher Schlussfolgerung

Erfolgserkennung: Der Kernmotor der Autonomie

Instrument Reading: Visuelle Schlussfolgerung in realen Umgebungen

Verbesserte Sicherheit

Zusammenarbeit mit der Robotik-Community

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare