1 Punkte von GN⁺ 14 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Modell für verbesserte verkörperte Schlussfolgerung (embodied reasoning), das dafür entwickelt wurde, dass Roboter ihre physische Umgebung präzise verstehen und autonom handeln können, mit deutlich verstärkten Fähigkeiten in räumlicher Schlussfolgerung und Aufgabenplanung
  • Führt hochrangige Entscheidungsfunktionen von Robotern aus, darunter visuelles und räumliches Verständnis, Erfolgserkennung und Multi-View-Schlussfolgerung, und verarbeitet komplexe Aufgaben direkt über Google Search oder externe Funktionsaufrufe
  • Mit der Funktion Pointing führt es vielfältige räumliche Logik aus, darunter Objekterkennung, Vergleiche und Wegschätzung, reduziert Halluzinationsfehler gegenüber der vorherigen Version und verbessert die Erkennungsgenauigkeit
  • Neu eingeführt wurde die Funktion Instrument Reading, mit der der Roboter Spot von Boston Dynamics Thermometer, Druckmesser und andere Instrumente in Industrieanlagen präzise interpretieren kann
  • Kennzeichnend sind die verbesserte Einhaltung von Sicherheitsrichtlinien und die Zusammenarbeit mit der Community, wodurch Autonomie und Zuverlässigkeit in realen Umgebungen erhöht werden

Überblick über Gemini Robotics-ER 1.6

  • Gemini Robotics-ER 1.6 ist ein Modell für verbesserte verkörperte Schlussfolgerung, das dafür entwickelt wurde, dass Roboter ihre physische Umgebung präzise verstehen und autonom handeln können
  • Es stärkt für Roboter essenzielle hochrangige Schlussfolgerungsfähigkeiten wie räumliche Schlussfolgerung, Multi-View-Verständnis, Aufgabenplanung und Erfolgserkennung
  • Kann verschiedene Werkzeuge wie Google Search, Vision-Language-Action-(VLA)-Modelle und externe benutzerdefinierte Funktionen direkt aufrufen, um Aufgaben auszuführen
  • Im Vergleich zu Gemini Robotics-ER 1.5 und Gemini 3.0 Flash deutliche Leistungssteigerungen bei räumlicher und physischer Schlussfolgerung (Pointing, Counting, Erfolgserkennung)
  • Neu hinzugefügte Funktion Instrument Reading, entwickelt in Zusammenarbeit mit Boston Dynamics

Hauptfunktionen und Leistungsverbesserungen

  • Gemini Robotics-ER 1.6 wird Entwicklern über die Gemini API und Google AI Studio bereitgestellt
    • Colab-Beispiele auf GitHub zeigen, wie das Modell eingerichtet und Prompts für Aufgaben der verkörperten Schlussfolgerung erstellt werden
  • Das Modell fungiert als übergeordnete Schlussfolgerungs-Engine für hochrangige Entscheidungen von Robotern wie visuelles und räumliches Verständnis, Aufgabenplanung und Erfolgserkennung
  • Durch den Einsatz von agentic vision kombiniert es visuelle Schlussfolgerung mit Code-Ausführung und erreicht auch in komplexen physischen Umgebungen hohe Genauigkeit

Pointing: Grundlage räumlicher Schlussfolgerung

  • Pointing ist eine Kernfunktion des Modells für verkörperte Schlussfolgerung und wird für vielfältige räumliche Logik wie Objekterkennung, Vergleiche und Wegschätzung genutzt
    • Räumliche Schlussfolgerung: präzise Objekterkennung und Zählen
    • Relationale Logik: Identifizierung des kleinsten Elements in einer Menge, Definition von Beziehungen wie „Bewege X an die Position von Y“
    • Bewegungsschlussfolgerung: Trajektorien-Mapping und Identifizierung optimaler Greifpunkte
    • Einhaltung von Einschränkungen: Verarbeitung komplexer Anweisungen wie „Zeige auf alle Objekte, die klein genug sind, um in die blaue Tasse zu passen“
  • Gemini Robotics-ER 1.6 nutzt Pointing als Zwischenschritt, um komplexe Aufgaben schrittweise zu lösen
    • Beispiele: Zählen von Objekten in einem Bild, Identifizierung wichtiger Punkte für mathematische Berechnungen
  • Experimentelle Ergebnisse zeigen, dass 1.6 Hammer, Schere, Pinsel, Zange und weitere Objekte präzise identifiziert und nicht auf nicht vorhandene Objekte (z. B. Schubkarre, Bohrmaschine) zeigt
    • 1.5 erkannte einige Objekte fälschlich oder halluzinierte nicht vorhandene Objekte
    • 3.0 Flash zeigt eine ähnliche Leistung, ist aber bei der Erkennung von Zangen weniger präzise

Erfolgserkennung: Der Kernmotor der Autonomie

  • Die Fähigkeit eines Roboters, den Zeitpunkt des Aufgabenabschlusses zu erkennen, ist ein zentrales Element der Autonomie
  • Gemini Robotics-ER 1.6 verbessert die Multi-View-Schlussfolgerung und versteht Beziehungen zwischen mehreren Kamerafeeds
    • Ermöglicht konsistente Szeneninterpretation auch in komplexen Umgebungen, bei Verdeckungen (occlusion), Beleuchtungsproblemen und mehrdeutigen Anweisungen
    • Beispiel: Es beurteilt anhand von Videos aus mehreren Perspektiven präzise, wann die Aufgabe „Lege den blauen Stift in den schwarzen Stifthalter“ abgeschlossen ist

Instrument Reading: Visuelle Schlussfolgerung in realen Umgebungen

  • Eine Funktion zur Interpretation von Instrumenten in Industrieanlagen wie Thermometern, Druckanzeigen und Schaugläsern
    • Der Spot-Roboter von Boston Dynamics fotografiert Instrumente in der Anlage, und Gemini Robotics-ER 1.6 interpretiert sie
  • Unterstützt das Ablesen verschiedenster Instrumenttypen, darunter runde Druckanzeigen, vertikale Füllstandsanzeigen und digitale Messgeräte
  • Der Ableseprozess interpretiert komplexe visuelle Elemente integriert, darunter Flüssigkeitsstand, Skalen, Einheitentext und mehrere Zeiger
    • Bei Schaugläsern wird die Flüssigkeitshöhe unter Berücksichtigung von Kameraverzerrungen geschätzt
  • Durch agentic vision führt es Zoom, Pointing und Code-Ausführung schrittweise aus und erreicht präzise Ablesungen auf Sub-Tick-Niveau
  • Marco da Silva, Vice President bei Boston Dynamics, sagte, dass diese Funktion Spot in die Lage versetze, Probleme in der realen Welt vollständig autonom zu erkennen und darauf zu reagieren

Verbesserte Sicherheit

  • Gemini Robotics-ER 1.6 wird als sicherstes Robotikmodell bewertet
    • Die Einhaltungsrate der Gemini-Sicherheitsrichtlinien ist höher als bei früheren Generationen
  • Verbesserte Fähigkeit zur Einhaltung physischer Sicherheitsbeschränkungen
    • Beispiel: Einschränkungen wie „Keine Flüssigkeiten handhaben“ oder „Keine Objekte über 20 kg heben“ werden bereits in der Phase der räumlichen Ausgabe (Pointing) berücksichtigt
  • In Tests zur Erkennung von Text- und Video-Sicherheitsszenarien, die auf realen Unfallberichten basieren,
    • Verbesserung gegenüber Gemini 3.0 Flash um +6 % bei Text und +10 % bei Video
  • In der Bewertung Safety Instruction Following deutliche Verbesserungen gegenüber 1.5, ebenso bei der Pointing-Genauigkeit

Zusammenarbeit mit der Robotik-Community

  • Google DeepMind treibt die Zusammenarbeit mit der Robotik-Community voran, um die Fähigkeiten von Gemini Robotics-ER kontinuierlich zu verbessern
    • Wenn es in bestimmten Anwendungsbereichen Einschränkungen gibt, wird darum gebeten, Fehlfälle zu teilen, indem 10 bis 50 gelabelte Bilder eingereicht werden
    • Ziel ist es, in künftigen Releases die Robustheit der Schlussfolgerungsfähigkeiten zu stärken
  • Gemini Robotics-ER 1.6 kann sofort in Google AI Studio ausprobiert werden

1 Kommentare

 
GN⁺ 14 일 전
Hacker-News-Kommentare
  • Es fühlt sich an, als kämen wir dem Punkt immer näher, an dem menschliches oder tierisches Verhalten nachgeahmt werden kann
    Wenn man auf generative Modelle ein Orchestrierungsmuster setzen könnte, das wie ein Gehirn arbeitet, dann ließe sich bei ausreichend hoher Inferenzgeschwindigkeit vermutlich viel mehr damit machen
    Zum Beispiel ist das Generieren und Ausführen eines Python-Skripts zum Ablesen eines Messgeräts heute noch langsam, aber wenn es 100- bis 1000-mal schneller würde, könnte das Modell Fotos aufnehmen, die Zukunft simulieren und eine Schleife zur eigenständigen Entscheidungsfindung bilden

    • Taalas experimentiert damit, Modelle direkt auf Chips einzubetten, um ultraschnelle Inferenz zu erreichen
      Das verwendete Modell ist zwar ein altes Llama und daher qualitativ schwächer, aber wenn sich das skalieren lässt, wäre das wirklich beeindruckend
    • Taalas hat gezeigt, dass sich ein LLM in einen ASIC umwandeln lässt, der schnell mehr als 10.000 Tokens erzeugen kann
      Ich denke, es ist letztlich nur eine Frage der Zeit
    • Ich frage mich, ob das Nachahmen menschlichen Verhaltens wirklich ein wertvolles Ziel ist
      Menschen sind ein evolutionäres Produkt aus Jagd und Werkzeugbau, während sich reale Industrieautomatisierung nicht humanoid, sondern in praktischen Formen wie R2D2 entwickelt hat
      Bei Haushaltsrobotern dürfte es eher in diese Richtung gehen
    • Ein Witz darüber, was passiert, wenn man ein „Slop-Bild“ in eine „Slop-Maschine“ steckt und dann slop² herauskommt
  • Die Vorstellung: ein Stück Land, dazu Roboterbeine, -arme, Batterien, GPUs und Solarpanels vorbereiten
    und dann per Prompt sagen: „Verwalte dieses Land und baue Gemüse an“

    • Was dabei herauskommt, ist noch offen, aber der traditionelle Prompt lautete: „Seid fruchtbar und mehret euch
    • „Verwalte dieses Land“ könnte auch kontrollierte Kleinfeuer bedeuten, wie sie indigene Kalifornier über Tausende Jahre eingesetzt haben
      Japans Satoyama, afrikanische Fruchtwechselwirtschaft oder russische Konturlandwirtschaft zeigen ebenfalls, dass es je nach Region eigene Methoden gab
      Betont wird letztlich, dass die Pflege von Land von Regionalität und Zielen abhängt
    • Ich frage mich, wie Experimente wie Proof of Corn tatsächlich laufen
    • Ein Witz: „Geschafft! Jetzt ist die ganze Erde ein Gemüsegarten“
  • Google und Boston Dynamics entwickeln das Modell gemeinsam,
    und inzwischen versucht Hyundai nach der Übernahme von Boston Dynamics, Roboter in der Fabrikautomatisierung einzusetzen

  • Ich dachte, es wäre nützlich, Software zu haben, die ein Druckmessgerät mit einer Kamera aufnimmt und als Graph protokolliert
    Ich frage mich, ob es so etwas für Verbraucher gibt

    • Wenn man Claude darum bittet, kann es das in einem Zug erstellen, inklusive Home-Assistant-Dashboard
    • Ich frage mich, wie Behörden reagieren würden, wenn an den Zählern rund ums Haus Kameras angebracht wären
    • Ein Blick auf OpenCV reicht dafür aus
    • Mit Frigate oder Openclaw geht es auch, aber Ersteres ist Overkill und Letzteres etwas weniger Overkill
  • Ich bin nicht sicher, ob es der richtige Ansatz ist, analoge Instrumente von Robotern ablesen zu lassen
    Wäre es nicht besser, sie einfach durch digitale Sensoren zu ersetzen?

    • In der Praxis ist ein Austausch aber mit enormen Kosten und Prozessen verbunden: Engineering-Freigabe, Anlagenstillstand, Verkabelung, SCADA-Anbindung usw.
      Ein einfacher Vergleich ist schwierig, und man unterschätzt leicht die Komplexität solcher Änderungen
    • Statt die Anlage anzuhalten und Teile auszutauschen, kann es viel günstiger und zuverlässiger sein, einfach eine IoT-Kamera zu installieren
      Das Prinzip „Wenn es nicht kaputt ist, repariere es nicht“ gilt hier
  • Wenn ich das mit meinem System „LLMs can control robots over MCP“ verbinde, wäre es perfekt
    Da LLMs gut Code schreiben, möchte ich diese Fähigkeit dafür nutzen
    Ich will es mit dem neu gekauften großen Roboter testen
    Zugehöriger Post

    • Das erinnert mich an ein Video zu Google PaLM-E, das ich vor etwa zwei Wochen gesehen habe
      Dort wurden ein Robotersteuerungsmodell und ein LLM über eine Attention-Layer gekoppelt
  • Am neugierigsten war ich auf die Latenz
    Bei manchen Erkennungsaufgaben ist es besser als Frontier-Vision-Modelle, aber für Robotik ist Leistung im Hz-Bereich entscheidend
    Vermutlich ist es eher langsam

    • Beim Testen in AI Studio lag die Erkennungsleistung auf dem Niveau von 3.1 Pro, war aber deutlich schneller
      Es „denkt“ nur ein paar Sekunden nach und liefert dann ein Ergebnis
      Beim Zählen von Tierbeinen oder dem Ablesen analoger Uhren war das Verhältnis von Effizienz zu Leistung sehr hoch
  • Die Formulierung „das sicherste Robotermodell“ ist interessant
    Gemini Robotics-ER 1.6 hält Sicherheitsrichtlinien besser ein als die vorherige Generation,
    ist aber noch immer nicht vollständig marktreif, und ein Ansatz, der Sicherheit als Zielgröße verfolgt, wirkt realistisch

  • Für Robotik könnte es intern KI-Modelle auf dem Niveau von GPT-2 oder GPT-3 geben,
    aber Fehlschläge in Alltagsumgebungen wären so gravierend, dass man sie schwer öffentlich machen kann
    Wenn zum Beispiel in der Spülmaschine auch nur ein Teller zerbricht, würde das als großes Problem gelten

    • Ich habe am Wochenende Bicentennial Man (1999) gesehen, und die Geschirrspüler-Szene ist mir im Gedächtnis geblieben
      Das war ein guter Film für den aktuellen Zeitpunkt
    • Vielleicht ist ein zerbrochener Teller aber gar nicht so dramatisch
      Die frühen Roomba-Modelle waren oft chaotisch, wurden vom Markt aber trotzdem akzeptiert und haben sich dann verbessert
      Ich denke, es ist wichtig, auch ohne Perfektion zuerst in den Markt zu gehen und Daten zu sammeln
    • Ich selbst habe auch schon oft Teller in der Spülmaschine zerbrochen
      Ein perfektes System gibt es nicht
    • Auch ich als Mensch zerbreche ungefähr zweimal im Monat einen Teller
      Wenn ein Roboter besser ist als das, wäre das bereits eine Verbesserung
    • In der Robotik fehlt es noch an Daten im Internet-Maßstab
      Zu behaupten, man habe bereits Modelle auf GPT-Niveau, erscheint mir unehrlich
  • Ich überlege, ob ich das aktuelle Modell weiterverwenden sollte,
    bis Google Gemini Flash 3.1 offiziell veröffentlicht