6 Punkte von GN⁺ 2025-04-04 | 1 Kommentare | Auf WhatsApp teilen
  • Google DeepMind hat Gemini Robotics entwickelt, ein multimodales KI-Modell der nächsten Generation für Roboter, die physische Aufgaben ausführen können
  • Das Modell ist eine mit roboterspezifischen Daten feinabgestimmte Version von Gemini 2.0, die nicht nur Text, Video und Audio verarbeiten, sondern auch reale Handlungen ausführen kann
  • Der Roboter führt verschiedene Aufgaben aus, etwa Salat zubereiten, Tic-Tac-Toe spielen, Origami falten oder Lunchboxen verpacken

Konkrete Tests und Bestätigung des Potenzials

  • Dem Forschungsroboter ALOHA mit zwei Armen wurden verschiedene Aufgaben gestellt
    • Beispiele: einen Stift in einen Schuh stecken, einen Dunking mit einem Basketball ausführen
    • Obwohl der Roboter weder die Objekte noch die Aufgaben zuvor gesehen hatte, verstand er die Aufforderungen und führte sie beim ersten Versuch erfolgreich aus
  • Anders als bisherige Modelle kann er komplexe physische Anweisungen in natürlicher Sprache verstehen und ausführen

Zentrale Merkmale von Gemini Robotics

  • Verfügt über hohe Flexibilität, Interaktionsfähigkeit und Generalisierungsvermögen
    • Kann sich auch ohne zusätzliches Training an neue Objekte, Umgebungen und Anweisungen anpassen
  • Schafft die Grundlage dafür, KI und Robotik als einen integrierten Agenten umzusetzen
  • Bietet menschenähnliche Wahrnehmungs-, Entscheidungs- und Handlungsfähigkeiten

Vorstellung der Modellvarianten

  • Gemini Robotics-ER (Embodied Reasoning):

    • Basierend auf Gemini 2.0 Flash
    • Erkennt Objekte, bestimmt Positionen, sagt Bewegungsbahnen voraus, legt Greifparameter fest und generiert sowie führt darauf basierend Code aus
    • Wird vertrauenswürdigen Testern und Partnern bereitgestellt
  • Gemini Robotics:

    • Integriertes Vision-Language-Action-Modell
    • Kann Szenen verstehen, mit Nutzern interagieren und mehrstufige Aufgaben ausführen
    • Erzielt auch bei Aufgaben, die komplexe Manipulation und räumliches Schlussfolgern erfordern, Spitzenwerte bei der feinmotorischen Geschicklichkeit

Konkrete technische Fähigkeiten

  • 2D- und 3D-Objekterkennung
  • Pointing-Funktion (Zeigen/Anweisen)
  • Finden von Korrespondenzpunkten über mehrere Ansichten hinweg
  • Beherrscht Manipulation unter Nutzung vielfältiger visueller Informationen

Trainingsansatz und Vorteile

  • Statt des in der Industrie üblichen repetitiven Trainings für eine einzelne Aufgabe wurde ein breites Lernen über viele unterschiedliche Aufgaben gewählt
  • Dadurch zeigte sich Generalisierungsfähigkeit auf natürliche Weise
  • Auf verschiedene Robotertypen anwendbar
    • Beispiele: ALOHA (für Forschung), Apollo von Apptronik (humanoider Roboter)

Unterstützung für verschiedene Robotik-Formfaktoren

  • Unterschiedliche Robotertypen führen verschiedenste Aufgaben aus, etwa Lunchboxen verpacken, Whiteboards wischen oder kleine Objekte greifen
  • Entscheidend ist, dass ein einziges Modell sich an mehrere Roboter anpassen kann

Ausblick

  • Es wird Nutzen in Industriebereichen erwartet, die Präzisionsarbeit verlangen oder in Umgebungen stattfinden, die für Menschen ungeeignet sind
  • Auch in menschenzentrierten Umgebungen wie dem Zuhause könnten sich hilfreiche Roboter entwickeln
  • Im Alltag könnten Roboter zu einer weiteren Schnittstelle zur KI werden

1 Kommentare

 
GN⁺ 2025-04-04
Hacker-News-Kommentare
  • Sie können das zwar, aber der Gemini Assistant auf Pixel-Smartphones scheitert immer noch daran, einen Timer zu setzen oder etwas zur Einkaufsliste hinzuzufügen. (Mit Google Assistant hat das gut funktioniert)
  • Es gibt überhaupt keine Erklärung zum „Wie“, aber wenn diese Funktion auch nur halbwegs zuverlässig arbeitet, wird sie etwa 100-mal so viel Einfluss haben wie ChatGPT
  • Die Fortschritte bei KI und Robotik sind äußerst spannend. Wegen komplexer Systeme wie Gemini werden Unternehmen wohl auf spezialisierte Teams angewiesen sein, um solche Innovationen umzusetzen
    • Wenn man bestimmte Rollen wie KI-Forschung oder Robotikingenieure auslagert, können Unternehmen Spitzenkräfte gewinnen, ohne die Belastung durch Festanstellungen
    • Es ist spannend zu sehen, wie Outsourcing Forschung und Entwicklung in fortschrittlichen Branchen wie der Robotik ergänzen kann
    • Ich bin besonders neugierig, wie sich die Branche verändern wird, vor allem in Bezug auf Skalierbarkeit und Geschwindigkeit beim Markteintritt
  • Irgendwann wird wohl jemand bei der Hausarbeit helfen

    • Ah, schön. Nur dass dahinter natürlich alles militärische Zwecke hat, aber ich finde den Versuch gut, uns glauben zu machen, dass sie unsere Wäsche zusammenlegen werden
  • „Heb den Basketball auf und mach einen Dunk.“ Der Killer-Use-Case, auf den wir so lange gewartet haben :)
  • Selbst wenn Googles Robotiktechnologie (Software und Hardware) State of the Art ist, frage ich mich, ob sie das tatsächlich zu einem Produkt machen können
    • Das wirkt ähnlich wie damals, als sie bei Transformern vorne lagen, aber alle Vorteile an ChatGPT verloren haben
    • Es scheint irgendetwas zu geben, das Google daran hindert, Forschung effektiv in Produkte zu überführen
    • Waymo könnte ein gutes Gegenbeispiel sein, wenn man meint, dass es heute Product-Market-Fit erreicht hat, aber ich werde das Gefühl nicht los, dass Google Dinge meist entweder nicht auf den Markt bringt oder sie aufgibt, bevor sie sich etablieren
    • Ich frage mich, ob jemand starke Meinungen oder Einsichten zu ihren Robotik-Bemühungen hat
  • Es ist beängstigend, an die Möglichkeit zu denken, dass solche Roboter eines Tages in der Rüstungsindustrie eingesetzt werden
    • Wenn ein Roboter allgemeine Befehle wie „Räum den Radiergummi weg“ versteht, dann stell dir den Befehl „Beseitige alle Feinde“ vor
  • Nur aus Neugier: Was würde er tun, wenn man ihm befiehlt, jemanden zu töten? Würde er die Gesetze der Robotik befolgen?
  • Aprilscherz!