15 Punkte von xguru 2023-03-08 | 1 Kommentare | Auf WhatsApp teilen
  • Große Sprachmodelle können komplexe Aufgaben ausführen, benötigen aber eine Verankerung, um allgemeines Schlussfolgern in der realen Welt zu ermöglichen, etwa bei Problemen aus der Robotik
  • Es wird ein EMLM vorgeschlagen, das fortlaufende Sensor-Modaliäten aus der realen Welt direkt in ein Sprachmodell integriert, um eine Verbindung zwischen Wörtern und Wahrnehmungen (Percepts) aufzubauen
  • Verarbeitet als Eingabe multimodale Sätze, die visuelle Informationen, kontinuierliche Zustandsschätzungen und Text-Input-Encoding kombinieren
    • "Hol mir bitte Reischips aus der Schublade": Es kann sich hinbewegen, die Schublade öffnen, suchen und greifen, die Schublade wieder schließen und den Gegenstand bringen. Selbst wenn ein Mensch zwischendurch leicht stört, versucht es es erneut
  • Das größte Sprachmodell ist PaLM-E 562B + OK-VQA (dataset for visual question answering)

1 Kommentare

 
xguru 2023-03-08

Was ist Embodied AI?

Dabei handelt es sich um ein Gebiet, in dem in einer 3D-virtuellen Umgebung namens Simulator (Environment) ein Agent erzeugt, zum Ausführen und Erlernen verschiedener Aufgaben (Tasks) trainiert und anschließend auf Maschinen wie reale Roboter übertragen wird (Sim2Real), damit diese bestimmte Aufgaben auch in der realen Welt gut ausführen können.