- Große Sprachmodelle können komplexe Aufgaben ausführen, benötigen aber eine Verankerung, um allgemeines Schlussfolgern in der realen Welt zu ermöglichen, etwa bei Problemen aus der Robotik
- Es wird ein EMLM vorgeschlagen, das fortlaufende Sensor-Modaliäten aus der realen Welt direkt in ein Sprachmodell integriert, um eine Verbindung zwischen Wörtern und Wahrnehmungen (Percepts) aufzubauen
- Verarbeitet als Eingabe multimodale Sätze, die visuelle Informationen, kontinuierliche Zustandsschätzungen und Text-Input-Encoding kombinieren
- "Hol mir bitte Reischips aus der Schublade": Es kann sich hinbewegen, die Schublade öffnen, suchen und greifen, die Schublade wieder schließen und den Gegenstand bringen. Selbst wenn ein Mensch zwischendurch leicht stört, versucht es es erneut
- Das größte Sprachmodell ist PaLM-E 562B + OK-VQA (dataset for visual question answering)
1 Kommentare
Was ist Embodied AI?