PaLM-E: Embodied Multimodal Language Model

xguru · 2023-03-08T12:11:57+09:00

Große Sprachmodelle können komplexe Aufgaben ausführen, benötigen aber eine Verankerung, um allgemeines Schlussfolgern in der realen Welt zu ermöglichen, etwa bei Problemen aus der Robotik Es wird ein EMLM vorgeschlagen, das fortlaufende Sensor-Modaliäten aus der realen Welt direkt in ein Sprachmodell integriert, um eine Verbindung zwischen Wörtern und Wahrnehmungen (Percepts) aufzubauen Verarbeitet als Eingabe multimodale Sätze, die visuelle Informationen, kontinuierliche Zustandsschätzungen und Text-Input-Encoding kombinieren "Hol mir bitte Reischips aus der Schublade": Es kann sich hinbewegen, die Schublade öffnen, suchen und greifen, die Schublade wieder schließen und den Gegenstand bringen. Selbst wenn ein Mensch zwischendurch leicht stört, versucht es es erneut Das größte Sprachmodell ist PaLM-E 562B + OK-VQA (dataset for visual question answering)

(palm-e.github.io)

15 Punkte von xguru 2023-03-08 | 1 Kommentare | Auf WhatsApp teilen

Große Sprachmodelle können komplexe Aufgaben ausführen, benötigen aber eine Verankerung, um allgemeines Schlussfolgern in der realen Welt zu ermöglichen, etwa bei Problemen aus der Robotik
Es wird ein EMLM vorgeschlagen, das fortlaufende Sensor-Modaliäten aus der realen Welt direkt in ein Sprachmodell integriert, um eine Verbindung zwischen Wörtern und Wahrnehmungen (Percepts) aufzubauen
Verarbeitet als Eingabe multimodale Sätze, die visuelle Informationen, kontinuierliche Zustandsschätzungen und Text-Input-Encoding kombinieren
- "Hol mir bitte Reischips aus der Schublade": Es kann sich hinbewegen, die Schublade öffnen, suchen und greifen, die Schublade wieder schließen und den Gegenstand bringen. Selbst wenn ein Mensch zwischendurch leicht stört, versucht es es erneut
Das größte Sprachmodell ist PaLM-E 562B + OK-VQA (dataset for visual question answering)

1 Kommentare

xguru 2023-03-08

Was ist Embodied AI?

Dabei handelt es sich um ein Gebiet, in dem in einer 3D-virtuellen Umgebung namens Simulator (Environment) ein Agent erzeugt, zum Ausführen und Erlernen verschiedener Aufgaben (Tasks) trainiert und anschließend auf Maschinen wie reale Roboter übertragen wird (Sim2Real), damit diese bestimmte Aufgaben auch in der realen Welt gut ausführen können.

PaLM-E: Embodied Multimodal Language Model

Verwandte Beiträge

1 Kommentare