- Ein grundlegendes Dataset und Benchmark zur Unterstützung der Forschung zu Video-Lernen und multimodaler Wahrnehmung
- Erfasst gleichzeitig die First-Person-"egozentrische" Perspektive über Wearable-Kameras der Teilnehmenden sowie mehrere "exozentrische" Perspektiven über Kameras rund um die Teilnehmenden
- Die beiden Perspektiven ergänzen sich gegenseitig: Ego zeigt, was die Teilnehmenden sehen und hören, Exo offenbart die umgebende Szene und den Kontext
- Die gemeinsame Nutzung dieser beiden Perspektiven kann KI-Modellen neue Einblicke in komplexe menschliche Fertigkeiten geben
- Ergebnis von zwei Jahren Arbeit von Metas FAIR (Fundamental Artificial Intelligence Research), Project Aria und 15 Universitäts-Partnern
- Aufgenommen mit Hilfe von mehr als 800 erfahrenen Teilnehmenden in den USA, Japan, Kolumbien, Singapur, Indien und Kanada
- Open Source veröffentlicht werden Daten mit mehr als 1.400 Stunden Video sowie Annotationen für neue Benchmark-Aufgaben
- Ego-Exo4D konzentriert sich auf geübte menschliche Aktivitäten wie Sport, Musik, Kochen, Tanz und Fahrradreparatur
- Fortschritte bei der Fähigkeit von KI, menschliches Können in Videos zu verstehen, könnten viele Anwendungen ermöglichen
- Zum Beispiel könnten Menschen mit Smart Glasses in AR-Systemen neue Fertigkeiten mithilfe eines virtuellen KI-Coachs schneller erlernen
- Ego-Exo4D ist das größte öffentliche Dataset mit zeitlich synchronisierten First-Person- und Third-Person-Videos
- Für den Aufbau dieses Datasets wurden Expertinnen und Experten aus verschiedenen Bereichen gewonnen, und Fachleute aus der realen Welt nahmen daran teil
- Ego-Exo4D ist nicht nur ein Multi-View-, sondern auch ein multimodales Dataset. Alle mit Metas Aria-Brille aufgenommenen Ego-Videos enthalten zeitlich ausgerichtetes 7-Kanal-Audio, eine Inertial Measurement Unit (IMU), zwei monochrome Weitwinkelkameras und mehr
Noch keine Kommentare.