Meta veröffentlicht das groß angelegte Ego-Exo4D-Dataset für First-Person-Videos

xguru · 2023-12-19T10:56:02+09:00

Ein grundlegendes Dataset und Benchmark zur Unterstützung der Forschung zu Video-Lernen und multimodaler Wahrnehmung Erfasst gleichzeitig die First-Person-"egozentrische" Perspektive über Wearable-Kameras der Teilnehmenden sowie mehrere "exozentrische" Perspektiven über Kameras rund um die Teilnehmenden Die beiden Perspektiven ergänzen sich gegenseitig: Ego zeigt, was die Teilnehmenden sehen und hören, Exo offenbart die umgebende Szene und den Kontext Die gemeinsame Nutzung dieser beiden Perspektiven kann KI-Modellen neue Einblicke in komplexe menschliche Fertigkeiten geben Ergebnis von zwei Jahren Arbeit von Metas FAIR (Fundamental Artificial Intelligence Research), Project Aria und 15 Universitäts-Partnern Aufgenommen mit Hilfe von mehr als 800 erfahrenen Teilnehmenden in den USA, Japan, Kolumbien, Singapur, Indien und Kanada Open Source veröffentlicht werden Daten mit mehr als 1.400 Stunden Video sowie Annotationen für neue Benchmark-Aufgaben Ego-Exo4D konzentriert sich auf geübte menschliche Aktivitäten wie Sport, Musik, Kochen, Tanz und Fahrradreparatur Fortschritte bei der Fähigkeit von KI, menschliches Können in Videos zu verstehen, könnten viele Anwendungen ermöglichen Zum Beispiel könnten Menschen mit Smart Glasses in AR-Systemen neue Fertigkeiten mithilfe eines virtuellen KI-Coachs schneller erlernen Ego-Exo4D ist das größte öffentliche Dataset mit zeitlich synchronisierten First-Person- und Third-Person-Videos Für den Aufbau dieses Datasets wurden Expertinnen und Experten aus verschiedenen Bereichen gewonnen, und Fachleute aus der realen Welt nahmen daran teil Ego-Exo4D ist nicht nur ein Multi-View-, sondern auch ein multimodales Dataset. Alle mit Metas Aria-Brille aufgenommenen Ego-Videos enthalten zeitlich ausgerichtetes 7-Kanal-Audio, eine Inertial Measurement Unit (IMU), zwei monochrome Weitwinkelkameras und mehr

(ai.meta.com)

7 Punkte von xguru 2023-12-19 | Noch keine Kommentare. | Auf WhatsApp teilen

Ein grundlegendes Dataset und Benchmark zur Unterstützung der Forschung zu Video-Lernen und multimodaler Wahrnehmung
Erfasst gleichzeitig die First-Person-"egozentrische" Perspektive über Wearable-Kameras der Teilnehmenden sowie mehrere "exozentrische" Perspektiven über Kameras rund um die Teilnehmenden
Die beiden Perspektiven ergänzen sich gegenseitig: Ego zeigt, was die Teilnehmenden sehen und hören, Exo offenbart die umgebende Szene und den Kontext
- Die gemeinsame Nutzung dieser beiden Perspektiven kann KI-Modellen neue Einblicke in komplexe menschliche Fertigkeiten geben
Ergebnis von zwei Jahren Arbeit von Metas FAIR (Fundamental Artificial Intelligence Research), Project Aria und 15 Universitäts-Partnern
- Aufgenommen mit Hilfe von mehr als 800 erfahrenen Teilnehmenden in den USA, Japan, Kolumbien, Singapur, Indien und Kanada
Open Source veröffentlicht werden Daten mit mehr als 1.400 Stunden Video sowie Annotationen für neue Benchmark-Aufgaben
Ego-Exo4D konzentriert sich auf geübte menschliche Aktivitäten wie Sport, Musik, Kochen, Tanz und Fahrradreparatur
- Fortschritte bei der Fähigkeit von KI, menschliches Können in Videos zu verstehen, könnten viele Anwendungen ermöglichen
- Zum Beispiel könnten Menschen mit Smart Glasses in AR-Systemen neue Fertigkeiten mithilfe eines virtuellen KI-Coachs schneller erlernen
Ego-Exo4D ist das größte öffentliche Dataset mit zeitlich synchronisierten First-Person- und Third-Person-Videos
- Für den Aufbau dieses Datasets wurden Expertinnen und Experten aus verschiedenen Bereichen gewonnen, und Fachleute aus der realen Welt nahmen daran teil
- Ego-Exo4D ist nicht nur ein Multi-View-, sondern auch ein multimodales Dataset. Alle mit Metas Aria-Brille aufgenommenen Ego-Videos enthalten zeitlich ausgerichtetes 7-Kanal-Audio, eine Inertial Measurement Unit (IMU), zwei monochrome Weitwinkelkameras und mehr

Meta veröffentlicht das groß angelegte Ego-Exo4D-Dataset für First-Person-Videos

Verwandte Beiträge

Noch keine Kommentare.