7 Punkte von xguru 2023-12-19 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein grundlegendes Dataset und Benchmark zur Unterstützung der Forschung zu Video-Lernen und multimodaler Wahrnehmung
  • Erfasst gleichzeitig die First-Person-"egozentrische" Perspektive über Wearable-Kameras der Teilnehmenden sowie mehrere "exozentrische" Perspektiven über Kameras rund um die Teilnehmenden
  • Die beiden Perspektiven ergänzen sich gegenseitig: Ego zeigt, was die Teilnehmenden sehen und hören, Exo offenbart die umgebende Szene und den Kontext
    • Die gemeinsame Nutzung dieser beiden Perspektiven kann KI-Modellen neue Einblicke in komplexe menschliche Fertigkeiten geben
  • Ergebnis von zwei Jahren Arbeit von Metas FAIR (Fundamental Artificial Intelligence Research), Project Aria und 15 Universitäts-Partnern
    • Aufgenommen mit Hilfe von mehr als 800 erfahrenen Teilnehmenden in den USA, Japan, Kolumbien, Singapur, Indien und Kanada
  • Open Source veröffentlicht werden Daten mit mehr als 1.400 Stunden Video sowie Annotationen für neue Benchmark-Aufgaben
  • Ego-Exo4D konzentriert sich auf geübte menschliche Aktivitäten wie Sport, Musik, Kochen, Tanz und Fahrradreparatur
    • Fortschritte bei der Fähigkeit von KI, menschliches Können in Videos zu verstehen, könnten viele Anwendungen ermöglichen
    • Zum Beispiel könnten Menschen mit Smart Glasses in AR-Systemen neue Fertigkeiten mithilfe eines virtuellen KI-Coachs schneller erlernen
  • Ego-Exo4D ist das größte öffentliche Dataset mit zeitlich synchronisierten First-Person- und Third-Person-Videos
    • Für den Aufbau dieses Datasets wurden Expertinnen und Experten aus verschiedenen Bereichen gewonnen, und Fachleute aus der realen Welt nahmen daran teil
    • Ego-Exo4D ist nicht nur ein Multi-View-, sondern auch ein multimodales Dataset. Alle mit Metas Aria-Brille aufgenommenen Ego-Videos enthalten zeitlich ausgerichtetes 7-Kanal-Audio, eine Inertial Measurement Unit (IMU), zwei monochrome Weitwinkelkameras und mehr

Noch keine Kommentare.

Noch keine Kommentare.