9 Punkte von xguru 2024-02-20 | 1 Kommentare | Auf WhatsApp teilen
  • Meta hat das Video Joint Embedding Predictive Architecture (V-JEPA)-Modell vorgestellt, einen wichtigen Schritt zur Weiterentwicklung von Maschinenintelligenz auf Basis eines realistischeren Verständnisses der Welt.
  • Diese frühe Form dieses physikalischen Weltmodells ist besonders stark darin, detaillierte Interaktionen zwischen Objekten zu erkennen und zu verstehen.
  • Im Sinne verantwortungsvoller Open Science wurde das Modell unter der Creative-Commons-NonCommercial-Lizenz freigegeben, sodass Forschende darauf aufbauen und es weiter erforschen können.

Video JEPA

  • V-JEPA ist ein nicht-generatives Modell, das lernt, indem es fehlende oder verdeckte Bereiche von Videos im abstrakten Repräsentationsraum vorhersagt.
  • Das Modell besitzt die Flexibilität, nicht vorhersehbare Informationen zu verwerfen, was die Trainings- und Stichprobeneffizienz um das 1,5- bis 6-Fache steigert.
  • V-JEPA wird nur mit unbeschrifteten Daten vortrainiert; Labels werden erst nach dem Pretraining eingesetzt, wenn das Modell für bestimmte Aufgaben spezialisiert wird.

Maskierungsmethodik

  • V-JEPA wird nicht darauf trainiert, bestimmte Verhaltensmuster zu verstehen; stattdessen nutzt es selbstüberwachtes Lernen über vielfältige Videos, um zu lernen, wie die Welt funktioniert.
  • Die Maskierungsstrategie maskiert nicht nur große Videoausschnitte oder zufällig verteilte Patches, sondern Teile des Videos sowohl im Raum als auch in der Zeit, damit das Modell Szenen versteht und daraus lernt.

Effiziente Vorhersage

  • Die Vorhersage im abstrakten Repräsentationsraum erlaubt dem Modell, sich auf hochdimensionale konzeptionelle Informationen im Video zu fokussieren, ohne sich um Details zu kümmern, die für nachgelagerte Aufgaben meist nicht relevant sind.
  • V-JEPA ist das erste Videomodell, das bei der „Frozen Evaluation“ herausragende Ergebnisse liefert, da es neue Spezialisierungsschichten oder kleine Netze effizient und schnell trainiert, ohne den selbstüberwachten vortrainierten Encoder und Prädiktor erneut zu verändern.

Weg für künftige Forschung

  • „V“ steht für Video, doch das aktuelle V-JEPA-Modell berücksichtigt derzeit nur visuelle Inhalte.
  • Als nächster Schritt wird ein stärker multimodaler Ansatz angestrebt, der Audio zusammen mit visuellem Inhalt integriert.
  • V-JEPA ist besonders gut darin, feine Objektinteraktionen zu unterscheiden und die detaillierten Interaktionen zwischen Objekten im Zeitverlauf zu erkennen.

Auf dem Weg zu AMI

  • Bisher konzentrierten sich Arbeiten rund um V-JEPA im Wesentlichen auf Wahrnehmung: das Verstehen von Inhalten aus verschiedenen Videoströmen, um Kontext über die Umgebung zu gewinnen.
  • Im nächsten Schritt soll gezeigt werden, wie solche Prädiktoren oder Weltmodelle für Planung und sequenzielle Entscheidungsfindung eingesetzt werden können.
  • V-JEPA ist ein Forschungsmodell, und zukünftige Anwendungen werden noch erforscht. Beispielsweise kann der von V-JEPA bereitgestellte Kontext beim Aufbau kontextueller KI-Assistenten für reale KI-Arbeit und künftige AR-Brillen hilfreich sein.
  • Im Sinne verantwortungsvoller Open Science wird das V-JEPA-Modell unter der CC BY-NC-Lizenz veröffentlicht, damit andere Forschende diese Arbeit erweitern können.

1 Kommentare

 
kuroneko 2024-02-20

Auch OpenAI Sora zeigt es – die Video-KI macht plötzlich einen riesigen Sprung.

Als die Sprachmodelle sich ebenfalls weiterentwickelt haben, kam irgendwann ChatGPT auf einmal dazwischen.
Es wäre spannend, wenn so ein Wendepunkt auch bei der Video-KI irgendwann erreicht würde.