2 Punkte von GN⁺ 2024-08-02 | Noch keine Kommentare. | Auf WhatsApp teilen

Einführung in Meta Segment Anything Model 2 (SAM 2)

Hauptfunktionen

  • Objektsegmentierung in allen Videos und Bildern

    • SAM 2 ist das erste einheitliche Modell, das Objekte in Bildern und Videos segmentiert
    • Mit Klicks, Boxen und Masken als Eingabe können Objekte in Bildern oder Videoframes ausgewählt werden
  • Objektauswahl und -anpassung zwischen Videoframes

    • Mit SAM 2 können in Videoframes ein oder mehrere Objekte ausgewählt werden
    • Mit zusätzlichen Prompts lassen sich die Vorhersagen des Modells fein abstimmen
  • Starke Segmentierungsleistung auch in unbekannten Videos

    • SAM 2 liefert eine starke Zero-Shot-Leistung auch bei Objekten, Bildern und Videos, die das Modell während des Trainings nicht gesehen hat
    • Es kann in einer Vielzahl realer Anwendungen eingesetzt werden
  • Echtzeitinteraktion und Ergebnisse

    • SAM 2 ermöglicht durch Streaming-Inferenz interaktive Anwendungen in Echtzeit
  • Objektsegmentierung auf dem neuesten Stand der Technik

    • SAM 2 erzielt bei der Objektsegmentierung in Videos und Bildern eine bessere Leistung als die besten bestehenden Modelle

Highlights

  • Bessere Leistung bei der Bildsegmentierung als SAM
  • Bessere Leistung als bestehende Modelle zur Videoobjektsegmentierung, insbesondere beim partiellen Tracking
  • Weniger Interaktionszeit erforderlich als bei bestehenden Methoden zur interaktiven Videosegmentierung

Selbst ausprobieren

  • In einem Videoframe lässt sich mit einem einzelnen Klick ein Objekt verfolgen und es lassen sich interessante Effekte erzeugen
  • Demo ausprobieren

Modellarchitektur

  • Design von Meta Segment Anything Model 2
    • Das SAM-2-Modell wurde durch Hinzufügen eines sitzungsspezifischen Speichermoduls auf den Videobereich erweitert
    • Dieses Modul erfasst Informationen über Zielobjekte im Video, sodass Objekte über alle Videoframes hinweg verfolgt werden können, selbst wenn sie vorübergehend nicht sichtbar sind
    • Unterstützt wird auch die Möglichkeit, Maskenvorhersagen auf Basis zusätzlicher Prompts zu korrigieren
    • Die Streaming-Architektur von SAM 2 verarbeitet Videoframes einzeln und verallgemeinert sich dadurch auf natürliche Weise auf den Videobereich

Segment Anything Video Dataset

  • Großes und vielfältiges Video-Segmentierungs-Dataset

    • SAM 2 wurde auf einer großen und vielfältigen Menge von Videos und Masklets (Objektmasken über die Zeit) trainiert
    • Zu den Trainingsdaten gehört das offen verfügbare SA-V-Dataset
  • Highlights

    • Mehr als 600.000 Masklets aus rund 51.000 Videos gesammelt
    • Geografisch vielfältige reale Szenarien aus 47 Ländern
    • Annotationen einschließlich kompletter Objekte, Teilbereiche und schwieriger Verdeckungen

Veröffentlichung der Forschung

  • Open Innovation

    • Damit die Forschungsgemeinschaft auf dieser Arbeit aufbauen kann, werden vortrainierte Segment Anything 2-Modelle, das SA-V-Dataset, Demos und Code veröffentlicht
  • Highlights

    • Transparenz bei den Trainingsdaten von SAM 2
    • Vorrang für die geografische Vielfalt des SA-V-Datasets, um die reale Welt besser abzubilden
    • Durchführung einer Fairness-Evaluierung von SAM 2

Potenzielle Modellanwendungen

  • Skalierbare Ausgaben

    • Die Ausgaben der Videoobjektsegmentierung von SAM 2 können als Eingabe für andere KI-Systeme wie moderne Videogenerierungsmodelle verwendet werden
  • Skalierbare Eingaben

    • SAM 2 kann andere Arten von Eingabe-Prompts aufnehmen und ermöglicht dadurch kreative Möglichkeiten zur Interaktion mit Objekten in Echtzeit- oder Live-Videos

Weitere Ressourcen

Zusammenfassung von GN⁺

  • SAM 2 ist ein einheitliches Modell zur Segmentierung von Objekten in Bildern und Videos und bietet Echtzeitinteraktion sowie starke Zero-Shot-Leistung
  • Es wurde für den Einsatz in einer Vielzahl realer Szenarien entwickelt und umfasst ein für die Forschungsgemeinschaft veröffentlichtes Dataset sowie Code
  • Bei Videoobjekt-Tracking und -segmentierung liefert es bessere Leistung als bestehende Modelle und erreicht mit geringer Interaktionszeit eine hohe Genauigkeit
  • In Kombination mit anderen KI-Systemen wie Videogenerierungsmodellen kann SAM 2 neue Erfahrungen ermöglichen

Noch keine Kommentare.

Noch keine Kommentare.