Meta führt Segment Anything Model 2 ein
(ai.meta.com)Einführung in Meta Segment Anything Model 2 (SAM 2)
Hauptfunktionen
-
Objektsegmentierung in allen Videos und Bildern
- SAM 2 ist das erste einheitliche Modell, das Objekte in Bildern und Videos segmentiert
- Mit Klicks, Boxen und Masken als Eingabe können Objekte in Bildern oder Videoframes ausgewählt werden
-
Objektauswahl und -anpassung zwischen Videoframes
- Mit SAM 2 können in Videoframes ein oder mehrere Objekte ausgewählt werden
- Mit zusätzlichen Prompts lassen sich die Vorhersagen des Modells fein abstimmen
-
Starke Segmentierungsleistung auch in unbekannten Videos
- SAM 2 liefert eine starke Zero-Shot-Leistung auch bei Objekten, Bildern und Videos, die das Modell während des Trainings nicht gesehen hat
- Es kann in einer Vielzahl realer Anwendungen eingesetzt werden
-
Echtzeitinteraktion und Ergebnisse
- SAM 2 ermöglicht durch Streaming-Inferenz interaktive Anwendungen in Echtzeit
-
Objektsegmentierung auf dem neuesten Stand der Technik
- SAM 2 erzielt bei der Objektsegmentierung in Videos und Bildern eine bessere Leistung als die besten bestehenden Modelle
Highlights
- Bessere Leistung bei der Bildsegmentierung als SAM
- Bessere Leistung als bestehende Modelle zur Videoobjektsegmentierung, insbesondere beim partiellen Tracking
- Weniger Interaktionszeit erforderlich als bei bestehenden Methoden zur interaktiven Videosegmentierung
Selbst ausprobieren
- In einem Videoframe lässt sich mit einem einzelnen Klick ein Objekt verfolgen und es lassen sich interessante Effekte erzeugen
- Demo ausprobieren
Modellarchitektur
- Design von Meta Segment Anything Model 2
- Das SAM-2-Modell wurde durch Hinzufügen eines sitzungsspezifischen Speichermoduls auf den Videobereich erweitert
- Dieses Modul erfasst Informationen über Zielobjekte im Video, sodass Objekte über alle Videoframes hinweg verfolgt werden können, selbst wenn sie vorübergehend nicht sichtbar sind
- Unterstützt wird auch die Möglichkeit, Maskenvorhersagen auf Basis zusätzlicher Prompts zu korrigieren
- Die Streaming-Architektur von SAM 2 verarbeitet Videoframes einzeln und verallgemeinert sich dadurch auf natürliche Weise auf den Videobereich
Segment Anything Video Dataset
-
Großes und vielfältiges Video-Segmentierungs-Dataset
- SAM 2 wurde auf einer großen und vielfältigen Menge von Videos und Masklets (Objektmasken über die Zeit) trainiert
- Zu den Trainingsdaten gehört das offen verfügbare SA-V-Dataset
-
Highlights
- Mehr als 600.000 Masklets aus rund 51.000 Videos gesammelt
- Geografisch vielfältige reale Szenarien aus 47 Ländern
- Annotationen einschließlich kompletter Objekte, Teilbereiche und schwieriger Verdeckungen
Veröffentlichung der Forschung
-
Open Innovation
- Damit die Forschungsgemeinschaft auf dieser Arbeit aufbauen kann, werden vortrainierte Segment Anything 2-Modelle, das SA-V-Dataset, Demos und Code veröffentlicht
-
Highlights
- Transparenz bei den Trainingsdaten von SAM 2
- Vorrang für die geografische Vielfalt des SA-V-Datasets, um die reale Welt besser abzubilden
- Durchführung einer Fairness-Evaluierung von SAM 2
Potenzielle Modellanwendungen
-
Skalierbare Ausgaben
- Die Ausgaben der Videoobjektsegmentierung von SAM 2 können als Eingabe für andere KI-Systeme wie moderne Videogenerierungsmodelle verwendet werden
-
Skalierbare Eingaben
- SAM 2 kann andere Arten von Eingabe-Prompts aufnehmen und ermöglicht dadurch kreative Möglichkeiten zur Interaktion mit Objekten in Echtzeit- oder Live-Videos
Weitere Ressourcen
Zusammenfassung von GN⁺
- SAM 2 ist ein einheitliches Modell zur Segmentierung von Objekten in Bildern und Videos und bietet Echtzeitinteraktion sowie starke Zero-Shot-Leistung
- Es wurde für den Einsatz in einer Vielzahl realer Szenarien entwickelt und umfasst ein für die Forschungsgemeinschaft veröffentlichtes Dataset sowie Code
- Bei Videoobjekt-Tracking und -segmentierung liefert es bessere Leistung als bestehende Modelle und erreicht mit geringer Interaktionszeit eine hohe Genauigkeit
- In Kombination mit anderen KI-Systemen wie Videogenerierungsmodellen kann SAM 2 neue Erfahrungen ermöglichen
Noch keine Kommentare.