SAM 2: Segment Anything für Bilder und Videos

(github.com/facebookresearch)

5 Punkte von GN⁺ 2024-07-30 | 2 Kommentare | Auf WhatsApp teilen

Segment Anything Model 2 ist ein Modell zur Lösung promptbarer visueller Segmentierungsprobleme in Bildern und Videos
- Es erweitert den Ansatz auf Videos, indem Bilder als Videos mit einem einzelnen Frame betrachtet werden
- Verwendet eine einfache Transformer-Architektur mit Streaming-Speicher für die Videoverarbeitung in Echtzeit
- Es wurde eine Daten-Engine aufgebaut, die Modell und Daten durch Benutzerinteraktionen verbessert, um den SA-V-Datensatz zu sammeln
Bietet starke Leistung über verschiedene Aufgaben und visuelle Domänen hinweg
Der Segment Anything Video (SA-V)-Datensatz wurde ebenfalls veröffentlicht
- Besteht aus 50.583 vielfältigen Videos und 642.036 hochwertigen raumzeitlichen Segmentierungsmasken (Masklets)
- CC BY 4.0-Lizenz

2 Kommentare

xguru 2024-07-31

Segment Anything Model (SAM): Metas KI-Modell, das beliebige Objekte aus Bildern extrahiert
SAM.cpp – Implementierung von Metas Segment Anything Model in reinem C/C++

GN⁺ 2024-07-30

Hacker-News-Kommentare

Interessiert an der 6-fachen Verbesserung bei mIoU und Bildverarbeitungsgeschwindigkeit
- Die Geschwindigkeitssteigerung ist vor allem dem effizienten Encoder zu verdanken
- Bei mehreren Segmentierungen desselben Bildes könnte der Vorteil gering sein
- Ein Vergleich mit dem ursprünglichen SAM ist nötig
Das Segment Anything-Team hat das Modell SAM 2 veröffentlicht
- Es ist das erste integrierte Modell für Echtzeit-Objektsegmentierung
- Code, Modell, Datensatz, Forschungsarbeit und Demo wurden veröffentlicht
- Bin gespannt, was die Nutzer damit bauen werden
Habe mich schon einmal mit SAM 1 beschäftigt
- Zusammenfassung des SAM-2-Papers:
  - Mit 256 A100-GPUs 108 Stunden lang trainiert
  - Die Trainingskosten sind mit etwa $50k günstig
  - Der neue SA-V-Datensatz besteht aus 50k Videos
  - Es wurde ein dreistufiges Annotation-Bootstrapping verwendet
  - Eine Memory-Attention-Funktion wurde hinzugefügt
Ich möchte ein Modell trainieren, das Videoframes klassifiziert und bestimmte Frames findet
- Ich frage mich, ob man SAM-2 als Basismodell verwenden kann
Großer Fan der SAM-Loss-Funktion
- Danke dafür
Die Web-Demo ist sehr sauber gemacht
- Als jedes Paar Schuhe als einzelnes Objekt ausgewählt wurde, segmentierte das Modell sie auch in überlappendem Zustand
Das erste SAM-Modell war am nützlichsten
- Ich freue mich darauf, SAM2 auszuprobieren
Die Forschungsdemo ist in Illinois und Texas nicht verfügbar
- Ich frage mich, warum
Es gibt Bedenken hinsichtlich militärischer Nutzung
Beeindruckende Leistung

SAM 2: Segment Anything für Bilder und Videos

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare