Meta stellt Segment Anything Model 2 vor

(ai.meta.com)

2 Punkte von GN⁺ 2024-08-02 | 1 Kommentare | Auf WhatsApp teilen

Segment Anything Model 2 (SAM 2) von Meta FAIR ist ein einheitliches Segmentierungsmodell, mit dem sich Objekte in Bildern und Videos schnell auswählen und segmentieren lassen
Nutzer können Objekte über Klicks, Boxen oder Masken als Prompts festlegen und die Maskenvorhersage mit zusätzlichen Prompts korrigieren
In Videos hält ein sitzungsbezogenes Speichermodul Objektinformationen aus früheren Frames vor und setzt das Tracking über alle Frames hinweg fort, selbst wenn ein Objekt kurzzeitig verdeckt ist
SAM 2 verbessert die Bildsegmentierung gegenüber dem bisherigen SAM und betont bei der Video-Objektsegmentierung insbesondere Part Tracking und die Interaktionszeit
Meta hat vortrainierte Modelle, Code, Demo und den SA-V-Datensatz veröffentlicht; SA-V umfasst rund 51.000 Videos und mehr als 600.000 Masklets

Segmentierung für Bilder und Videos gemeinsam

SAM 2 ist das erste einheitliche Modell zur Segmentierung von Objekten über Bilder und Videos hinweg
Nutzer können Objekte auswählen, indem sie in einem Bild oder Video-Frame Klicks, Boxen oder Masken eingeben
In Videos lassen sich ein oder mehrere Objekte festlegen; Vorhersagen können in jedem Frame mit zusätzlichen Prompts präzise korrigiert werden
Es ist darauf ausgelegt, auch bei Objekten, Bildern und Videos, die es im Training nicht gesehen hat, starke Zero-Shot-Leistung zu liefern, und kann so in vielen realen Anwendungen eingesetzt werden
Durch Streaming-Inferenz verarbeitet es Videos effizient und unterstützt Echtzeit- und interaktive Anwendungen

Leistung und interaktive Nutzung

SAM 2 wird als Modell vorgestellt, das bei der Objektsegmentierung in Videos und Bildern bessere Ergebnisse erzielt als die führenden Modelle des jeweiligen Bereichs
Wichtige Leistungsaspekte
- Verbesserungen gegenüber dem bisherigen SAM bei der Bildsegmentierung
- Besser als bisherige Modelle für Video-Objektsegmentierung, mit besonderen Stärken beim Part Tracking
- Weniger erforderliche Interaktionszeit als bei bisherigen interaktiven Verfahren zur Videosegmentierung
In der Demo reicht ein einziger Klick in einem Frame aus, um ein Objekt interaktiv über das gesamte Video hinweg zu verfolgen und Effekte zu erzeugen
Die Demo ist unter SAM 2 demo verfügbar

Modellarchitektur für Video-Tracking

Die Architektur erweitert die promptbasierte Auswahlfunktion von SAM auf den Videobereich
Ergänzt wurde ein sitzungsbezogenes Speichermodul, das Informationen über Zielobjekte im Video speichert
- Ausgewählte Objekte lassen sich über alle Video-Frames hinweg verfolgen
- Wenn ein Objekt vorübergehend aus dem Sichtfeld verschwindet, wird der Kontext früherer Frames genutzt
In jedem beliebigen Frame können zusätzliche Prompts eingegeben werden, um die Maskenvorhersage zu korrigieren
Die Streaming-Architektur verarbeitet Video-Frames einzeln nacheinander
Bei Anwendung auf Bilder ist das Speichermodul leer, und das Modell verhält sich wie SAM

SA-V-Datensatz

SAM 2 wurde mit groß angelegten und vielfältigen Videos sowie Masklets trainiert
- Masklets bezeichnen Objektmasken über die Zeit
- Die Daten wurden erzeugt, indem SAM 2 interaktiv in einer Model-in-the-Loop-Daten-Engine angewendet wurde
Zu den Trainingsdaten gehört der als Open Source veröffentlichte SA-V-Datensatz
Wichtige Kennzahlen des SA-V-Datensatzes
- Mehr als 600.000 Masklets aus rund 51.000 Videos gesammelt
- Enthält geografisch vielfältige reale Szenarien aus 47 Ländern
- Enthält Annotationen zu ganzen Objekten, Objektteilen und schwierigen Verdeckungssituationen
Bei Problemen oder Fragen zum SA-V-Datensatz kann man sich an support@segment-anything.com wenden
Der Datensatz ist unter Explore the dataset einsehbar

Veröffentlichte Ressourcen und Einsatzmöglichkeiten

Meta veröffentlicht das vortrainierte Segment Anything 2 Model, den SA-V-Datensatz, eine Demo und Code, damit die Forschungsgemeinschaft darauf aufbauen kann
Gemeinsam mit den veröffentlichten Ressourcen werden folgende Punkte hervorgehoben
- Transparenz zu den Trainingsdaten von SAM 2
- Priorisierung der geografischen Vielfalt des SA-V-Datensatzes zur Abbildung der realen Welt
- Durchführung einer Fairness-Bewertung für SAM 2
Modell und Code sind unter Download the model verfügbar
Das Forschungspapier ist unter Read the research paper abrufbar
SAM 2 kann eigenständig genutzt oder künftig als Teil größerer Systeme mit anderen Modellen kombiniert werden
- Die Ausgabe der Video-Objektsegmentierung kann als Eingabe für andere KI-Systeme wie moderne Videogenerierungsmodelle dienen und präzise Bearbeitungsfunktionen ermöglichen
- Künftig kann es auf andere Arten von Eingabe-Prompts erweitert werden und kreative Möglichkeiten unterstützen, in Echtzeit- oder Live-Videos mit Objekten zu interagieren

1 Kommentare

GN⁺ 2024-08-02

Meinungen auf Hacker News

Meta macht wirklich vieles richtig. Google scheint bei der KI-Forschung und bei nützlichen Ergebnissen, die mit der Community geteilt werden, zurückzufallen.
Ich bin überzeugt, dass Llama und andere Projekte neue Kreationen, Unternehmen und Fortschritte anstoßen werden. Auch die Art, Code und Forschung offen zu teilen, wird am Ende als geschäftlicher Wert zu Meta zurückfließen.
Hier zeigt sich der Unterschied zwischen einem gründergeführten Unternehmen und einem Unternehmen, das vom Markt getrieben wird. Google scheint sich stärker auf kurzfristige Ziele zu konzentrieren, etwa schlechte Quartalsergebnisse zu vermeiden oder hohe Investitionsausgaben für Projekte wie VR zu vermeiden, bei denen nicht sofort Erträge sichtbar sind.
Sobald Meta die Killer-App für VR findet, könnten andere Unternehmen so weit zurückliegen, dass sie Software von Meta kaufen müssen oder kaum noch Anteile am neuen Markt gewinnen. Ähnlich wie Nvidia bei KI-Chips davongezogen ist: ein Bereich, in den niemand ausreichend investiert hatte.
- Google liegt bei der KI-Forschung immer noch vorn. Das ist eher das Gegenteil von kurzfristigem Handeln, und der Grund, warum es nicht so wirkt, könnte sein, dass viel davon Grundlagenforschung ist, mit Chemie oder Physik zu tun hat oder nicht wie bei Facebook öffentlich gemacht wird.
  Allerdings hinkt Google dabei hinterher, Forschung in Produkte zu überführen. Bisher sieht es so aus, als würden sie nur minimalen Aufwand betreiben, um trainierte Modelle in Produkte zu bringen.
- Ich weiß es nicht genau, aber vielleicht liegt der Unterschied darin: Meta kann alles Mögliche ausprobieren und später eine Killer-Anwendung finden.
  Google dagegen scheint existenziell davon auszugehen, dass die Suche unbedingt die Killer-Anwendung sein muss, und versucht, alles gewaltsam dort hineinzupressen. Dabei setzen sie die Erfolgskriterien offenbar zu hoch an und ignorieren, wo der tatsächliche Stand der Technik liegt.
- Ich weiß nicht, was Meta angeblich so gut macht. Die KI-Integrationen in WhatsApp oder Instagram sind nahezu nutzlos und wirken, als wären sie nur eingebaut worden, um dem Markt vorzugaukeln, Meta sei ein KI-Unternehmen.
  Zuckerberg halte ich für einen der einfallslosesten CEOs überhaupt. Abgesehen vom Portal-Gerät hat Meta kaum originäre Produkte; die meisten wurden übernommen. Bei Innovation ist das Unternehmen äußerst schwach.
  Es sieht so aus, als hätte Zuckerberg eine PR-Kampagne zur Imagepflege gestartet, aber Facebook ist immer noch ein dubioses Unternehmen, das von einer dubiosen Person geführt wird, und der verrottete Kern hat sich nicht geändert. Erst diese Woche wurde es in Texas zu einer Geldstrafe in Milliardenhöhe verurteilt.
  Meta ist weit davon entfernt, ein „gründergeführtes Unternehmen“ zu sein. Die Gründer der aufgekauften Apps gehen bald wieder, und Managementberater-Typen wie Adam Mosseri übernehmen die Führung.
  Es ist traurig, dass Menschen immer noch an Zuckerbergs Metaverse-Wette glauben, mit der er Meta angesichts nachlassenden Nutzerwachstums wie ein innovatives Unternehmen aussehen lassen wollte. Ich verstehe bis heute nicht, warum dieser Metaverse-Schwindel kein SEC-Verstoß war.
- Es heißt „der Unterschied zwischen einem gründergeführten und einem marktgetriebenen Unternehmen“, aber ich frage mich, ob sie wirklich so verschieden sind.
  Facebook wirft auch teure Dinge wie Llama in den Raum, deren Monetarisierungsweg unklar ist. Google hat ebenfalls teure Dinge mit unklarem Monetarisierungsweg ausprobiert, etwa Waymo, Google Glass, Google Fiber, Stadia und die Dinge auf https://killedbygoogle.com.
  Facebook hat für die Vision des Metaverse die gesamte Ausrichtung des Unternehmens stark verändert und ist gescheitert; Google hat für die Vision von Google Plus die gesamte Ausrichtung des Unternehmens stark verändert und ist gescheitert.
  Facebook hat sich in Meta umbenannt, Google in Alphabet.
  Facebook hat eine KI-Forschungsorganisation, die von einem französisch-amerikanischen Informatikprofessor und Turing-Preisträger gegründet wurde; Google hat eine KI-Forschungsorganisation, die von einem britisch-kanadischen Informatikprofessor und Turing-Preisträger gegründet wurde.
  Facebook hat mit PyTorch eine weit verbreitete Open-Source-Python-Bibliothek für Machine Learning mit CamelCase-Namen veröffentlicht, und Google hat mit TensorFlow eine weit verbreitete Open-Source-Python-Bibliothek für Machine Learning mit CamelCase-Namen veröffentlicht.
  Vielleicht folgen beide demselben Playbook, und in letzter Zeit ist Facebooks Wette einfach glücklicherweise aufgegangen.
- Gründer sind nicht alle gleich. Manche Gründer hassen es sehr, wenn der Aktienkurs fällt, auch wenn sie nicht sofort Geld brauchen.
  Und die Ergebnisse sind gemischt. Persönlich denke ich, dass Zuckerberg bei VR falsch lag, bei KI aber richtig.
Frühere Diskussion: https://news.ycombinator.com/item?id=41104523
- Es ist erstaunlich, dass eine große Nachricht so schnell von der Startseite verschwindet. Hacker News scheint für Menschen optimiert zu sein, die die Seite mehrmals am Tag aufrufen.
Hätte mir vor nur zehn Jahren jemand gesagt, dass Facebook eines der am offensten innovierenden Unternehmen werden würde und Mark Zuckerberg einer der vergleichsweise vernünftigen Milliardäre, hätte ich ihn wirklich ausgelacht.
Aber heute sieht die Lage anders aus. Egal, wie erfolgreich die VR- und KI-Versuche tatsächlich werden, sie werden wohl bereits in gewissem Maß ihren Platz in der Geschichte hinterlassen.
- Fairerweise hat Meta eine ziemlich lange Geschichte darin, interne Software als Open Source zu veröffentlichen, die dann zum Branchenstandard wurde. Das ist überhaupt nichts Neues.
  Besonders gilt das für Datenbanktechnologien: rocksdb, zstd compression, presto, Cassandra, Hive und Velox stammen alle von Meta.
  Das sind nur die populären Projekte; es gibt deutlich mehr datenbankbezogene Projekte, die veröffentlicht wurden, aber nicht besonders bekannt geworden sind.
  Über das Unternehmen kann man sich über vieles beschweren, aber für das Open-Source-Ökosystem war es immer ein großer Beitragender.
- Ich mag Oculus, aber VR hat noch keine kulturelle Universalität erreicht.
Bei so etwas denke ich immer an die holografische Orbitkarten-UI aus The Expanse.
Es wirkt wie eine Art Papier der Zukunft, das mit allem verbunden ist, woran wir denken, und könnte ein wirklich mächtiges Werkzeug sein, um die Welt zu erkunden.
Als ich noch in Schnitt und Motion Graphics gearbeitet habe, hätte ich mir so etwas wirklich sehnlich gewünscht.
Der Roto Brush in After Effects ist ähnlich, aber die Qualität war immer unzureichend und die Verarbeitungszeit viel zu lang.
- Der Roto Brush in After Effects ist ein lebensrettendes Tool, hat aber Grenzen. SAM ist definitiv ein Gamechanger.
Es heißt, der Code sei veröffentlicht worden, aber außer Beispielcode finde ich nichts. Wurde auch der Trainingscode veröffentlicht?
- Mit „vortrainierte Segment Anything 2-Modelle und Code veröffentlicht“ ist offenbar dieses Repository gemeint: https://github.com/facebookresearch/segment-anything-2
Die Ergebnisse sind beeindruckend. Das ist ein Testvideo aus dem Inneren von Mercer Labs: https://youtu.be/W7kM0ISXkpQ?feature=shared
- Ich weiß nicht, was ich da sehe und wie das mit SAM2 zusammenhängt.
Firefox scheint nicht unterstützt zu werden.
Man sollte auch den Tausenden afrikanischen Arbeitskräften danken, die die langweilige und repetitive Dataset-Arbeit erledigt haben.

Meta stellt Segment Anything Model 2 vor

Segmentierung für Bilder und Videos gemeinsam

Leistung und interaktive Nutzung

Modellarchitektur für Video-Tracking

SA-V-Datensatz

Veröffentlichte Ressourcen und Einsatzmöglichkeiten

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News