- Vorstellung von SAM 3, das in Bildern und Videos mithilfe von Text, Beispielbildern und visuellen Prompts gewünschte Objekte findet, segmentiert und verfolgt
- Mit Modell-Checkpoints, Evaluierungs-Datensätzen, Fine-Tuning-Code und dem Segment Anything Playground wird eine Umgebung bereitgestellt, in der jede Person das Modell leicht ausprobieren kann
- Mit dem neuen groß angelegten Benchmark für Konzeptsegmentierung SA-Co und der Veröffentlichung von SAM 3D wird das Ökosystem der Konzeptsegmentierung über 2D und 3D hinweg erweitert
- In Meta-Diensten wie Marketplace, Instagram Edits und Meta AI kommen bereits neue Funktionen zur Medienerzeugung und -bearbeitung auf Basis der Objektsegmentierung zum Einsatz
- Als Modell, das text- und beispielbasierte Konzeptsegmentierung integriert, wächst sein Potenzial als allgemeines wahrnehmungsbasiertes Werkzeug für Forschung, Industrie, Naturschutz und Robotik
Überblick über SAM 3
- Ein integriertes Modell, das verschiedene Prompts wie Text, Bildbeispiele, Masken, Boxen und Punkte entgegennimmt, um Konzepte in Bildern und Videos zu erkennen, zu segmentieren und zu verfolgen
- Open-Vocabulary-Segmentierung auf Basis kurzer Nominalphrasen wird standardmäßig unterstützt
- Komplexe Prompts wie „people sitting down but not holding a gift box“ können in Kombination mit einem MLLM verarbeitet werden
- Es überwindet die Einschränkung früherer SAM-Versionen, die an festgelegte Label-Sets gebunden waren, und erweitert dies zu Segmentierung beliebiger Konzepte (promptable concepts)
- Mit dem neuen Benchmark SA-Co (Segment Anything with Concepts) wird die Leistung bei groß angelegter Konzeptwahrnehmung in Bildern und Videos gemessen
Hauptfunktionen
- Unterstützung für textprompt-basierte Konzeptdetektion und Segmentierung aller Instanzen
- Auch detaillierte Beschreibungen wie „striped red umbrella“ werden verarbeitet
- Über Bildbeispiele (Exemplars) lassen sich Konzepte anhand realer Objekte definieren
- Die aus SAM 1 und 2 bekannten Box-/Punkt-/Masken-Prompts bleiben erhalten
- Nutzung eines MLLM als Werkzeug für iterative Erkundung komplexer Anfragen (SAM 3 Agent)
Daten-Engine
- Aufbau einer hybriden Pipeline zur Datenerstellung aus SAM 3 + Menschen + AI Annotator (auf Basis von Llama 3.2v)
- Automatische Caption-Erstellung → Textlabel-Generierung → Erzeugung initialer Masken → Validierung durch AI/Menschen
- Bei negativen Prompts (nicht vorhandene Konzepte) 5-mal schnellere Verarbeitung, auch bei positiven Prompts 36 % Geschwindigkeitsgewinn
- Aufbau eines groß angelegten Trainingssatzes mit mehr als 4 Millionen einzigartigen Konzepten
- Erweiterung der Abdeckung seltener Konzepte durch eine Wiki-basierte Konzept-Ontologie
Modellarchitektur
- Text- und Bildencoder basieren auf dem Meta Perception Encoder
- Für Objekterkennung wird DETR verwendet, für Tracking die Memory-Bank- + Tracker-Struktur aus SAM 2
- Zentral ist ein Lernrezept zur Vermeidung von Konflikten, damit mehrere Aufgaben (Detektion, Tracking, Segmentierung) in einem Modell ausgeführt werden können
Leistung
- In Bildern und Videos Verdopplung von cgF1 gegenüber bisherigen Modellen
- Bessere Ergebnisse als spezialisierte Modelle wie Gemini 2.5 Pro, GLEE, OWLv2 und LLMDet
- In Bewertungen der Nutzerpräferenz sind die Ergebnisse von SAM 3 im Verhältnis 3:1 überlegen
- 30 ms für ein Einzelbild, in Videos bei 5 Objekten nahezu Echtzeitverarbeitung
- Verbesserte Leistung auch bei Zero-Shot-Benchmarks wie LVIS und CountBench
Wissenschaftliche und praktische Anwendungsfälle
- SA-FARI: öffentlicher Datensatz mit Videos aus Wildtier-Kamerafallen von mehr als 100 Arten und über 10.000 Aufnahmen
- FathomNet: neuer Benchmark für Instanzsegmentierung von Meereslebewesen
- Marketplace „View in Room“: Visualisierung von Innenraumplatzierungen wie Beleuchtung und Möbeln mit SAM 3 und SAM 3D
- Für Instagram Edits, die Meta-AI-App und meta.ai sind Funktionen für objektbasierte Videoeffekte geplant
SAM 3D
- Veröffentlichung von Modell, Code und Daten für die 3D-Rekonstruktion von Objekten und Personen aus einem einzelnen Bild
- Bietet grounded reconstruction unter Berücksichtigung des realen räumlichen Kontexts
Grenzen und kommende Aufgaben
- Die Zero-Shot-Generalisation für feingranulare Spezialkonzepte (z. B. platelet) ist begrenzt
- Mit kleinen Datenmengen lässt sich das Modell durch Fine-Tuning schnell anpassen
- Ein Open-Source-Fine-Tuning-Rezept wird bereitgestellt
- Kurze Sätze werden grundsätzlich unterstützt, aber für komplexe Beschreibungen wie „top shelf second to last book“ ist die Kombination mit einem MLLM nötig
- In Videos steigen die Verarbeitungskosten linear mit der Anzahl der Objekte
- Das Teilen von Beziehungsinformationen zwischen Objekten ist ein möglicher Ansatzpunkt für künftige Verbesserungen
Segment Anything Playground
- Webbasierte Plattform, auf der sich SAM 3 auch ohne technisches Vorwissen ausprobieren lässt
- Vorlagen für Gesichts-/Nummernschild-/Bildschirm-Pixelierung, Spotlight, Motion Trails oder das Hervorheben bestimmter Objekte werden bereitgestellt
- Auch für Datenannotation und Stresstests nutzbar
- Liefert auch in Ego-Videos des Wearables Aria Gen 2 eine stabile Segmentierung und Verfolgung
- Einsetzbar für Robotik- und Perception-Forschung aus menschlicher Perspektive
1 Kommentare
Hacker-News-Meinungen
Es ist erfreulich, dass Meta weiterhin zu Open Source beiträgt und solche Modelle veröffentlicht
Ich weiß, dass es auch kritische Sichtweisen auf das Unternehmen gibt, aber solche Schritte nützen allen
Inzwischen scheint sie sich stark in eine community-orientierte Richtung verändert zu haben
Andere große Forschungslabore veröffentlichen Modelle nicht auf diese Weise
Mein erster Eindruck nach dem Ausprobieren: Dieses Modell ist außergewöhnlich gut
Die textbasierte „zero-shot“-Erkennung liegt deutlich vor der vorherigen Modellgeneration und auch vor aktuellen VLMs wie Gemini oder Qwen
Mit menschlicher Aufsicht könnte es sogar gut als Lehrermodell dienen
Ich habe früher YOLO für die Erkennung von Klettergriffen getunt, und SAM3 erreicht ohne Training etwa 90 % dieses Ergebnisses
Allerdings übersieht es Griffe aus Holz mit geringem Kontrast oder kleine Tritte
Es geht jetzt nicht mehr darum, dass Menschen dem Modell helfen, sondern dass das Modell den Menschen hilft
Mehr dazu im Roboflow-Blog
Auch der 3D-Mesh-Generator ist wirklich großartig
Im SAM3D-Demo sieht man, dass es auch die Trennung verdeckter Objekte gut beherrscht, etwa bei einer Person auf einem Stuhl, und zudem schnell ist
Ich konnte nur Videos herunterladen und frage mich, ob man dafür vielleicht Tokens kaufen muss
Mein Anwendungsfall ist das Verfolgen von Mustern auf Leiterplatten, und darin ist das Modell noch schwach
Bilder wie Pferde am Strand verarbeitet es gut, aber für Industriedaten passt es weniger
Mit Fine-Tuning würde es wahrscheinlich besser werden, aber ich habe das noch nicht ausprobiert
Ich habe SAM3 zum Entfernen des Hintergrunds bei Kinderzeichnungen verwendet
(Projektvorstellung dazu)
Aber BiRefNet v2 arbeitet immer noch etwas genauer
SAM3 schneidet entlang der Linien leicht ungenau, und einige weiße Bereiche des Papiers bleiben erhalten
Trotzdem kann SAM3 mehr als nur einfache Hintergrundentfernung, nämlich die Bedeutung der Zeichnung erkennen
Es könnte vielleicht sogar Kinderzeichnungen erkennen und sie mit Aktionen in einem Spiel verknüpfen
Hältst du es derzeit für das leistungsstärkste Modell? Mich würden auch andere Alternativen interessieren
In der Autorenliste des Papers ist eine Kennzeichnung wie „Core contributor (Alphabetical, Equal Contribution)“ schön zu sehen
Diese gleichberechtigte Kennzeichnung der Mitwirkenden ist beeindruckend
In den letzten fünf Jahren war das Tempo des Fortschritts in der Computer Vision eher langsam
Das Sprachverständnis hat sich dank LLMs fast an menschliches Niveau angenähert, aber Vision bleibt weiterhin zurück
Objektsegmentierung oder die Generalisierung auf wissenschaftliche Bilder sind schwierig, und trotz ausreichender Daten wirkt es so, als würde etwas fehlen
Vielleicht braucht es Agency in 3D-Umgebungen oder reichhaltigere Lernsignale
Menschen urteilen nicht nur anhand visueller Informationen, sondern ergänzen sie durch Kontext und Erfahrung
Wenn man zum Beispiel nachts auf der Straße eine dunkle Gestalt sieht, schließt man aus früheren Erfahrungen oder aus Umgebungsinformationen, ob es ein Pferd oder ein Zaun ist
Diese kontextuelle Schlussfolgerung fehlt den aktuellen Modellen
Mein Fachgebiet ist die 3D-Volumensegmentierung in der medizinischen Bildgebung
Ich habe SAM2 im 2D-Slice-Verfahren ausprobiert, aber es war gegenüber dem aktuellen Standard nnUNet nicht konkurrenzfähig
Aber ich denke, die Kombination aus LLM + VLM könnte eine neue Richtung sein
Ich habe tatsächlich diese Demo getestet, und sie hat ziemlich gut funktioniert
SAM3 ist ein tolles Modell
Man kann es schon jetzt auf chat.vlm.run auf interaktivere Weise nutzen,
kombiniert mit SAM und anderen Vision-Modellen auf dem neuen Orion-Modell unseres Teams
Videosegmentierung und Tracking sollen bald ebenfalls hinzugefügt werden
Beispielergebnis
Wegen der durchschnittlichen Latenz von 4 Sekunden ist es für Echtzeitvideo vermutlich noch schwierig
(Die Quelle ist ein entsprechender Artikel auf roboflow.com)
Laut dem Blog dauert die Verarbeitung eines einzelnen Bildes mit mehr als 100 Objekten auf einer H200-GPU nur 30 ms