Meta stellt Segment Anything Model 3 (SAM 3) vor

(ai.meta.com)

7 Punkte von GN⁺ 2025-11-20 | 1 Kommentare | Auf WhatsApp teilen

Vorstellung von SAM 3, das in Bildern und Videos mithilfe von Text, Beispielbildern und visuellen Prompts gewünschte Objekte findet, segmentiert und verfolgt
Mit Modell-Checkpoints, Evaluierungs-Datensätzen, Fine-Tuning-Code und dem Segment Anything Playground wird eine Umgebung bereitgestellt, in der jede Person das Modell leicht ausprobieren kann
Mit dem neuen groß angelegten Benchmark für Konzeptsegmentierung SA-Co und der Veröffentlichung von SAM 3D wird das Ökosystem der Konzeptsegmentierung über 2D und 3D hinweg erweitert
In Meta-Diensten wie Marketplace, Instagram Edits und Meta AI kommen bereits neue Funktionen zur Medienerzeugung und -bearbeitung auf Basis der Objektsegmentierung zum Einsatz
Als Modell, das text- und beispielbasierte Konzeptsegmentierung integriert, wächst sein Potenzial als allgemeines wahrnehmungsbasiertes Werkzeug für Forschung, Industrie, Naturschutz und Robotik

Überblick über SAM 3

Ein integriertes Modell, das verschiedene Prompts wie Text, Bildbeispiele, Masken, Boxen und Punkte entgegennimmt, um Konzepte in Bildern und Videos zu erkennen, zu segmentieren und zu verfolgen
- Open-Vocabulary-Segmentierung auf Basis kurzer Nominalphrasen wird standardmäßig unterstützt
- Komplexe Prompts wie „people sitting down but not holding a gift box“ können in Kombination mit einem MLLM verarbeitet werden
Es überwindet die Einschränkung früherer SAM-Versionen, die an festgelegte Label-Sets gebunden waren, und erweitert dies zu Segmentierung beliebiger Konzepte (promptable concepts)
Mit dem neuen Benchmark SA-Co (Segment Anything with Concepts) wird die Leistung bei groß angelegter Konzeptwahrnehmung in Bildern und Videos gemessen

Hauptfunktionen

Unterstützung für textprompt-basierte Konzeptdetektion und Segmentierung aller Instanzen
- Auch detaillierte Beschreibungen wie „striped red umbrella“ werden verarbeitet
Über Bildbeispiele (Exemplars) lassen sich Konzepte anhand realer Objekte definieren
Die aus SAM 1 und 2 bekannten Box-/Punkt-/Masken-Prompts bleiben erhalten
Nutzung eines MLLM als Werkzeug für iterative Erkundung komplexer Anfragen (SAM 3 Agent)

Daten-Engine

Aufbau einer hybriden Pipeline zur Datenerstellung aus SAM 3 + Menschen + AI Annotator (auf Basis von Llama 3.2v)
- Automatische Caption-Erstellung → Textlabel-Generierung → Erzeugung initialer Masken → Validierung durch AI/Menschen
- Bei negativen Prompts (nicht vorhandene Konzepte) 5-mal schnellere Verarbeitung, auch bei positiven Prompts 36 % Geschwindigkeitsgewinn
Aufbau eines groß angelegten Trainingssatzes mit mehr als 4 Millionen einzigartigen Konzepten
Erweiterung der Abdeckung seltener Konzepte durch eine Wiki-basierte Konzept-Ontologie

Modellarchitektur

Text- und Bildencoder basieren auf dem Meta Perception Encoder
Für Objekterkennung wird DETR verwendet, für Tracking die Memory-Bank- + Tracker-Struktur aus SAM 2
Zentral ist ein Lernrezept zur Vermeidung von Konflikten, damit mehrere Aufgaben (Detektion, Tracking, Segmentierung) in einem Modell ausgeführt werden können

Leistung

In Bildern und Videos Verdopplung von cgF1 gegenüber bisherigen Modellen
Bessere Ergebnisse als spezialisierte Modelle wie Gemini 2.5 Pro, GLEE, OWLv2 und LLMDet
In Bewertungen der Nutzerpräferenz sind die Ergebnisse von SAM 3 im Verhältnis 3:1 überlegen
30 ms für ein Einzelbild, in Videos bei 5 Objekten nahezu Echtzeitverarbeitung
Verbesserte Leistung auch bei Zero-Shot-Benchmarks wie LVIS und CountBench

Wissenschaftliche und praktische Anwendungsfälle

SA-FARI: öffentlicher Datensatz mit Videos aus Wildtier-Kamerafallen von mehr als 100 Arten und über 10.000 Aufnahmen
FathomNet: neuer Benchmark für Instanzsegmentierung von Meereslebewesen
Marketplace „View in Room“: Visualisierung von Innenraumplatzierungen wie Beleuchtung und Möbeln mit SAM 3 und SAM 3D
Für Instagram Edits, die Meta-AI-App und meta.ai sind Funktionen für objektbasierte Videoeffekte geplant

SAM 3D

Veröffentlichung von Modell, Code und Daten für die 3D-Rekonstruktion von Objekten und Personen aus einem einzelnen Bild
Bietet grounded reconstruction unter Berücksichtigung des realen räumlichen Kontexts

Grenzen und kommende Aufgaben

Die Zero-Shot-Generalisation für feingranulare Spezialkonzepte (z. B. platelet) ist begrenzt
- Mit kleinen Datenmengen lässt sich das Modell durch Fine-Tuning schnell anpassen
- Ein Open-Source-Fine-Tuning-Rezept wird bereitgestellt
Kurze Sätze werden grundsätzlich unterstützt, aber für komplexe Beschreibungen wie „top shelf second to last book“ ist die Kombination mit einem MLLM nötig
In Videos steigen die Verarbeitungskosten linear mit der Anzahl der Objekte
- Das Teilen von Beziehungsinformationen zwischen Objekten ist ein möglicher Ansatzpunkt für künftige Verbesserungen

Segment Anything Playground

Webbasierte Plattform, auf der sich SAM 3 auch ohne technisches Vorwissen ausprobieren lässt
- Vorlagen für Gesichts-/Nummernschild-/Bildschirm-Pixelierung, Spotlight, Motion Trails oder das Hervorheben bestimmter Objekte werden bereitgestellt
- Auch für Datenannotation und Stresstests nutzbar
Liefert auch in Ego-Videos des Wearables Aria Gen 2 eine stabile Segmentierung und Verfolgung
- Einsetzbar für Robotik- und Perception-Forschung aus menschlicher Perspektive

1 Kommentare

GN⁺ 2025-11-20

Hacker-News-Meinungen

Es ist erfreulich, dass Meta weiterhin zu Open Source beiträgt und solche Modelle veröffentlicht
Ich weiß, dass es auch kritische Sichtweisen auf das Unternehmen gibt, aber solche Schritte nützen allen
- Sehe ich genauso. Ich hatte früher, etwa 2005, einmal eine Sicherheitslücke gemeldet, und damals war die Firmenkultur noch anders
  Inzwischen scheint sie sich stark in eine community-orientierte Richtung verändert zu haben
- Social Media mag ich nicht besonders, aber Metas Kurs bei der Modellveröffentlichung muss man anerkennen
  Andere große Forschungslabore veröffentlichen Modelle nicht auf diese Weise
Mein erster Eindruck nach dem Ausprobieren: Dieses Modell ist außergewöhnlich gut
Die textbasierte „zero-shot“-Erkennung liegt deutlich vor der vorherigen Modellgeneration und auch vor aktuellen VLMs wie Gemini oder Qwen
Mit menschlicher Aufsicht könnte es sogar gut als Lehrermodell dienen
Ich habe früher YOLO für die Erkennung von Klettergriffen getunt, und SAM3 erreicht ohne Training etwa 90 % dieses Ergebnisses
Allerdings übersieht es Griffe aus Holz mit geringem Kontrast oder kleine Tritte
- Hast du vielleicht an so etwas wie der Stokt-App gearbeitet? Die ist im Kletterbereich inzwischen ziemlich bekannt
- Ich arbeite auf einer Plattform, die eine Milliarde Bilder labelt, und ich denke, SAM3 könnte davon über 90 % automatisieren
  Es geht jetzt nicht mehr darum, dass Menschen dem Modell helfen, sondern dass das Modell den Menschen hilft
  Mehr dazu im Roboflow-Blog
Auch der 3D-Mesh-Generator ist wirklich großartig
Im SAM3D-Demo sieht man, dass es auch die Trennung verdeckter Objekte gut beherrscht, etwa bei einer Person auf einem Stuhl, und zudem schnell ist
- Wirklich beeindruckend. Aber kann man 3D-Meshes direkt exportieren?
  Ich konnte nur Videos herunterladen und frage mich, ob man dafür vielleicht Tokens kaufen muss
Mein Anwendungsfall ist das Verfolgen von Mustern auf Leiterplatten, und darin ist das Modell noch schwach
Bilder wie Pferde am Strand verarbeitet es gut, aber für Industriedaten passt es weniger
Mit Fine-Tuning würde es wahrscheinlich besser werden, aber ich habe das noch nicht ausprobiert
- Interessanter Anwendungsfall. Kannst du vielleicht einen Beispiellink zum Anschauen teilen?
Ich habe SAM3 zum Entfernen des Hintergrunds bei Kinderzeichnungen verwendet
(Projektvorstellung dazu)
Aber BiRefNet v2 arbeitet immer noch etwas genauer
SAM3 schneidet entlang der Linien leicht ungenau, und einige weiße Bereiche des Papiers bleiben erhalten
Trotzdem kann SAM3 mehr als nur einfache Hintergrundentfernung, nämlich die Bedeutung der Zeichnung erkennen
Es könnte vielleicht sogar Kinderzeichnungen erkennen und sie mit Aktionen in einem Spiel verknüpfen
- Spannend, dass du BiRefNet für Hintergrundentfernung genutzt hast
  Hältst du es derzeit für das leistungsstärkste Modell? Mich würden auch andere Alternativen interessieren
In der Autorenliste des Papers ist eine Kennzeichnung wie „Core contributor (Alphabetical, Equal Contribution)“ schön zu sehen
Diese gleichberechtigte Kennzeichnung der Mitwirkenden ist beeindruckend
In den letzten fünf Jahren war das Tempo des Fortschritts in der Computer Vision eher langsam
Das Sprachverständnis hat sich dank LLMs fast an menschliches Niveau angenähert, aber Vision bleibt weiterhin zurück
Objektsegmentierung oder die Generalisierung auf wissenschaftliche Bilder sind schwierig, und trotz ausreichender Daten wirkt es so, als würde etwas fehlen
Vielleicht braucht es Agency in 3D-Umgebungen oder reichhaltigere Lernsignale
- Ich bin kein Experte, aber ich habe das Gefühl, dass ein Weltmodell (world model) fehlt
  Menschen urteilen nicht nur anhand visueller Informationen, sondern ergänzen sie durch Kontext und Erfahrung
  Wenn man zum Beispiel nachts auf der Straße eine dunkle Gestalt sieht, schließt man aus früheren Erfahrungen oder aus Umgebungsinformationen, ob es ein Pferd oder ein Zaun ist
  Diese kontextuelle Schlussfolgerung fehlt den aktuellen Modellen
- Die Aussage, dass „LLMs Text auf menschlichem Niveau verstehen“, hat weiterhin klare Grenzen
Mein Fachgebiet ist die 3D-Volumensegmentierung in der medizinischen Bildgebung
Ich habe SAM2 im 2D-Slice-Verfahren ausprobiert, aber es war gegenüber dem aktuellen Standard nnUNet nicht konkurrenzfähig
- Unet war in den letzten zehn Jahren das am weitesten verbreitete Modell in der medizinischen Bildgebung
  Aber ich denke, die Kombination aus LLM + VLM könnte eine neue Richtung sein
  Ich habe tatsächlich diese Demo getestet, und sie hat ziemlich gut funktioniert
SAM3 ist ein tolles Modell
Man kann es schon jetzt auf chat.vlm.run auf interaktivere Weise nutzen,
kombiniert mit SAM und anderen Vision-Modellen auf dem neuen Orion-Modell unseres Teams
Videosegmentierung und Tracking sollen bald ebenfalls hinzugefügt werden
- Ich habe es tatsächlich getestet und konnte in derselben Chat-Sitzung Menschen und Hunde segmentieren
  Beispielergebnis
Wegen der durchschnittlichen Latenz von 4 Sekunden ist es für Echtzeitvideo vermutlich noch schwierig
(Die Quelle ist ein entsprechender Artikel auf roboflow.com)
- Dieser Wert liegt wahrscheinlich an den Compute-Ressourcen
  Laut dem Blog dauert die Verarbeitung eines einzelnen Bildes mit mehr als 100 Objekten auf einer H200-GPU nur 30 ms

Meta stellt Segment Anything Model 3 (SAM 3) vor

Überblick über SAM 3

Hauptfunktionen

Daten-Engine

Modellarchitektur

Leistung

Wissenschaftliche und praktische Anwendungsfälle

SAM 3D

Grenzen und kommende Aufgaben

Segment Anything Playground

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen