7 Punkte von GN⁺ 2025-11-20 | 1 Kommentare | Auf WhatsApp teilen
  • Vorstellung von SAM 3, das in Bildern und Videos mithilfe von Text, Beispielbildern und visuellen Prompts gewünschte Objekte findet, segmentiert und verfolgt
  • Mit Modell-Checkpoints, Evaluierungs-Datensätzen, Fine-Tuning-Code und dem Segment Anything Playground wird eine Umgebung bereitgestellt, in der jede Person das Modell leicht ausprobieren kann
  • Mit dem neuen groß angelegten Benchmark für Konzeptsegmentierung SA-Co und der Veröffentlichung von SAM 3D wird das Ökosystem der Konzeptsegmentierung über 2D und 3D hinweg erweitert
  • In Meta-Diensten wie Marketplace, Instagram Edits und Meta AI kommen bereits neue Funktionen zur Medienerzeugung und -bearbeitung auf Basis der Objektsegmentierung zum Einsatz
  • Als Modell, das text- und beispielbasierte Konzeptsegmentierung integriert, wächst sein Potenzial als allgemeines wahrnehmungsbasiertes Werkzeug für Forschung, Industrie, Naturschutz und Robotik

Überblick über SAM 3

  • Ein integriertes Modell, das verschiedene Prompts wie Text, Bildbeispiele, Masken, Boxen und Punkte entgegennimmt, um Konzepte in Bildern und Videos zu erkennen, zu segmentieren und zu verfolgen
    • Open-Vocabulary-Segmentierung auf Basis kurzer Nominalphrasen wird standardmäßig unterstützt
    • Komplexe Prompts wie „people sitting down but not holding a gift box“ können in Kombination mit einem MLLM verarbeitet werden
  • Es überwindet die Einschränkung früherer SAM-Versionen, die an festgelegte Label-Sets gebunden waren, und erweitert dies zu Segmentierung beliebiger Konzepte (promptable concepts)
  • Mit dem neuen Benchmark SA-Co (Segment Anything with Concepts) wird die Leistung bei groß angelegter Konzeptwahrnehmung in Bildern und Videos gemessen

Hauptfunktionen

  • Unterstützung für textprompt-basierte Konzeptdetektion und Segmentierung aller Instanzen
    • Auch detaillierte Beschreibungen wie „striped red umbrella“ werden verarbeitet
  • Über Bildbeispiele (Exemplars) lassen sich Konzepte anhand realer Objekte definieren
  • Die aus SAM 1 und 2 bekannten Box-/Punkt-/Masken-Prompts bleiben erhalten
  • Nutzung eines MLLM als Werkzeug für iterative Erkundung komplexer Anfragen (SAM 3 Agent)

Daten-Engine

  • Aufbau einer hybriden Pipeline zur Datenerstellung aus SAM 3 + Menschen + AI Annotator (auf Basis von Llama 3.2v)
    • Automatische Caption-Erstellung → Textlabel-Generierung → Erzeugung initialer Masken → Validierung durch AI/Menschen
    • Bei negativen Prompts (nicht vorhandene Konzepte) 5-mal schnellere Verarbeitung, auch bei positiven Prompts 36 % Geschwindigkeitsgewinn
  • Aufbau eines groß angelegten Trainingssatzes mit mehr als 4 Millionen einzigartigen Konzepten
  • Erweiterung der Abdeckung seltener Konzepte durch eine Wiki-basierte Konzept-Ontologie

Modellarchitektur

  • Text- und Bildencoder basieren auf dem Meta Perception Encoder
  • Für Objekterkennung wird DETR verwendet, für Tracking die Memory-Bank- + Tracker-Struktur aus SAM 2
  • Zentral ist ein Lernrezept zur Vermeidung von Konflikten, damit mehrere Aufgaben (Detektion, Tracking, Segmentierung) in einem Modell ausgeführt werden können

Leistung

  • In Bildern und Videos Verdopplung von cgF1 gegenüber bisherigen Modellen
  • Bessere Ergebnisse als spezialisierte Modelle wie Gemini 2.5 Pro, GLEE, OWLv2 und LLMDet
  • In Bewertungen der Nutzerpräferenz sind die Ergebnisse von SAM 3 im Verhältnis 3:1 überlegen
  • 30 ms für ein Einzelbild, in Videos bei 5 Objekten nahezu Echtzeitverarbeitung
  • Verbesserte Leistung auch bei Zero-Shot-Benchmarks wie LVIS und CountBench

Wissenschaftliche und praktische Anwendungsfälle

  • SA-FARI: öffentlicher Datensatz mit Videos aus Wildtier-Kamerafallen von mehr als 100 Arten und über 10.000 Aufnahmen
  • FathomNet: neuer Benchmark für Instanzsegmentierung von Meereslebewesen
  • Marketplace „View in Room“: Visualisierung von Innenraumplatzierungen wie Beleuchtung und Möbeln mit SAM 3 und SAM 3D
  • Für Instagram Edits, die Meta-AI-App und meta.ai sind Funktionen für objektbasierte Videoeffekte geplant

SAM 3D

  • Veröffentlichung von Modell, Code und Daten für die 3D-Rekonstruktion von Objekten und Personen aus einem einzelnen Bild
  • Bietet grounded reconstruction unter Berücksichtigung des realen räumlichen Kontexts

Grenzen und kommende Aufgaben

  • Die Zero-Shot-Generalisation für feingranulare Spezialkonzepte (z. B. platelet) ist begrenzt
    • Mit kleinen Datenmengen lässt sich das Modell durch Fine-Tuning schnell anpassen
    • Ein Open-Source-Fine-Tuning-Rezept wird bereitgestellt
  • Kurze Sätze werden grundsätzlich unterstützt, aber für komplexe Beschreibungen wie „top shelf second to last book“ ist die Kombination mit einem MLLM nötig
  • In Videos steigen die Verarbeitungskosten linear mit der Anzahl der Objekte
    • Das Teilen von Beziehungsinformationen zwischen Objekten ist ein möglicher Ansatzpunkt für künftige Verbesserungen

Segment Anything Playground

  • Webbasierte Plattform, auf der sich SAM 3 auch ohne technisches Vorwissen ausprobieren lässt
    • Vorlagen für Gesichts-/Nummernschild-/Bildschirm-Pixelierung, Spotlight, Motion Trails oder das Hervorheben bestimmter Objekte werden bereitgestellt
    • Auch für Datenannotation und Stresstests nutzbar
  • Liefert auch in Ego-Videos des Wearables Aria Gen 2 eine stabile Segmentierung und Verfolgung
    • Einsetzbar für Robotik- und Perception-Forschung aus menschlicher Perspektive

1 Kommentare

 
GN⁺ 2025-11-20
Hacker-News-Meinungen
  • Es ist erfreulich, dass Meta weiterhin zu Open Source beiträgt und solche Modelle veröffentlicht
    Ich weiß, dass es auch kritische Sichtweisen auf das Unternehmen gibt, aber solche Schritte nützen allen

    • Sehe ich genauso. Ich hatte früher, etwa 2005, einmal eine Sicherheitslücke gemeldet, und damals war die Firmenkultur noch anders
      Inzwischen scheint sie sich stark in eine community-orientierte Richtung verändert zu haben
    • Social Media mag ich nicht besonders, aber Metas Kurs bei der Modellveröffentlichung muss man anerkennen
      Andere große Forschungslabore veröffentlichen Modelle nicht auf diese Weise
  • Mein erster Eindruck nach dem Ausprobieren: Dieses Modell ist außergewöhnlich gut
    Die textbasierte „zero-shot“-Erkennung liegt deutlich vor der vorherigen Modellgeneration und auch vor aktuellen VLMs wie Gemini oder Qwen
    Mit menschlicher Aufsicht könnte es sogar gut als Lehrermodell dienen
    Ich habe früher YOLO für die Erkennung von Klettergriffen getunt, und SAM3 erreicht ohne Training etwa 90 % dieses Ergebnisses
    Allerdings übersieht es Griffe aus Holz mit geringem Kontrast oder kleine Tritte

    • Hast du vielleicht an so etwas wie der Stokt-App gearbeitet? Die ist im Kletterbereich inzwischen ziemlich bekannt
    • Ich arbeite auf einer Plattform, die eine Milliarde Bilder labelt, und ich denke, SAM3 könnte davon über 90 % automatisieren
      Es geht jetzt nicht mehr darum, dass Menschen dem Modell helfen, sondern dass das Modell den Menschen hilft
      Mehr dazu im Roboflow-Blog
  • Auch der 3D-Mesh-Generator ist wirklich großartig
    Im SAM3D-Demo sieht man, dass es auch die Trennung verdeckter Objekte gut beherrscht, etwa bei einer Person auf einem Stuhl, und zudem schnell ist

    • Wirklich beeindruckend. Aber kann man 3D-Meshes direkt exportieren?
      Ich konnte nur Videos herunterladen und frage mich, ob man dafür vielleicht Tokens kaufen muss
  • Mein Anwendungsfall ist das Verfolgen von Mustern auf Leiterplatten, und darin ist das Modell noch schwach
    Bilder wie Pferde am Strand verarbeitet es gut, aber für Industriedaten passt es weniger
    Mit Fine-Tuning würde es wahrscheinlich besser werden, aber ich habe das noch nicht ausprobiert

    • Interessanter Anwendungsfall. Kannst du vielleicht einen Beispiellink zum Anschauen teilen?
  • Ich habe SAM3 zum Entfernen des Hintergrunds bei Kinderzeichnungen verwendet
    (Projektvorstellung dazu)
    Aber BiRefNet v2 arbeitet immer noch etwas genauer
    SAM3 schneidet entlang der Linien leicht ungenau, und einige weiße Bereiche des Papiers bleiben erhalten
    Trotzdem kann SAM3 mehr als nur einfache Hintergrundentfernung, nämlich die Bedeutung der Zeichnung erkennen
    Es könnte vielleicht sogar Kinderzeichnungen erkennen und sie mit Aktionen in einem Spiel verknüpfen

    • Spannend, dass du BiRefNet für Hintergrundentfernung genutzt hast
      Hältst du es derzeit für das leistungsstärkste Modell? Mich würden auch andere Alternativen interessieren
  • In der Autorenliste des Papers ist eine Kennzeichnung wie „Core contributor (Alphabetical, Equal Contribution)“ schön zu sehen
    Diese gleichberechtigte Kennzeichnung der Mitwirkenden ist beeindruckend

  • In den letzten fünf Jahren war das Tempo des Fortschritts in der Computer Vision eher langsam
    Das Sprachverständnis hat sich dank LLMs fast an menschliches Niveau angenähert, aber Vision bleibt weiterhin zurück
    Objektsegmentierung oder die Generalisierung auf wissenschaftliche Bilder sind schwierig, und trotz ausreichender Daten wirkt es so, als würde etwas fehlen
    Vielleicht braucht es Agency in 3D-Umgebungen oder reichhaltigere Lernsignale

    • Ich bin kein Experte, aber ich habe das Gefühl, dass ein Weltmodell (world model) fehlt
      Menschen urteilen nicht nur anhand visueller Informationen, sondern ergänzen sie durch Kontext und Erfahrung
      Wenn man zum Beispiel nachts auf der Straße eine dunkle Gestalt sieht, schließt man aus früheren Erfahrungen oder aus Umgebungsinformationen, ob es ein Pferd oder ein Zaun ist
      Diese kontextuelle Schlussfolgerung fehlt den aktuellen Modellen
    • Die Aussage, dass „LLMs Text auf menschlichem Niveau verstehen“, hat weiterhin klare Grenzen
  • Mein Fachgebiet ist die 3D-Volumensegmentierung in der medizinischen Bildgebung
    Ich habe SAM2 im 2D-Slice-Verfahren ausprobiert, aber es war gegenüber dem aktuellen Standard nnUNet nicht konkurrenzfähig

    • Unet war in den letzten zehn Jahren das am weitesten verbreitete Modell in der medizinischen Bildgebung
      Aber ich denke, die Kombination aus LLM + VLM könnte eine neue Richtung sein
      Ich habe tatsächlich diese Demo getestet, und sie hat ziemlich gut funktioniert
  • SAM3 ist ein tolles Modell
    Man kann es schon jetzt auf chat.vlm.run auf interaktivere Weise nutzen,
    kombiniert mit SAM und anderen Vision-Modellen auf dem neuen Orion-Modell unseres Teams
    Videosegmentierung und Tracking sollen bald ebenfalls hinzugefügt werden

    • Ich habe es tatsächlich getestet und konnte in derselben Chat-Sitzung Menschen und Hunde segmentieren
      Beispielergebnis
  • Wegen der durchschnittlichen Latenz von 4 Sekunden ist es für Echtzeitvideo vermutlich noch schwierig
    (Die Quelle ist ein entsprechender Artikel auf roboflow.com)

    • Dieser Wert liegt wahrscheinlich an den Compute-Ressourcen
      Laut dem Blog dauert die Verarbeitung eines einzelnen Bildes mit mehr als 100 Objekten auf einer H200-GPU nur 30 ms