2 Punkte von GN⁺ 2024-07-11 | 1 Kommentare | Auf WhatsApp teilen

Vision-Language-Modelle bewältigen visuelle Aufgaben nicht gut

Zusammenfassung

  • Vision-Language-Modelle (VLMs) zeigen hohe Leistung in Anwendungen zur Bild-Text-Verarbeitung, scheitern jedoch bei sieben visuellen Aufgaben, die für Menschen sehr einfach sind.
  • Diese Studie zeigt, dass die visuellen Wahrnehmungsfähigkeiten von VLMs begrenzt sind.

Task 1: Schnittpunkte von Linien zählen

  • Bild: 150 2D-Liniendiagramme erzeugt, in denen sich zwei Liniensegmente schneiden
  • Frage: "Wie oft schneiden sich die blaue und die rote Linie?"
  • Ergebnis: Die Modelle können die Schnittpunkte nicht korrekt zählen

Task 2: Zwei Kreise

  • Bild: 672 Bilder erzeugt, die zwei Kreise mit unterschiedlichen Größen, Abständen und Ausrichtungen enthalten
  • Frage: "Berühren sich die beiden Kreise?" oder "Überlappen sich die beiden Kreise?"
  • Ergebnis: Die Modelle scheitern bei kleinen Abständen konsistent

Task 3: Von Kreisen umgebene Buchstaben

  • Bild: Bilder erzeugt, in denen jeder Buchstabe eines Wortes mit einem roten Kreis umgeben ist
  • Frage: "Welcher Buchstabe ist von einem Kreis umgeben?"
  • Ergebnis: Die Modelle neigen dazu, benachbarte Buchstaben vorherzusagen

Task 4: Überlappende Formen zählen

  • Bild: Bilder erzeugt, die überlappende Kreise und Fünfecke wie im olympischen Logo enthalten
  • Frage: "Wie viele Formen sind im Bild?"
  • Ergebnis: Die Modelle können die Anzahl der Formen nicht korrekt zählen

Task 5: Verschachtelte Rechtecke zählen

  • Bild: Bilder mit verschachtelten Rechtecken erzeugt
  • Frage: "Wie viele Rechtecke sind insgesamt im Bild?"
  • Ergebnis: Die Modelle können die Anzahl verschachtelter Rechtecke nicht korrekt zählen

Task 6: Zeilen und Spalten in einem Raster zählen

  • Bild: Bilder erzeugt, die Raster mit Text sowie leere Raster enthalten
  • Frage: "Wie viele Zeilen und Spalten hat das Raster?"
  • Ergebnis: Die Leistung verbesserte sich bei Rastern mit Text, bei leeren Rastern scheiterten die Modelle jedoch

Task 7: Einen einfarbigen Pfad verfolgen

  • Bild: Bilder mit U-Bahn-Netzplänen erzeugt
  • Frage: "Wie viele einfarbige Pfade gibt es von A nach C?"
  • Ergebnis: Die Modelle können die Anzahl der Pfade nicht korrekt zählen

Zusammenfassung von GN⁺

  • Diese Studie zeigt, dass die visuellen Wahrnehmungsfähigkeiten von Vision-Language-Modellen (VLMs) begrenzt sind.
  • VLMs scheitern konsistent bei visuellen Aufgaben, die für Menschen einfach sind.
  • Das deutet darauf hin, dass weitere Forschung nötig ist, um die visuellen Wahrnehmungsfähigkeiten von VLMs zu verbessern.
  • Andere Projekte mit ähnlichen Funktionen sind OpenAIs GPT-4 und Googles Gemini-1.5 Pro.

1 Kommentare

 
GN⁺ 2024-07-11
Hacker-News-Kommentare
  • Ich denke, die Schlussfolgerung ist falsch

    • Die Metapher vom „Sichtfeld einer kurzsichtigen Person“ ist übertrieben
    • Es gibt Beispiele dafür, dass GPT-4v detailreiche visuelle Aufgaben gut ausführt
    • Große GenAI-Modelle leisten gute Arbeit, wenn sie mit vielen Daten trainiert wurden
    • Die von den Autoren vorgelegten Belege sind unzureichend
  • Geteilte Erfahrung mit Captchas

    • GPT-4o half dabei, das Problem mit der Garagentür zu lösen
    • Es erkannte eine fehlerhafte Installation auf dem Foto, übersah aber eine fehlende Mutter
  • Probleme von VLMs beim Zählen von Objekten und beim Erkennen räumlicher Beziehungen

    • Microsofts Set of Marks könnte hilfreich sein
    • Das Bereitstellen von „aussprechbaren“ Labels trägt zur Leistungsverbesserung bei
  • Kritik an der Leistung aktueller SOTA-Modelle

    • Sie scheitern an Aufgaben, die für Menschen leicht sind
    • Beispiel: die Anzahl von Linienkreuzungen zählen, Überlappungen von Kreisen erkennen usw.
  • Meinung zur Art der Bildverarbeitung bei VLMs

    • Menschen können sich auf relevante Bereiche konzentrieren, VLMs verarbeiten jedoch das gesamte Bild mit derselben Auflösung
    • Neugier darauf, wie man Modelle mit Interaktionsdaten trainieren könnte
  • Ich denke, der Titel „Vision language models are blind“ ist übertrieben

    • Die Art, wie VLMs Bildeingaben verarbeiten, ist anders
    • Bei niedriger Auflösung können Details verloren gehen
    • Als Beispiel war die Antwort von Sonnet 3.5 größtenteils korrekt, enthielt aber einige Fehler
  • Verständnis dafür, wie Modelle Eingabedaten interpretieren

    • LLMs und multimodalen Modellen fehlt es an konkreten Schlussfolgerungsfähigkeiten
    • Beispiel: ChatGPT kann Text gut zusammenfassen, zählt aber Wörter nicht gut
    • Das Kernproblem bei der Entwicklung von AGI ist die Verbindung von High-Level- und Low-Level-Intelligenz
  • Meinung zum Niveau von GPT-4

    • Zitat von Mira Murati, dass GPT-4 auf Highschool-Niveau sei
  • KI hat Schwierigkeiten, Bilder von Schulterminplänen zu lesen

    • Wenn man nach bestimmten Daten fragt, trifft sie einige richtig, übersieht andere oder erfindet neue Daten
    • Wenn man das Rauschen entfernt, verbessert sich die Leistung leicht, bleibt aber weiterhin unzuverlässig