Vision-Language-Modelle bewältigen visuelle Aufgaben nicht gut
Zusammenfassung
- Vision-Language-Modelle (VLMs) zeigen hohe Leistung in Anwendungen zur Bild-Text-Verarbeitung, scheitern jedoch bei sieben visuellen Aufgaben, die für Menschen sehr einfach sind.
- Diese Studie zeigt, dass die visuellen Wahrnehmungsfähigkeiten von VLMs begrenzt sind.
Task 1: Schnittpunkte von Linien zählen
- Bild: 150 2D-Liniendiagramme erzeugt, in denen sich zwei Liniensegmente schneiden
- Frage: "Wie oft schneiden sich die blaue und die rote Linie?"
- Ergebnis: Die Modelle können die Schnittpunkte nicht korrekt zählen
Task 2: Zwei Kreise
- Bild: 672 Bilder erzeugt, die zwei Kreise mit unterschiedlichen Größen, Abständen und Ausrichtungen enthalten
- Frage: "Berühren sich die beiden Kreise?" oder "Überlappen sich die beiden Kreise?"
- Ergebnis: Die Modelle scheitern bei kleinen Abständen konsistent
Task 3: Von Kreisen umgebene Buchstaben
- Bild: Bilder erzeugt, in denen jeder Buchstabe eines Wortes mit einem roten Kreis umgeben ist
- Frage: "Welcher Buchstabe ist von einem Kreis umgeben?"
- Ergebnis: Die Modelle neigen dazu, benachbarte Buchstaben vorherzusagen
Task 4: Überlappende Formen zählen
- Bild: Bilder erzeugt, die überlappende Kreise und Fünfecke wie im olympischen Logo enthalten
- Frage: "Wie viele Formen sind im Bild?"
- Ergebnis: Die Modelle können die Anzahl der Formen nicht korrekt zählen
Task 5: Verschachtelte Rechtecke zählen
- Bild: Bilder mit verschachtelten Rechtecken erzeugt
- Frage: "Wie viele Rechtecke sind insgesamt im Bild?"
- Ergebnis: Die Modelle können die Anzahl verschachtelter Rechtecke nicht korrekt zählen
Task 6: Zeilen und Spalten in einem Raster zählen
- Bild: Bilder erzeugt, die Raster mit Text sowie leere Raster enthalten
- Frage: "Wie viele Zeilen und Spalten hat das Raster?"
- Ergebnis: Die Leistung verbesserte sich bei Rastern mit Text, bei leeren Rastern scheiterten die Modelle jedoch
Task 7: Einen einfarbigen Pfad verfolgen
- Bild: Bilder mit U-Bahn-Netzplänen erzeugt
- Frage: "Wie viele einfarbige Pfade gibt es von A nach C?"
- Ergebnis: Die Modelle können die Anzahl der Pfade nicht korrekt zählen
Zusammenfassung von GN⁺
- Diese Studie zeigt, dass die visuellen Wahrnehmungsfähigkeiten von Vision-Language-Modellen (VLMs) begrenzt sind.
- VLMs scheitern konsistent bei visuellen Aufgaben, die für Menschen einfach sind.
- Das deutet darauf hin, dass weitere Forschung nötig ist, um die visuellen Wahrnehmungsfähigkeiten von VLMs zu verbessern.
- Andere Projekte mit ähnlichen Funktionen sind OpenAIs GPT-4 und Googles Gemini-1.5 Pro.
1 Kommentare
Hacker-News-Kommentare
Ich denke, die Schlussfolgerung ist falsch
Geteilte Erfahrung mit Captchas
Probleme von VLMs beim Zählen von Objekten und beim Erkennen räumlicher Beziehungen
Kritik an der Leistung aktueller SOTA-Modelle
Meinung zur Art der Bildverarbeitung bei VLMs
Ich denke, der Titel „Vision language models are blind“ ist übertrieben
Verständnis dafür, wie Modelle Eingabedaten interpretieren
Meinung zum Niveau von GPT-4
KI hat Schwierigkeiten, Bilder von Schulterminplänen zu lesen