8 Punkte von ninebow 2024-07-13 | Noch keine Kommentare. | Auf WhatsApp teilen

Einführung in die Arbeit „VLMs (Vision-Language Models) are Blind“

In den letzten acht Monaten hat das Aufkommen von Vision-Language-Modellen (VLM) wie GPT-4V(ision) zu einem starken Anstieg von Anwendungen für die Bild-Text-Verarbeitung geführt. VLMs (Vision-Language Models) können Objekte in einer Szene präzise identifizieren und darauf aufbauend komplexe Aufgaben ausführen. Ein Beispiel dafür ist die Berechnung der Kosten für das Bier auf einem Tisch auf Basis eines Szenenbildes und eines Menübildes. Allerdings zeigen VLMs bei bestimmten Aufgaben überraschende Grenzen, was die Frage aufwirft, ob sie Bilder tatsächlich so wahrnehmen wie Menschen. Um diese Grenzen zu bewerten, schlägt die Arbeit BlindTest vor, einen Satz aus sieben visuellen Aufgaben. BlindTest besteht aus Aufgaben, die für Menschen sehr leicht sind, für moderne VLMs jedoch eine große Herausforderung darstellen.

Das zentrale Problem dieser Arbeit ist die Lücke zwischen den wahrgenommenen Fähigkeiten von VLMs und ihrer tatsächlichen Leistung bei grundlegenden visuellen Aufgaben. Während VLMs bei hochrangigen Vision-Benchmarks hervorragende Ergebnisse erzielen, haben sie Schwierigkeiten mit einfachen Aufgaben, die präzises räumliches Verständnis und Zählen erfordern. Die Lösung dieses Problems ist entscheidend, um die praktische Anwendung von VLMs in realen Szenarien voranzubringen.

Einige der jüngsten VLM-Implementierungen integrieren visuelle und sprachliche Informationen früh in der Modellarchitektur und ermöglichen dadurch eine nahtlosere Interaktion zwischen visuellen Daten und Textdaten. Ein anderer Ansatz kombiniert visuelle und sprachliche Komponenten erst später; er ist stark im Sprachverständnis, zeigt aber schwächere Leistungen bei der visuellen Wahrnehmung. Aktuelle Benchmarks bewerten VLMs zwar bei komplexen Aufgaben des visuellen Schlussfolgerns wie MMMU und AI2D, übersehen jedoch häufig niedrigschwellige visuelle Grundaufgaben.

Diese Arbeit untersucht die Grenzen aktueller Vision-Language-Modelle (VLM), indem sie einen neuen Benchmark namens BlindTest einführt. BlindTest besteht aus visuellen Aufgaben, die für Menschen intuitiv und leicht sind, etwa festzustellen, ob sich zwei Kreise überlappen, oder die Anzahl von Formen in einem Bild zu zählen.

Vision-Language-Modell (VLM, Vision-Language Model)

Die Autoren testeten vier moderne VLMs: GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet und Claude-3.5 Sonnet. Diese Modelle belegen in aktuellen multimodalen Vision-Benchmarks Spitzenplätze und zeigen in verschiedenen Themenbereichen starke Leistungen. Sie erzielen zum Beispiel sehr gute Ergebnisse in Benchmarks wie MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA und EgoSchema. Bestehende Benchmarks messen jedoch nur die Gesamtleistung von VLMs und machen konkrete Grenzen nicht klar sichtbar. Deshalb wurde ein neuer Benchmark entworfen, um zu bewerten, wie VLMs auf einfache visuelle Aufgaben reagieren. Dieser Benchmark umfasst grundlegende 2D-geometrische Formen und erfordert nur minimales Vorwissen.

BlindTest-Benchmark

BlindTest besteht aus sieben einfachen visuellen Aufgaben, von denen jede bewertet, wie VLMs grundlegende visuelle Wahrnehmung ausführen.

Task 1. Anzahl der Schnittpunkte zählen 📈📉

In dieser Aufgabe wird getestet, ob zwei lineare Funktionen mit je zwei Segmenten 0, 1 oder 2 Schnittpunkte haben. Dafür wurden 150 2D-Liniendiagramm-Bilder erzeugt. Jedes Liniendiagramm wird durch drei feste x-Koordinaten und zufällig gewählte y-Koordinaten definiert und auf einer weißen Leinwand gezeichnet. Dabei wurde sichergestellt, dass die Linien genau 0, 1 oder 2 Schnittpunkte haben.

Jede Frage wird in zwei unterschiedlichen Formulierungen gestellt. Die erste lautet: "Wie oft kreuzen sich die blauen und roten Liniendiagramme? (How many times do the blue and red line plots cross each other?)", die zweite: "Wie oft schneiden sich die blauen und roten Linien? (How many times do the blue and red lines intersect?)". Damit soll bewertet werden, ob VLMs feine Unterschiede in der Formulierung erkennen und die gleiche Bedeutung daraus ableiten können. Unterschiedliche Formulierungen der Fragen sind nützlich, um das Verständnis der Modelle aus verschiedenen Perspektiven zu testen.

Die Leistung der vier Modelle bei der Aufgabe, die Anzahl der Linienschnittpunkte zu zählen, war wie folgt: GPT-4o erreichte 48,67 %, Gemini-1.5 Pro 69,67 %, Sonnet-3 64,00 % und Sonnet-3.5 77,33 % Genauigkeit. Das zeigt, dass VLMs Schwierigkeiten haben zu beurteilen, ob und wie sich Linien schneiden. Besonders die großen Leistungsunterschiede zwischen den Modellen deuten darauf hin, dass sich ihre Fähigkeiten in der visuellen Verarbeitung deutlich unterscheiden. Dieses Ergebnis unterstreicht, dass weitere Forschung nötig ist, um das visuelle Verständnis von VLMs zu verbessern.

Task 2. Zustand zweier Kreise prüfen 🔴🔵

In dieser Aufgabe wird bewertet, ob zwei ausgefüllte Kreise gleicher Größe einander berühren oder sich überlappen. Dafür wurden 672 Bilder erzeugt. Größe, Abstand und Ausrichtung der Kreise wurden variiert, und die Leinwandgrößen wurden auf 384, 769 und 1155 Pixel festgelegt. Der Kreisdurchmesser wurde auf 1/4, 1/5, 1/6 und 1/7 der Leinwandgröße gesetzt; Abstand und Ausrichtung der Kreise wurden zufällig bestimmt.

Jede Frage wird in zwei unterschiedlichen Formulierungen gestellt. Die erste lautet: "Berühren sich die beiden Kreise? Antworten Sie mit Ja/Nein. (Are the two circles touching each other? Answer with Yes/No)", die zweite: "Überlappen sich die beiden Kreise? Antworten Sie mit Ja/Nein. (Are the two circles overlapping? Answer with Yes/No.)". Damit soll bewertet werden, ob das Modell feine Unterschiede in der Formulierung erkennt und die gleiche Bedeutung daraus ableiten kann. Unterschiedliche Formulierungen der Fragen sind nützlich, um das Verständnis der Modelle aus verschiedenen Perspektiven zu testen.

Die Leistung der vier Modelle bei der Beurteilung, ob sich zwei Kreise berühren, war wie folgt: GPT-4o erreichte durchschnittlich 72,69 %, Gemini-1.5 Pro durchschnittlich 92,78 %, Sonnet-3 durchschnittlich 84,52 % und Sonnet-3.5 durchschnittlich 91,66 % Genauigkeit. Das zeigt, dass VLMs bei der Beurteilung von Kreisüberlappungen eine gewisse Leistung zeigen, aber weiterhin Verbesserungsbedarf besteht. Besonders die großen Leistungsunterschiede zwischen den Modellen deuten darauf hin, dass sich ihre Fähigkeiten in der visuellen Verarbeitung unterscheiden.

Task 3. Eingekreisten Buchstaben erkennen 🔤⭕

In dieser Aufgabe werden Bilder erzeugt, in denen in verschiedenen Zeichenfolgen jeweils einzelne Buchstaben der Reihe nach eingekreist werden, um zu bewerten, ob VLMs erkennen können, welcher Buchstabe markiert wurde. Als ausgewählte Zeichenfolgen wurden Acknowledgement, Subdermatoglyphic und tHyUiKaRbNqWeOpXcZvM verwendet, wobei in jeder Zeichenfolge jeder Buchstabe nacheinander eingekreist wird. Damit wird geprüft, ob VLMs die kleinen Abstände zwischen den Buchstaben erkennen können.

Die Fragen werden mit zwei unterschiedlichen Prompts gestellt. Die erste lautet: "Welcher Buchstabe ist eingekreist? (Which letter is being circled?)", die zweite: "Welches Zeichen wird mit einer roten Ellipse hervorgehoben? (Which character is being highlighted with a red oval?)". Damit soll bewertet werden, ob das Modell feine Unterschiede in der Formulierung erkennt und die gleiche Bedeutung daraus ableiten kann. Unterschiedliche Formulierungen der Fragen sind nützlich, um das Verständnis der Modelle aus verschiedenen Perspektiven zu testen.

Die Leistung der vier Modelle bei der Erkennung eingekreister Buchstaben war wie folgt: GPT-4o erreichte durchschnittlich 70,18 %, Gemini-1.5 Pro durchschnittlich 92,81 %, Sonnet-3 durchschnittlich 73,34 % und Sonnet-3.5 durchschnittlich 89,22 % Genauigkeit. Das zeigt, dass VLMs Schwierigkeiten haben, eingekreiste Buchstaben zu erkennen.

Mit anderen Worten: Alle VLMs hatten Schwierigkeiten, Buchstaben korrekt zu identifizieren. Besonders wenn der Kreis den Buchstaben leicht überlappte, traten viele Fehler auf. Das zeigt, dass VLMs detaillierte visuelle Informationen nicht präzise verarbeiten können. Auch hier deuten die großen Leistungsunterschiede zwischen den Modellen darauf hin, dass sich ihre Fähigkeiten in der visuellen Verarbeitung unterscheiden.

Task 4. Überlappende Formen zählen ∞

In dieser Aufgabe wird die Anzahl überlagerter Kreise gezählt, ähnlich wie beim olympischen Logo. Dafür wurden 120 Bilder erzeugt, und die Experimente wurden sowohl mit Kreisen als auch mit Fünfecken durchgeführt. Jedes Bild enthält 5, 6, 7, 8 oder 9 überlappende Formen, die in zwei Reihen angeordnet sind; Größe und Farbe der Formen wurden variiert.

In dieser Aufgabe wird mit zwei Prompts gefragt. Der erste lautet: "Wie viele {Formen} sind im Bild? Geben Sie nur die Zahl im numerischen Format ein.(How many {shapes} are in the image? Answer with only the number in numerical format)", der zweite: "Zählen Sie die Anzahl der {Formen} im Bild. Antworten Sie mit einer Zahl in geschweiften Klammern, z. B. {3}.(Count the {shapes} in the image. Answer with a number in curly brackets e.g. {3}.)". {Formen} steht dabei für Kreise oder Fünfecke. Damit soll bewertet werden, ob das Modell feine Unterschiede in der Formulierung erkennt und dieselbe Bedeutung extrahieren kann.

Die Leistung der vier Modelle beim Zählen überlappender Formen ist wie folgt. GPT-4o erreichte eine Genauigkeit von 42,50 % für Kreise und 19,16 % für Fünfecke, Gemini-1.5 Pro 20,83 % für Kreise und 9,16 % für Fünfecke. Sonnet-3 erzielte 31,66 % für Kreise und 11,66 % für Fünfecke, Sonnet-3.5 44,16 % für Kreise und 75,83 % für Fünfecke.

Die meisten Modelle zeigten bei dieser Aufgabe eine schwache Leistung. Insbesondere war die Genauigkeit bei 5 Kreisen hoch, fiel aber bei größeren Anzahlen stark ab. Das zeigt, dass VLMs überlappende Formen nicht präzise erkennen.

Task 5. Zählen verschachtelter Quadrate 🔳🔲

In dieser Aufgabe werden Bilder erzeugt, indem mehrere Quadrate übereinandergelegt werden. Jedes Bild enthält Quadrate unterschiedlicher Größe, deren Größe und Position zufällig festgelegt werden. Jedes Bild enthält eine bestimmte Anzahl verschachtelter Quadrate, wobei die Anzahl 2, 3, 4 oder 5 beträgt. Diese Aufgabe dient dazu zu bewerten, ob ein VLM die Anzahl verschachtelter Formen korrekt zählen kann.

In dieser Aufgabe wird die Frage gestellt: "Zählen Sie die Gesamtzahl der Quadrate im Bild.(Count the total number of squares in the image)". Damit soll bewertet werden, ob ein VLM die Anzahl verschachtelter Formen korrekt zählen kann. Außerdem soll geprüft werden, ob das Modell feine Unterschiede in der Formulierung erkennt und dieselbe Bedeutung extrahieren kann.

Die Leistung der vier Modelle beim Zählen verschachtelter Quadrate ist wie folgt. GPT-4o erreichte 48,33 %, Gemini-1.5 Pro 80,00 %, Sonnet-3 55,00 % und Sonnet-3.5 87,50 % Genauigkeit. Das zeigt, dass VLMs Schwierigkeiten haben, die Anzahl verschachtelter Quadrate zu zählen.

Wie die Ergebnisse zeigen, wiesen alle Modelle auch bei dieser Aufgabe durchgehend niedrige Genauigkeiten auf. Insbesondere nahmen die Fehler mit steigender Anzahl an Quadraten zu. Das zeigt, dass VLMs Schwierigkeiten haben, verschachtelte Formen präzise zu erkennen. Zudem deutet der große Leistungsunterschied zwischen den Modellen darauf hin, dass sich ihre visuellen Verarbeitungsfähigkeiten unterscheiden.

Task 6. Zählen von Grid-Matrizen ▦

In dieser Aufgabe werden Rasterbilder unterschiedlicher Größe erzeugt, um die Anzahl von Zeilen und Spalten zu zählen. Jedes Bild besteht aus einem Grid mit einer bestimmten Zahl von Zeilen und Spalten, und einige Bilder enthalten Text in den einzelnen Zellen. Auch Größe und Form des Rasters variieren. Damit soll bewertet werden, ob ein VLM die Zahl der Zeilen und Spalten in einem Grid korrekt zählen kann.

Jede Frage besteht aus zwei unterschiedlichen Formulierungen. Die erste lautet: "Zählen Sie die Anzahl der Zeilen und Spalten und antworten Sie mit Zahlen in geschweiften Klammern. Zum Beispiel: Zeilen={5} Spalten={6}(Count the number of rows and columns and answer with numbers in curly brackets. For example, rows={5} columns={6})", die zweite: "Zählen Sie die Anzahl der Zeilen und Spalten in der Tabelle. Antworten Sie nur mit den Zahlen als Paar. Zum Beispiel: (5,6)(How many rows and columns are in the table? Answer with only the numbers in a pair (row, column), e.g., (5,6))." Damit soll bewertet werden, ob das Modell feine Unterschiede in der Formulierung erkennt und dieselbe Bedeutung extrahieren kann.

Die Leistung der vier Modelle beim Zählen von Zeilen und Spalten ist wie folgt. GPT-4o erreichte im Durchschnitt 39,58 %, Gemini-1.5 Pro im Durchschnitt 35,79 %, Sonnet-3 im Durchschnitt 36,17 % und Sonnet-3.5 im Durchschnitt 74,26 % Genauigkeit.

Die Experimente zeigten, dass sich die Leistung bei Grids mit Text verbesserte, dennoch wurde keine hohe Genauigkeit erreicht. Das zeigt, dass VLMs Schwierigkeiten haben, die Anzahl von Zeilen und Spalten zu zählen, weil sie die Detailstruktur des Grids nicht genau erkennen. Insbesondere deutet der große Leistungsunterschied zwischen den Modellen darauf hin, dass sich ihre visuellen Verarbeitungsfähigkeiten unterscheiden.

Task 7. Einfarbigen Pfaden folgen 🔂

In dieser Aufgabe wird entlang einfarbiger Pfade gearbeitet, ähnlich dem Lesen eines U-Bahn-Netzplans. Jedes Bild besteht aus 4 festen Stationen (A, B, C, D) und den Pfaden, die diese miteinander verbinden. Damit soll bewertet werden, ob ein VLM einem einfarbigen Pfad folgen kann.

Jede Frage besteht aus zwei verschiedenen Prompts. Der erste lautet: "Wie viele einfarbige Pfade führen von A nach C? Antworten Sie mit einer Zahl in geschweiften Klammern. Zum Beispiel: {3}(How many single-colored paths go from A to C? Answer with a number in curly brackets, e.g., {3})", der zweite: "Zählen Sie die einfarbigen Routen, die von A nach C führen. Antworten Sie mit einer Zahl in geschweiften Klammern. Zum Beispiel: {3}(Count the one-colored routes that go from A to C. Answer with a number in curly brackets, e.g., {3}.)". Damit soll bewertet werden, ob das Modell feine Unterschiede in der Formulierung erkennt und dieselbe Bedeutung extrahieren kann.

Die Leistung der vier Modelle beim Verfolgen einfarbiger Pfade ist wie folgt. GPT-4o erreichte im Durchschnitt 45,89 %, Gemini-1.5 Pro im Durchschnitt 40,01 %, Sonnet-3 im Durchschnitt 23,78 % und Sonnet-3.5 im Durchschnitt 50,18 % Genauigkeit. Das heißt, alle Modelle zeigten bei dieser Aufgabe eine schwache Leistung.

Insbesondere fiel die Leistung mit steigender Anzahl an Pfaden stark ab. Das zeigt, dass VLMs Schwierigkeiten haben, einfarbigen Pfaden zu folgen. Auch hier deutet der große Leistungsunterschied zwischen den Modellen darauf hin, dass sich ihre visuellen Verarbeitungsfähigkeiten unterscheiden.

Experimentergebnisse

Alle VLMs zeigten selbst bei einfachen visuellen Aufgaben eine niedrige Genauigkeit. Besonders deutlich war die schwache Leistung bei Aufgaben wie dem Zählen von Liniensegment-Schnittpunkten, der Zustandsprüfung zweier Kreise und der Überprüfung eingekreister Zeichen. Das deutet darauf hin, dass VLMs detaillierte visuelle Informationen nicht präzise erkennen. Auch bei Aufgaben wie dem Zählen überlappender Formen, dem Zählen verschachtelter Quadrate, dem Zählen von Grid-Matrizen und dem Folgen einfarbiger Pfade wurde durchgängig eine schwache Leistung beobachtet.

Insgesamt bestätigten die Experimente, dass die visuelle Wahrnehmungsfähigkeit von VLMs begrenzt ist. Diese Ergebnisse bedeuten, dass noch viele Verbesserungen nötig sind, damit VLMs visuelle Wahrnehmungsfähigkeiten auf menschlichem Niveau erreichen.

Verwandte Forschung und Fazit

Bestehende VLM-Benchmarks konzentrieren sich überwiegend auf die Bewertung hochrangiger visueller Verständnisfähigkeiten. BlindTest ist jedoch der erste Benchmark, der grundlegende visuelle Wahrnehmungsfähigkeiten bewertet, und zeigt klar, welche Grenzen VLMs bei einfachen visuellen Aufgaben haben.

So messen Benchmarks wie MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA und EgoSchema nur die Gesamtleistung von VLMs, ohne konkrete Grenzen klar offenzulegen. Daher ist BlindTest ein wichtiges Werkzeug, um die visuellen Wahrnehmungsfähigkeiten von VLMs präziser zu bewerten. Zudem dürfte BlindTest ein wichtiger Maßstab dafür werden, ob VLMs Bilder ähnlich wie Menschen wahrnehmen können.

Die schwache Leistung bei den BlindTest-Aufgaben deutet darauf hin, dass aktuelle VLMs grundlegende visuelle Wahrnehmungsaufgaben, die ein präzises räumliches Verständnis erfordern, noch nicht gut beherrschen. Diese Einschränkung zeigt, dass Modelle dazu neigen, sich auf ihre Sprachverarbeitungsfähigkeiten zu stützen, was für visuelle Wahrnehmung ungeeignet sein kann. Diese Ergebnisse unterstreichen die Notwendigkeit weiterer Forschung und Entwicklung zur Verbesserung der visuellen Fähigkeiten von VLMs.

Für künftige Forschung sind neue Ansätze erforderlich, um die visuelle Wahrnehmungsfähigkeit von VLMs zu verbessern. So lässt sich etwa das Vision-Modul durch einen Early-Fusion-Ansatz verbessern. Außerdem ist es notwendig, die Trainingsdaten zu diversifizieren, damit VLMs auch bei einfachen visuellen Aufgaben bessere Leistungen erzielen können. Durch solche Bemühungen dürfte sich die visuelle Wahrnehmungsfähigkeit von VLMs verbessern lassen.

📜 VLMs are Blind Paper lesen

https://arxiv.org/abs/2407.06581

🏠 VLMs are Blind Projekt-Homepage

https://vlmsareblind.github.io/

BlindTest GitHub-Repository

https://github.com/anguyen8/vision-llms-are-blind

🤗 BlindTest-Datensatz

https://huggingface.co/datasets/XAI/vlmsareblind

Weiterlesen


Dieser Beitrag basiert auf einem mit dem GPT-Modell zusammengefassten Text; daher kann es vorkommen, dass Inhalte anders als im Original oder nicht ganz in dessen Sinne zusammengefasst wurden. Wenn Sie das Thema interessiert, lesen Sie bitte auch den Originaltext! Falls Ihnen beim Lesen unnatürliche Formulierungen oder Fehler auffallen, teilen Sie uns diese bitte in den Kommentaren mit. 🤗

⚠️Werbung⚠️: War dieser von der 🔥PyTorch Korean User Group🇰🇷 zusammengestellte Beitrag hilfreich für Sie? Wenn Sie sich als Mitglied registrieren, senden wir Ihnen wichtige Beiträge per E-Mail💌 zu! Standardmäßig wöchentlich, aber eine Umstellung auf täglich ist ebenfalls möglich.

Noch keine Kommentare.

Noch keine Kommentare.