Die visuellen Grenzen von Vision-Language-Modellen

(vlmsareblind.github.io)

2 Punkte von GN⁺ 2024-07-11 | 1 Kommentare | Auf WhatsApp teilen

Vision-Language-Modelle (VLMs) wie GPT-4o, Gemini-1.5 Pro, Sonnet-3 und Sonnet-3.5 erzielen hohe Werte in Benchmarks zum visuellen Verständnis, kommen bei niedrigschwelligen visuellen Aufgaben, die Menschen leicht lösen, aber im Schnitt nur auf 58,57 % Genauigkeit
BlindTest prüft präzises räumliches Verständnis anhand von 7 einfachen Aufgaben: Anzahl von Linienkreuzungen, Berührung/Überlappung zweier Kreise, Finden eines markierten Buchstabens, Zählen überlappender Formen, verschachtelte Rechtecke, Tabellenzeilen und -spalten sowie U-Bahn-Routen
Der Gesamtdurchschnitt liegt über der Zufalls-Baseline von 24 %, doch selbst das beste Modell, Sonnet-3.5, erreicht nur 74,94 % und bleibt damit deutlich hinter den von Menschen erwarteten 100 % zurück
Auch bei veränderter Auflösung und Linienstärke können die Modelle nahe beieinanderliegende oder überlappende geometrische Grundelemente und präzise Positionsbeziehungen nicht zuverlässig verarbeiten
Wenn Tabellen Text enthalten, verbessert sich die Leistung beim Zählen von Zeilen und Spalten; bei Eingaben, die räumliches Tracking erfordern, etwa U-Bahn-Karten mit zunehmender Zahl von Routen, fällt die Leistung jedoch stark ab

Problemstellung und Gesamtergebnisse von BlindTest

Paper (ArXiv), Code und Dataset wurden veröffentlicht
Bewertet werden die vier VLMs GPT-4o, Gemini-1.5 Pro, Sonnet-3 und Sonnet-3.5
BlindTest prüft die präzise räumliche Wahrnehmung von VLMs anhand niedrigschwelliger visueller Aufgaben, die für Menschen leicht lösbar sind
Die durchschnittliche Gesamtgenauigkeit liegt bei 58,57 % und damit über der Zufalls-Baseline von 24 %, erreicht aber nicht die erwarteten 100 % Genauigkeit
Im Gesamtdurchschnitt nach Modell liegt Sonnet-3.5 mit 74,94 % vorn
Die wichtigsten Fehler treten wiederholt bei präzisen Positionsbeziehungen, kleinen Abständen, Überlappungen, Routenverfolgung und der Erkennung geometrischer Grundelemente auf

Anzahl von Linienkreuzungen zählen

Aufgabe ist es zu zählen, ob eine blaue und eine rote Polylinie aus je 2 Segmenten sich 0-, 1- oder 2-mal kreuzen
Die Bilder wurden als 1.800 2D-Liniendiagramme auf weißem Canvas erzeugt
- Jede Linie ist durch drei Punkte mit festen und gleichmäßig verteilten x-Koordinaten definiert
- Die y-Koordinaten werden zufällig gesampelt, sodass genau 0, 1 oder 2 Kreuzungen entstehen
Die Antwortoptionen sind {0, 1, 2}; die Zufalls-Baseline beträgt 33 %
Die durchschnittliche Genauigkeit beträgt: GPT-4o 41,61 %, Gemini-1.5 Pro 66,94 %, Sonnet-3 43,41 %, Sonnet-3.5 75,36 %
In den Beispielergebnissen können VLMs Kreuzungspunkte nicht zuverlässig zählen

Berührung und Überlappung zweier Kreise erkennen

Aufgabe ist es, per Yes/No zu beantworten, ob zwei gleich große, ausgefüllte Kreise einander berühren oder überlappen
Es gibt 672 Bilder, erzeugt mit variierender Kreisgröße, Distanz, Richtung und Canvas-Größe
- Der Kreisdurchmesser beträgt 1/4, 1/5, 1/6 oder 1/7 der Canvas-Größe
- Der Abstand zwischen den Kreisumfängen reicht vom -0,15-Fachen bis zum 0,5-Fachen des Durchmessers
- Die Richtungen sind 90°, 0°, -45°, 45°
- Die Canvas-Größen sind 384, 769 und 1155 Pixel
Die richtige Antwort wird durch den Abstand d zwischen den Kreisumfängen bestimmt
- d < 0: überlappend und berührend
- d = 0: nicht überlappend, aber berührend
- d > 0: nicht überlappend und nicht berührend
Die durchschnittliche Genauigkeit beträgt: GPT-4o 72,69 %, Gemini-1.5 Pro 92,78 %, Sonnet-3 84,52 %, Sonnet-3.5 91,66 %
Bei kleinen Abständen scheitern VLMs durchgehend, und auch bei größeren Abständen gibt es Fälle, in denen GPT-4o instabil ist

Den mit einer roten Ellipse markierten Buchstaben finden

VLMs können für sich genommen einfache Formen wie rote Kreise erkennen und auch englische Wörter lesen; wird jedoch eine rote Ellipse über einen bestimmten Buchstaben in einem Wort gelegt, fällt es ihnen schwer zu erkennen, um welchen Buchstaben genau es sich handelt
Verwendete Strings sind Acknowledgement, Subdermatoglyphic und tHyUiKaRbNqWeOpXcZvM
- Die drei Strings haben unterschiedliche Buchstabenbreiten und -höhen
- Alle vier Modelle können alle Buchstaben lesen, wenn nur der String als Bild eingegeben wird
- Der Zufallsstring wurde aufgenommen, um den Einfluss der Vertrautheit mit Wörtern auf die Genauigkeit abzuschätzen
Für jede Kombination aus String und markiertem Buchstaben werden 512×512-Bilder erstellt, kombiniert mit 3 Linienstärken der roten Ellipse, 2 Schriftgrößen und 4 Positionen im Canvas
- Acknowledgement: 360 Bilder
- Subdermatoglyphic: 408 Bilder
- tHyUiKaRbNqWeOpXcZvM: 480 Bilder
Die durchschnittliche Genauigkeit beträgt: GPT-4o 70,18 %, Gemini-1.5 Pro 92,81 %, Sonnet-3 73,34 %, Sonnet-3.5 89,22 %
Wenn Modelle falsch liegen, neigen sie dazu, einen benachbarten Buchstaben des markierten Buchstabens vorherzusagen

Überlappende Formen und verschachtelte Rechtecke zählen

Die Aufgabe, überlappende Kreise oder Fünfecke wie beim Olympia-Logo zu zählen, prüft, ob VLMs, die getrennte Kreise zählen können, bei Formen mit Überlappung Schwierigkeiten haben
Bei der Aufgabe mit überlappenden Formen werden auf Canvas-Größen von 384, 769 und 1155 Pixeln 5 bis 9 gleich große Formen in zwei Reihen angeordnet
- Der Kreisdurchmesser beträgt C/5 oder C/10
- Die Seitenlänge der Fünfecke beträgt C/5 oder C/10
- Insgesamt werden 120 Bilder erzeugt
- Die Antworten sind {5, 6, 7, 8, 9}; die Zufalls-Baseline beträgt 20 %
Die Genauigkeit bei überlappenden Kreisen beträgt: GPT-4o 42,50 %, Gemini-1.5 Pro 20,83 %, Sonnet-3 31,66 %, Sonnet-3.5 44,16 %
Die Genauigkeit bei überlappenden Fünfecken beträgt: GPT-4o 19,16 %, Gemini-1.5 Pro 9,16 %, Sonnet-3 11,66 %, Sonnet-3.5 75,83 %
Bei der Aufgabe mit verschachtelten Rechtecken werden innerhalb des äußersten Rechtecks weitere Rechtecke platziert, ohne einander zu berühren; gezählt werden 2 bis 5 Rechtecke
- Insgesamt werden 120 Bilder erzeugt
- Die Genauigkeit beträgt: GPT-4o 55,83 %, Gemini-1.5 Pro 87,08 %, Sonnet-3 65,00 %, Sonnet-3.5 92,08 %
- In den Beispielen gelingt nur Sonnet-3.5 bei vielen Bildern das Zählen der Rechtecke

Tabellenzeilen und -spalten zählen sowie U-Bahn-Routen verfolgen

Die Aufgabe zum Zählen von Tabellenzeilen und -spalten prüft, ob VLMs selbst in Situationen, in denen sie bei Eingaben mit Tabellen hohe Leistung zeigen, einfache Grid-Strukturen korrekt zählen können
Die Grids haben die Formen N×N, N×N' und N'×N; N liegt zwischen 3 und 9, N' ist N+1
- Die Canvas-Größen sind 500, 1250 und 2000 Pixel
- Es gibt 2 Linienstärken
- Enthalten sind sowohl leere Grids als auch Grids mit Zufallswörtern in jeder Zelle, insgesamt 444 Bilder
Nur wenn sowohl Zeilen als auch Spalten korrekt sind, zählt die Antwort als richtig; die durchschnittliche Genauigkeit beträgt: GPT-4o 39,58 %, Gemini-1.5 Pro 39,39 %, Sonnet-3 36,17 %, Sonnet-3.5 74,26 %
- Durchschnitt bei leeren Grids: 34,37 %
- Durchschnitt bei Grids mit Text: 60,33 %
- Wenn Zellen Text enthalten, verbessert sich die Leistung aller VLMs, besonders stark bei Sonnet-3.5
Bei der U-Bahn-Karten-Aufgabe soll die Zahl einfarbiger Routen gezählt werden, die zwei bestimmte Stationen unter den vier Stationen A, B, C und D verbinden
- Verwendet werden Canvas-Größen von 512 oder 1024 Pixeln
- Routen werden per Tiefensuche auf einem unsichtbaren 18×18-Grid erzeugt
- Jede Station hat genau N∈{1, 2, 3} ausgehende Routen
- Insgesamt werden 180 Karten erzeugt
Die durchschnittliche Genauigkeit bei U-Bahn-Routen beträgt: GPT-4o 47,89 %, Gemini-1.5 Pro 41,60 %, Sonnet-3 23,24 %, Sonnet-3.5 55,53 %
- Durchschnitt bei 1 Route pro Station: 59,16 %
- Durchschnitt bei 2 Routen: 40,69 %
- Durchschnitt bei 3 Routen: 26,35 %
Wenn die Zahl der von einer Station ausgehenden Routen steigt, verschlechtert sich die Leistung der VLMs tendenziell

1 Kommentare

GN⁺ 2024-07-11

Hacker-News-Kommentare

Interessant ist es, aber die Schlussfolgerung scheint ziemlich daneben. Im Abstract zu schreiben, „ihr Sehen ähnelt bestenfalls Kurzsichtigkeit, bei der Details verschwommen erscheinen“, ist übertrieben, und ich frage mich, ob diese Hypothese überhaupt richtig geprüft wurde.
Wenn ich Beispiele aus der Arbeit teilen könnte, in denen GPT-4v ziemlich schwierige feingranulare visuelle Aufgaben erledigt hat, würde das diese Schlussfolgerung widerlegen. Persönlich halte ich dieses Paper https://arxiv.org/abs/2404.04125 für überzeugender; seine These ist, dass große generative KI-Modelle recht gut sind, sofern man davon ausgeht, dass sie im Training sehr viele Daten dieses Typs gesehen haben. Wenn man absichtlich seltsame Aufgaben konstruiert, können sie wirklich schlecht abschneiden, und der erste Eindruck von AGI wird schwächer, aber in der Praxis verwendet man nicht nur Aufgaben, die dazu gebaut sind, Modelle zu Fall zu bringen. Bei bestimmten Aufgaben kann die Leistung gut sein, doch dieses Paper liefert nicht genügend substantielle Belege für diese beiden Seiten.
- In den Kommentaren sieht man einige „KI-Verteidiger“, aber wenn solche Modelle für Zwecke wie Be My Eyes für sehbehinderte Menschen als eine Art Ersatz für menschliches Sehen vermarktet werden, finde ich den Titel fair: https://www.youtube.com/watch?v=Zq710AKC1gg
  Diese Modelle sind in Wirklichkeit nicht auf menschlichem Niveau, werden aber als beinahe menschlich suggeriert. Das Paper zeigt, dass es selbst bei einfachen Problemen noch eine große Lücke gibt, bei der Modelle unerwartet verwirrt werden. Solche Aufgaben sollte man stärker sichtbar machen, damit klar wird, dass Schutzmaßnahmen und ausreichende Warnhinweise nötig sind, bevor Menschen glauben, sie seien für allgemeine Zwecke geeignet.
- „Interessant“ ist die richtige Beschreibung. Es findet gut Randfälle in der visuellen Verarbeitung des Modells, und interessanterweise sind sie konzeptionell gar nicht so weit von einigen optischen Täuschungen entfernt, auf die Menschen leicht hereinfallen.
  Aber das Modell „blind“ zu nennen oder allgemein niedrige Leistung zu suggerieren, lässt sich schon dadurch leicht widerlegen, dass man das Handy herausnimmt und ein Foto in die ChatGPT-App lädt. Es gibt auch Reaktionen, die mit Verweis auf BeMyEyes „KI-Verteidiger“ kritisieren, aber mit einem 20-Dollar-Monatsabo und einem Handy kann man es sofort testen. Bei Aufgaben in der realen Welt funktioniert es erstaunlich gut, und auch wenn es nicht perfekt ist, ist es praktisch ausreichend nützlich und oft besser als Alternativen – oder es gibt keine Alternativen.
- Die Formulierung „Kurzsichtigkeit, bei der Details verschwommen erscheinen“ ist gar nicht so weit von der Realität entfernt. Die meisten Modelle sehen Bilder in niedriger Auflösung und mit begrenzten Farben, daher kommt diese Beschreibung ziemlich nah heran.
- Ist „große generative KI-Modelle sind recht gut“ wirklich ein Verkaufsargument? Schon vor 15 Jahren gab es Scanner mit einer Windows-App, die nach dem Scannen von Dokumenten Text extrahieren konnte, und diese Maschine hatte ungefähr 256 MB RAM.
  Technologie kann in isolierten Nischenaufgaben extrem gut sein. Auch OCR-Systeme von vor 10 Jahren waren bei einer festgelegten Einzelaufgabe sehr zuverlässig. Was KI versprochen hat, ist ein neues Paradigma, das nicht in einer vom Entwickler vorgegebenen bestimmten Nische gefangen ist; wenn sie einfache Dinge, die ein normaler Mensch nicht falsch machen würde, zuverlässig übersieht, bricht das gesamte Wertversprechen zusammen.
- Die Voraussetzung „ich kann es zwar nicht teilen, aber“ ist interessant. Es klingt, als sei das Modell bei bestimmten geheimen visuellen Verarbeitungsaufgaben so hervorragend, dass man Bewertungen wie Formen zählen oder Genauigkeit oberhalb von Münzwurf-Niveau nicht berücksichtigen sollte.
Gestern hatte ich mit GPT-4o eine ziemlich erstaunliche Erfahrung. Mein Garagentor war in letzter Zeit herunterzusacken begonnen, und als ich nachsah, stellte sich heraus, dass der Vermieter eine Drahtseilklemme falsch montiert hatte, sodass die Spannung des Torsionskabels gelöst war.
Ich kannte den Namen des Teils nicht und fragte ChatGPT danach; wie erwartet identifizierte es das Bauteil. Testweise fragte ich, ob ihm auf dem Foto etwas auffalle, und es erkannte korrekt, dass das Kabel verkehrt herum montiert war: Die Seite, die unter Spannung stand, lag nicht so, dass sie das lose Ende fest in die Klemme drückte, sondern verlief darüber. Um das zu diagnostizieren, muss man dem Kabel räumlich folgen und aus der Geometrie schließen, welche Seite unter Spannung steht; natürlich kann ich nicht ausschließen, dass es ein glücklicher Treffer war. Wirklich erstaunlich war, dass von zwei Muttern eine offensichtlich fehlte, es das aber selbst dann nicht bemerkte, nachdem es mich auf ein zweites Installationsproblem hingewiesen hatte. Screenshot: https://imgur.com/a/QqCNzOM
- Ein Mensch müsste dem Kabel folgen. Ein LLM könnte aber auch aufgrund der Tatsache geantwortet haben, dass allein die Frage nach der Klemme normalerweise gestellt wird, wenn etwas nicht stimmt, und dass dies eine sehr häufige Fehlerart ist.
  Dass es die Eselsbrücke „never saddle a dead horse“ hervorgeholt hat, ist ebenfalls ein Hinweis darauf, dass dieses Problem häufig ist. Es wäre gut, nach der Reparatur dieselbe Frage noch einmal zu stellen.
- Mit meinen menschlichen Augen war auf dem Foto nicht genug zu sehen, um zu erschließen, welche Seite unter Spannung stehen sollte. Ich bin zwar nicht dafür ausgebildet, aber nach der Erklärung wusste ich, wie es aussehen sollte.
  Wie in einer anderen Antwort bin ich skeptisch, dass das LLM einfach nur Glück hatte.
- Um räumlich zu folgen, braucht man Kurzzeitgedächtnis und Denkfähigkeit. Das Modell hat so etwas nicht, also wird es letztlich geraten haben.
Bislang waren VLMs nicht gut in Aufgaben wie Objekte zählen oder räumliche Beziehungen zu erkennen, etwa ob der Kaffee rechts von der Mikrowelle steht.
Es gibt Methoden, VLMs zu unterstützen; ein prominentes Beispiel ist Microsofts Set of Marks https://github.com/microsoft/SoM. Dabei werden, bevor das Bild an das VLM geschickt wird, per Segmentierung Bereiche umrissen und mit Labels versehen. Wenn man Bereichen „sprachlich ausdrückbare“ Labels gibt, hilft das, die visuellen Fähigkeiten des VLM zu verankern; in diesem Paper erklärt das auch, warum die Leistung bei „Task 6: Counting the rows and columns of a grid“ deutlich besser ist, wenn sich Wörter im Raster befinden.
- Ich wusste nicht, dass Objektzählen ein Problem ist. Ironisch, denn soweit ich weiß, war die erste Implementierung eines neuronalen Netzes die um 1960 im Biological Computer Lab gebaute numa-rete-Kunstnetzhaut.
  Das war ein paralleler Analogcomputer mit in einem Raster angeordneten „Neuronen“ samt Fotozellen und soll „die Anzahl von Objekten unabhängig von Größe, Position, Form und Beleuchtungsstärke“ zählen gekonnt haben. Für Leute in diesem Bereich könnte Heinz Von Foersters Paper von 1962, „Perception of Form in Biological and Man Made Systems“, interessant sein: https://distributedmuseum.illinois.edu/exhibit/biological_computer_laboratory/, https://sites.evergreen.edu/arunchandra/wp-content/uploads/sites/395/2018/05/bcl082.pdf
- Visuelle Modelle verwenden CLIP oder etwas Ähnliches, haben aber kein Konzept davon, konkrete Objekte im Bild zu verstehen. Sie betrachten nur Embeddings, die ähnlich korrelieren wie Text-Embeddings.
  Man beschreibt etwa ein Bild als „Vögel sitzen auf einer Stromleitung vor blauem Himmel und Wolken“ und gleicht dann das Embedding dieser Beschreibung mit dem Embedding des Fotos ab. Wenn man fragt, ob Vögel vorhanden sind, kann es das wissen, aber nicht, wie viele. Es sei denn, in den Trainingsdaten wurden häufig die Zahlen von Vögeln beschrieben, die auf Dingen sitzen, und diese Zahlen stimmten oft genug mit der tatsächlichen Anzahl in der Bildbeschreibung überein. Wenn man Objekte zählen will, braucht man etwas wie YOLO.
Vision Transformer betreiben im Tokenizer überraschend starke Kompression. Im Chameleon paper heißt es, der Tokenizer „kodiert ein 512 × 512-Bild in 1024 diskrete Tokens aus einem Codebook der Größe 8192“.
Das entspricht 256 Pixeln pro Token; wenn man pro Pixel 24 Bit annimmt, werden 256 * 24 = 6144 Bit auf log2(8192), also 13 Bit, komprimiert. An Image is Worth 32 Tokens for Reconstruction and Generation treibt das noch weiter. Wenn diese Modelle ähnlich funktionieren, ist es nicht überraschend, dass sie sich mit manchen visuellen Aufgaben schwertun.
- Ganz so einfach ist es nicht. Wenn man GPT-4o bittet, eine Kopie eines solchen Bildes zu erstellen, macht es das meist recht originalgetreu. Zum Beispiel erzeugt es auch ein Bild mit fünf Rechtecken.
  In gewissem Maß „sieht“ es also. Es scheint nur an der Logik zu fehlen, um solche Fragen zu beantworten. Das gesamte Dataset kann man hier direkt ausprobieren: https://huggingface.co/datasets/XAI/vlmsareblind/viewer/default/train
- GPT-4o ist bei einigen visuellen Aufgaben wie OCR sehr stark. Die selektive Blindheit könnte daher, wie gesagt, das Ergebnis davon sein, dass die gesamte Kapazität darauf verwendet wurde, den Loss bei einigen engen Aufgaben mit den meisten Trainingsdaten zu reduzieren.
  Es könnte eher ein Kapazitätsproblem sein als ein strukturelles Versagen bei der Generalisierung, und es ist möglich, dass es sich durch weiteres Skalieren von selbst löst.
- Als ich nach einem ähnlichen Beispiel aus nicht-visuellen menschlichen Sinnesmodalitäten gesucht habe, fiel mir die Situation ein, jemandem, der es nie probiert hat, den Geschmack von Obst erklären zu wollen.
Wenn aktuelle Spitzenmodelle wie GPT-4o, Gemini-1.5 Pro, Sonnet-3 und Sonnet-3.5 auf diesem Niveau sind, ist ihre Leistung ziemlich peinlich schlecht. Diese Modelle werden damit beworben und verkauft, dass sie Bilder verstehen können, etwa um Blinde zu führen oder einem Kind Geometrie beizubringen.
Die Aufgaben, an denen sie scheitern, sind für Menschen absurd simpel. Zum Beispiel zählen, wie oft sich zwei Linien schneiden, erkennen, ob sich zwei Kreise überlappen, den eingekreisten Buchstaben in einem Wort auswählen oder die Anzahl der Kreise in einer olympialogoähnlichen Zeichnung zählen. Dieser Beitrag sollte ganz oben auf der Titelseite stehen.
- Ich verstehe nicht, warum das auch nur ein bisschen „peinlich“ sein soll. Diese Modelle sind keine menschlichen Gehirne, und dass Menschen sie mit menschlichen Gehirnen gleichsetzen, ist ein peinlicheres Versagen als das der Modelle.
  Es ist überhaupt nicht überraschend, dass ein Modell viele Fälle nicht bewältigt, die „für Menschen offensichtlich“ sind. Machine Learning hatte diese Eigenschaft von Anfang an, und es ist ein klassischer Fehler, den Menschen im Umgang mit solchen Systemen machen. Wenn ein Machine-Learning-Modell bei Aufgabe X eine höhere Genauigkeit als Menschen zeigt, nehmen Menschen an, dass es diese Fähigkeit auch bei allen anderen Aufgaben hat. Bei einem Menschen mit herausragenden Fähigkeiten wäre es wahrscheinlich, dass er auch bei anderen Aufgaben gut ist, aber das gilt nicht für Machine-Learning-Modelle. Umgekehrt ist es ebenfalls falsch, zu schließen, die Fähigkeit des Modells bei Aufgabe X sei eine Illusion und nicht vertrauenswürdig, nur weil es Aufgabe Y schlecht kann.
- Diese Reaktion liest sich wie: „Mein sprechender Hund liegt bei Analysis-Aufgaben ständig falsch, wie peinlich!“
  Ist das Erwartungs-Laufband wirklich so schnell geworden, dass unter-menschliche Leistung in irgendeiner Problemkategorie inzwischen peinlich ist?
Die Entdeckung an sich ist interessant, aber der Titel „Vision language models are blind“ ist übertrieben und führt bei den Ergebnissen in die Irre. Es stimmt, dass sich die Art, wie VLMs Bildeingaben erfassen und verarbeiten, stark von der des Menschen unterscheidet und dass Bilder bei niedriger Auflösung in Blöcke zerlegt und dann auf diskrete Tokens abgebildet werden.
Diese Abbildung ist ziemlich verlustbehaftet, sodass sie tatsächlich keinen Zugriff auf feine Details haben. In diesem Sinne sind die Ergebnisse völlig plausibel und nicht überraschend, aber die Formulierung „blind“ hat starke Implikationen, die diese Studie nicht stützen kann. Schon beim ersten Beispiel mit vier zweidimensionalen Liniendiagrammen gab Sonnet 3.5 bei 5 Nachfragen 2-mal eine ziemlich gute Antwort. Es lag zwar falsch, als es sagte, das dritte Diagramm habe 1 Schnittpunkt, obwohl es tatsächlich 2 sind, aber insgesamt war es ziemlich gut; die übrigen 3 Antworten nannten ebenfalls 1 Schnittpunkt im dritten Diagramm.
Aus der Perspektive von jemandem, der nur oberflächlich weiß, wie VLMs funktionieren, habe ich hier das Gefühl, dass die Leute, die von Verkörperung sprechen, ein Stück weit recht haben könnten. Menschen können ihre Bilderkennung iterativ verfeinern und den Fokus auf interessierende Bereiche legen, während VLMs das gesamte Bild mit derselben Wiedergabetreue verarbeiten müssen.
Ich frage mich, ob es eine Möglichkeit gibt, das nachzuahmen: zunächst visuelle Tokens mit niedriger Wiedergabetreue und dann dem VLM zu ermöglichen, Tokens auszugeben, mit denen es auf bestimmte Bereiche des Bildes in höherer Auflösung „fokussiert“. Allerdings weiß ich nicht, ob man Modelle mit solchen „interaktiven“ Daten effizient trainieren kann.
- Ist das nicht genau der Attention-Mechanismus? Deshalb verwendet man für solche Aufgaben doch Transformer, würde ich meinen.
  Nicht zwingend mit höherer Auflösung, sondern indem bestimmte Bereiche durch stärkere neuronale Verknüpfung in den Fokus rücken.
- Menschen kommen tatsächlich mit verschwommener Sicht zur Welt, weil es Zeit braucht, bis sich die Augen entwickeln; menschliches Lernen beginnt also mit Bildern niedriger Auflösung. Es gibt auch Theorien, dass das keine Einschränkung ist, sondern ein Vorteil für die Entwicklung des visuellen Verarbeitungssystems sein kann.
  Menschen in armen Ländern, deren Katarakt erst etwas später entfernt wurde, sollten hardwareseitig zu diesem Zeitpunkt eigentlich perfektes Sehvermögen haben, scheinen aber trotzdem lebenslange Defizite zu behalten. Es ist nicht vollständig bekannt, wie stark frühes Lernen mit niedriger Auflösung Menschen beeinflusst; das könnte eher mit der spezifischen Neurobiologie des Menschen zusammenhängen als eine allgemeine Wahrheit über konnektionistische Systeme sein. Trotzdem ist der Gedanke interessant, dass manche Ergebnisse künstlicher neuronaler Netze stark vom Trainingsparadigma abhängen können und sich nicht jeder Defekt allein durch ein Update der Kernarchitektur beheben lässt.
- Um die menschliche Aufmerksamkeitsverarbeitung nachzuahmen, könnten große Mengen an Eye-Tracking-Daten, gekoppelt mit dem, was die Person gerade betrachtete, ein vergleichsweise leicht zu erschließender Ansatzpunkt für Verbesserungen sein.
- Diese Modelle haben bereits gelernt, sich auf bestimmte Teile eines Bildes zu konzentrieren. Genau das ist schließlich der ausdrückliche Zweck von Transformern.
- Die Fähigkeit des Menschen, Wahrnehmung iterativ zu „verfeinern“, hat nichts mit embodied cognition zu tun.
Es ist ironisch, dass sie bei einfachen Tests scheitern, die scheinbar auch ein Kind lösen könnte. Als ich Gemini aber eine visuell verrauschte Postkarte mit handgeschriebener russischer Kursivschrift lesen ließ, konnte es den Text lesen und sogar ins Englische übersetzen.
Ich musste ihm nicht einmal sagen, dass der Text Russisch war. Einerseits ist es kaum zu glauben, wie beeindruckend das ist, was LLMs leisten können; andererseits stolpern sie bei solchen einfach wirkenden Problemen oft massiv. Ähnliches sieht man bei autonomen Autos, die in Situationen Unfälle bauen, die fast jeder menschliche Fahrer leicht vermieden hätte.
- Für Kinder ist es einfach. Denn unser Sehen hat sich evolutionär darauf entwickelt, solche Muster zu erkennen, weil sie überlebenswichtig waren. Russisch zu lesen war das nicht.
  Aus algorithmischer Sicht sind solche visuellen Aufgaben tatsächlich ziemlich schwer explizit zu programmieren.
Ich habe ein paar Mal Vorlesungen über algorithmische Geometrie gehalten, und das effiziente Berechnen der Schnittpunkte von N Liniensegmenten ist nicht so einfach, wie man zunächst denkt. Irgendwo ist Rechenarbeit nötig, um das zu erkennen, und da LLMs nicht speziell für diese Aufgabe trainiert wurden, ist es nicht überraschend, dass sie sich damit schwertun.
Insgesamt scheint elementare Geometrie aus Lernperspektive ein weniger erforschtes Gebiet zu sein.
- Zu entscheiden, ob auf einem Foto ein Hund zu sehen ist, oder die Stimmung eines Absatzes zu verstehen, ist ebenfalls nicht einfach. Die Komplexität an sich scheint nicht der entscheidende Punkt zu sein.
  Es scheint einen Unterschied zu geben zwischen den Arten von Schlussfolgerungen, die diese Modelle gelernt haben, und den Schlussfolgerungen, die für konkretes mathematisches Schließen nötig sind.
- Menschen haben auch keine Fähigkeit zum „Berechnen von Schnittpunkten“. Abgesehen von dem Teil, den einige mühsam über Algebra gelernt haben, haben wir einen Mechanismus zum „Hinsehen und Zählen“.
  Wir nehmen Linien im ebenen Raum nicht visuell auf und berechnen dann, wo sie sich schneiden. Wir wissen, wie ein Schnittpunkt aussieht, sehen einen, erhöhen den Zähler und suchen den nächsten. Bei weniger als ungefähr 5 verarbeiten wir sie auf einmal; bei mehr zählen wir tatsächlich, manchmal in kleinen Gruppen, manchmal einzeln.
Alle Modelle, insbesondere Claude 3.5 Sonnet, scheinen deutlich besser als Zufall zu sein, sie sind also eindeutig nicht blind. Die einzige Aufgabe, bei der Claude Sonnet 3.5 nicht besser als Zufall war, war ein Problem, bei dem man mehreren Pfaden folgen musste, also der Fall von A nach C mit der Antwort 3; dafür brauchte selbst ich ein paar Sekunden.
Es wirkt so, als habe man zuerst den Titel des Papers festgelegt und dann das neue Claude 3.5 Sonnet mit abstrakten Bildern evaluiert. Auch der Satz „Ihr Sehen gleicht bestenfalls Kurzsichtigkeit, bei der Details verschwommen erscheinen“ ergibt keinen Sinn. Diese Bilder bewerten die Abstraktionsfähigkeit des Modells, nicht seine Sehschärfe.
- Dann nennen wir sie juristisch eben sehbehindert.

Die visuellen Grenzen von Vision-Language-Modellen

Problemstellung und Gesamtergebnisse von BlindTest

Anzahl von Linienkreuzungen zählen

Berührung und Überlappung zweier Kreise erkennen

Den mit einer roten Ellipse markierten Buchstaben finden

Überlappende Formen und verschachtelte Rechtecke zählen

Tabellenzeilen und -spalten zählen sowie U-Bahn-Routen verfolgen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare