Vergleich der Erzeugung von Alt-Texten für Bilder mit lokalen LLMs

(dri.es)

3 Punkte von GN⁺ 2025-03-13 | 1 Kommentare | Auf WhatsApp teilen

Von 10.000 im Blog gespeicherten Fotos hatten etwa 9.000 keinen alt-text
Dafür wurden 12 LLMs (Large Language Models) getestet, davon 10 lokal ausgeführt und 2 Cloud-basierte Modelle (GPT-4, Claude 3.5 Sonnet)
Das Schreiben von alt-text ist eine wichtige Aufgabe zur Verbesserung der Barrierefreiheit für sehbehinderte Menschen, manuell ist es jedoch aufwendig
Ziel war es, die Genauigkeit von KI-Modellen bei der Erstellung von alt-text zu testen und zu prüfen, ob lokale Modelle eine praktikable Alternative sein können

Getestete KI-Modelle

Lokale Modelle (10)
- 9 Modelle liefen auf einem MacBook Pro (32GB RAM)
- 1 Modell lief auf der leistungsstarken Hardware eines Freundes
Cloud-Modelle (2)
- GPT-4o (OpenAI)
- Claude 3.5 Sonnet (Anthropic)

Wichtige Leistungsvergleiche

Cloud-Modelle (GPT-4o, Claude 3.5 Sonnet)
- Erzeugten die präzisesten alt-Texte
- Waren stark in Detailbeschreibung und erfassten sogar die Stimmung des Bildes gut
- Bewertungsnote: A
Lokale Modelle mit guter Leistung
- Llama 3.2 Vision 11B
  - Gute genaue Objekterkennung und starkes Kontextverständnis
  - Bewertungsnote: B
- Llama 3.2 Vision 90B
  - Etwas höhere Genauigkeit als das 11B-Modell, benötigte aber mehr RAM für die Ausführung
  - Bewertungsnote: B
- MiniCPM-V
  - Zeigte trotz seines relativ leichten Gewichts eine starke Leistung
  - Bewertungsnote: B
Modelle mit schwacher Leistung
- Frühe Modelle wie VIT-GPT2, GIT und BLIP neigten zu ungenauer Objekterkennung und repetitiven Formulierungen
- Bewertungsnote: D~F

Wie KI-Modelle Bilder analysieren

Vision Encoding
- Zerlegt ein Bild in kleine Patches und wandelt diese in numerische Daten (Embeddings) um
- Filtert Bereiche heraus, die Aufmerksamkeit verdienen (z. B. Hauptobjekte), und entfernt weniger wichtige Elemente (z. B. einfache Hintergründe)
Language Encoding
- Erzeugt auf Basis der vom Vision Encoder bereitgestellten Informationen natürlichsprachlichen Text
- Generiert Text in Form von Bildbeschreibungen oder Antworten auf Fragen

Testbilder und Ergebnisse

Shibuya-Kreuzung (Tokio)
- GPT-4o, Claude: "Die Shibuya-Kreuzung voller Neonschilder und Menschenmengen" → Note A
- LLaVA 13B: "Szene von Menschen, die die Shibuya-Kreuzung überqueren" → Note A
- Llama 3.2 Vision 11B: "Belebte nächtliche Stadtszene in Tokio mit Werbetafeln und Menschenmengen" → Note C
- VIT-GPT2: "Städtische Nachtszene mit Hochhäusern und Ampeln" → Note F (ungenau)
Isabella Stewart Gardner Museum (Boston)
- Claude: "Viktorianischer Raum, Kronleuchter, vergoldete Rahmen" → Note B
- Llama 3.2 Vision 11B: "Vergoldete Rahmen und dekorativer Hintergrund" → Note A
- BLIP-2 OPT: "Ein Raum mit an der Wand hängenden Bildern und Rahmen" → Note C
- VIT-GPT2: "Wohnzimmer mit Kerzen und einer Vase vor einem Spiegel" → Note F (ungenau)
Wakeboarding (Vermont, USA)
- GPT-4o: "Zwei Personen auf einem Boot beobachten einen Wakeboarder" → Note A
- Llama 3.2 Vision 90B: "Zwei Personen auf einem Boot sehen Wakeboarding zu" → Note A
- BLIP-2 FLAN: "Jemand auf einem Boot schaut beim Surfen zu" → Note C
- VIT-GPT2: "Zwei Personen mit Surfboards stehen auf einem Boot" → Note E (ungenau)

Bewertungsergebnisse

Cloud-Modelle (GPT-4o, Claude 3.5 Sonnet): Note A
- Lieferten die genauesten Beschreibungen und erfassten sogar die Stimmung
Spitzengruppe unter den lokalen Modellen (Llama 11B, Llama 90B, MiniCPM-V): Note B
- Bei der Genauigkeit etwas schwächer als Cloud-Modelle, aber praktisch einsetzbar
Frühe Modelle (VIT-GPT2, GIT, BLIP usw.): Note D~F
- Repetitive Ausdrücke, Halluzinationen (hallucination) traten auf

Punkte zur weiteren Abwägung

Wenn `alt`-Text nicht perfekt ist, ist er dann trotzdem besser als gar keiner?

Selbst alt-Text auf B-Niveau könnte besser sein als keiner
Allerdings können ungenaue Informationen (z. B. das Hinzufügen nicht vorhandener Objekte) sehbehinderte Nutzer verwirren

Optionen für den nächsten Schritt

KI-Ausgaben kombinieren
- Mehrere Modelle kombinieren, um die genaueste Beschreibung zu erzeugen
Auf Upgrades warten
- Das derzeit beste lokale Modell verwenden und in 6–12 Monaten auf ein neues Modell aktualisieren
Cloud-Modelle nutzen
- Für höhere Genauigkeit Cloud-basierte Modelle verwenden, allerdings sind Kosten und Datenschutz problematisch
Hybrider Ansatz
- Von KI erzeugte alt-Texte von Menschen prüfen und ergänzen lassen (für 9.000 Bilder realistisch schwer umsetzbar)

Der derzeit vernünftigste Ansatz scheint zu sein, lokale Modelle zu verwenden und später auf weiterentwickelte Modelle zu aktualisieren

1 Kommentare

quilt8703 2025-03-14

Ich versehe Bilder, die ich auf Twitter und ähnlichen Plattformen poste, mit Alt-Texten, und ich habe schon einmal darüber nachgedacht, dass es für mich vielleicht bequemer wäre, Beiträge zu veröffentlichen, wenn ich das an eine KI delegieren könnte. Ich bin mir nicht sicher, ob dafür ein LLM nötig ist; ich hatte den Eindruck, dass eine Technologie wie CLIP dafür ausreichen könnte.

Einer der Gründe, warum ich diese Arbeit nicht gemacht habe, war, dass so eine Funktion gut in Screenreader integriert werden könnte, und ich fand, dass es richtiger wäre, zumindest ein wenig zusätzlichen Kontext beizusteuern, den ein Mensch liefern kann. Natürlich war der größte Grund aber, dass ich schlicht zu faul war.