Drei VLM-Benchmarks zur Bewertung der koreanischen Sprachfähigkeit veröffentlicht (KO-VQA, KO-VDC, K

Mit dem zuletzt stark gestiegenen Interesse an VLMs wurde ein Benchmark veröffentlicht, mit dem sich die Koreanisch-Fähigkeiten von VLMs in verschiedenen Bereichen überprüfen lassen.

In diesem Projekt werden insgesamt drei Benchmarks vorgestellt.

KO-VQA: Bewertung des Verständnisses koreanischer Dokumente aus verschiedenen Domänen sowie der Fähigkeit, dokumentenbasierte Antworten abzuleiten
KO-VDC: Bewertung des Verständnisses koreanischer Visualisierungen und schematischer Darstellungen sowie der Fähigkeit, auf Diagrammen basierende Beschreibungstexte zu erzeugen bzw. zu verstehen
KO-OCRAG: Bewertung der OCR-Fähigkeiten für koreanische Dokumente mit komplexer Struktur sowie der Fähigkeit zum Parsing des in Dokumenten auftretenden visuellen Kontexts

Die Auswertung aller Datensätze erfolgt vollständig im Multiple-Choice-Format, ohne sich auf LLM-as-a-Judge zu stützen.
Verglichen wurden verschiedene Open-Source-VLMs, die innerhalb einer einzelnen A100 40GB oder 80GB lauffähig sind, sowie das Closed-Source-Modell gemini.

gemini zeigt in allen Benchmarks eine klar überlegene Leistung.
Unter den Open-Source-Modellen zeigt Qwen3 eine herausragende Leistung.
Auch das Modell VARCO-VISION-2.0 von NCSoft zeigt keine schlechte Leistung.
Zusammengefasst bestätigt sich, dass die Lücke bei der Koreanisch-Leistung zwischen Closed-Source-VLMs und Open-Source-VLMs weiterhin recht groß ist.
Außerdem ist es etwas verblüffend, dass gemini beinahe perfekte Punktzahlen erzielt hat.

Ausführliche Erklärungen zu den Datensätzen finden sich in den jeweiligen Readmes.
KO-VQA README
KO-VDC README
KO-OCRAG README

⭐⭐Github star⭐⭐, Interesse und Weiterempfehlung sind eine große Unterstützung für die Entwicklung von Open-Source-Projekten!!
Dieses Projekt wurde mit Unterstützung von markrAI durchgeführt.

Drei VLM-Benchmarks zur Bewertung der koreanischen Sprachfähigkeit veröffentlicht (KO-VQA, KO-VDC, KO-OCRAG)

Mit dem zuletzt stark gestiegenen Interesse an VLMs wurde ein Benchmark veröffentlicht, mit dem sich die Koreanisch-Fähigkeiten von VLMs in verschiedenen Bereichen überprüfen lassen.

Noch keine Kommentare.

Drei VLM-Benchmarks zur Bewertung der koreanischen Sprachfähigkeit veröffentlicht (KO-VQA, KO-VDC, KO-OCRAG)

Mit dem zuletzt stark gestiegenen Interesse an VLMs wurde ein Benchmark veröffentlicht, mit dem sich die Koreanisch-Fähigkeiten von VLMs in verschiedenen Bereichen überprüfen lassen.

Verwandte Beiträge

Noch keine Kommentare.