Drei VLM-Benchmarks zur Bewertung der koreanischen Sprachfähigkeit veröffentlicht (KO-VQA, KO-VDC, KO-OCRAG)
(github.com/Marker-Inc-Korea)Mit dem zuletzt stark gestiegenen Interesse an VLMs wurde ein Benchmark veröffentlicht, mit dem sich die Koreanisch-Fähigkeiten von VLMs in verschiedenen Bereichen überprüfen lassen.
In diesem Projekt werden insgesamt drei Benchmarks vorgestellt.
- KO-VQA: Bewertung des Verständnisses koreanischer Dokumente aus verschiedenen Domänen sowie der Fähigkeit, dokumentenbasierte Antworten abzuleiten
- KO-VDC: Bewertung des Verständnisses koreanischer Visualisierungen und schematischer Darstellungen sowie der Fähigkeit, auf Diagrammen basierende Beschreibungstexte zu erzeugen bzw. zu verstehen
- KO-OCRAG: Bewertung der OCR-Fähigkeiten für koreanische Dokumente mit komplexer Struktur sowie der Fähigkeit zum Parsing des in Dokumenten auftretenden visuellen Kontexts
Die Auswertung aller Datensätze erfolgt vollständig im Multiple-Choice-Format, ohne sich auf LLM-as-a-Judge zu stützen.
Verglichen wurden verschiedene Open-Source-VLMs, die innerhalb einer einzelnen A100 40GB oder 80GB lauffähig sind, sowie das Closed-Source-Modell gemini.
- gemini zeigt in allen Benchmarks eine klar überlegene Leistung.
- Unter den Open-Source-Modellen zeigt Qwen3 eine herausragende Leistung.
- Auch das Modell VARCO-VISION-2.0 von NCSoft zeigt keine schlechte Leistung.
- Zusammengefasst bestätigt sich, dass die Lücke bei der Koreanisch-Leistung zwischen Closed-Source-VLMs und Open-Source-VLMs weiterhin recht groß ist.
- Außerdem ist es etwas verblüffend, dass gemini beinahe perfekte Punktzahlen erzielt hat.
Ausführliche Erklärungen zu den Datensätzen finden sich in den jeweiligen Readmes.
KO-VQA README
KO-VDC README
KO-OCRAG README
⭐⭐Github star⭐⭐, Interesse und Weiterempfehlung sind eine große Unterstützung für die Entwicklung von Open-Source-Projekten!!
Dieses Projekt wurde mit Unterstützung von markrAI durchgeführt.
Noch keine Kommentare.