Wie gut können VLMs koreanische Dokumente öffentlicher Einrichtungen lesen? KOLongDoc-Benchmark veröffentlicht

(github.com/Marker-Inc-Korea)

5 Punkte von kyujin 2026-06-04 | 1 Kommentare | Auf WhatsApp teilen

🔥 Wir haben den koreanischen Long-Document-VLM-Benchmark KOLongDoc veröffentlicht!

In letzter Zeit werden multimodale AIs wie ChatGPT, Claude und Gemini auch in öffentlichen und administrativen Aufgaben eingesetzt. Dennoch gab es kaum Benchmarks, mit denen sich bewerten lässt, „wie gut lange koreanische Dokumente tatsächlich verstanden werden“.

Bestehende koreanische VLM-Benchmarks konzentrierten sich auf OCR, VQA, Diagrammverständnis und Bildverständnis, aber

❌ hochauflösende Dokumente mit Dutzenden von Seiten
❌ Multi-hop-Inferenz, bei der Informationen über mehrere Seiten hinweg verknüpft werden
❌ Long-Context-Dokumentenverständnis

ließen sich damit nur begrenzt ganzheitlich bewerten.

Deshalb haben wir den Benchmark KOLongDoc 📄 erstellt und als Open Source veröffentlicht!

✅ Basierend auf Dokumenten koreanischer öffentlicher Einrichtungen
✅ Multi-Page / Multi-hop QA
✅ Bewertung des Verständnisses hochauflösender Long Documents
✅ Insgesamt 200 Evaluierungsfragen

KOLongDoc ist ein Benchmark, um zu bewerten, wie präzise in- und ausländische VLMs reale koreanische Dokumente öffentlicher Einrichtungen verstehen und darüber schlussfolgern können.

Wenn Sie mehr Details und Einsatzmöglichkeiten erfahren möchten, besuchen Sie bitte Hugging Face und GitHub!

🤗 Datensatz:
https://huggingface.co/datasets/Markr-AI/KOLongDoc

📝 GitHub-Vorstellung:
https://github.com/Marker-Inc-Korea/KOLongDoc

Feedback und Anwendungsbeispiele für den Benchmark sind willkommen!

1 Kommentare

cosine20 2026-06-05

Im README gibt es viel zu viele Emojis, was ziemlich unruhig wirkt ... aber offenbar ist das heutzutage der Trend.

Wie gut können VLMs koreanische Dokumente öffentlicher Einrichtungen lesen? KOLongDoc-Benchmark veröffentlicht

Verwandte Beiträge

1 Kommentare