Wie gut können VLMs koreanische Dokumente öffentlicher Einrichtungen lesen? KOLongDoc-Benchmark veröffentlicht
(github.com/Marker-Inc-Korea)🔥 Wir haben den koreanischen Long-Document-VLM-Benchmark KOLongDoc veröffentlicht!
In letzter Zeit werden multimodale AIs wie ChatGPT, Claude und Gemini auch in öffentlichen und administrativen Aufgaben eingesetzt. Dennoch gab es kaum Benchmarks, mit denen sich bewerten lässt, „wie gut lange koreanische Dokumente tatsächlich verstanden werden“.
Bestehende koreanische VLM-Benchmarks konzentrierten sich auf OCR, VQA, Diagrammverständnis und Bildverständnis, aber
❌ hochauflösende Dokumente mit Dutzenden von Seiten
❌ Multi-hop-Inferenz, bei der Informationen über mehrere Seiten hinweg verknüpft werden
❌ Long-Context-Dokumentenverständnis
ließen sich damit nur begrenzt ganzheitlich bewerten.
Deshalb haben wir den Benchmark KOLongDoc 📄 erstellt und als Open Source veröffentlicht!
✅ Basierend auf Dokumenten koreanischer öffentlicher Einrichtungen
✅ Multi-Page / Multi-hop QA
✅ Bewertung des Verständnisses hochauflösender Long Documents
✅ Insgesamt 200 Evaluierungsfragen
KOLongDoc ist ein Benchmark, um zu bewerten, wie präzise in- und ausländische VLMs reale koreanische Dokumente öffentlicher Einrichtungen verstehen und darüber schlussfolgern können.
Wenn Sie mehr Details und Einsatzmöglichkeiten erfahren möchten, besuchen Sie bitte Hugging Face und GitHub!
🤗 Datensatz:
https://huggingface.co/datasets/Markr-AI/KOLongDoc
📝 GitHub-Vorstellung:
https://github.com/Marker-Inc-Korea/KOLongDoc
Feedback und Anwendungsbeispiele für den Benchmark sind willkommen!
Noch keine Kommentare.