- Im Omni OCR Benchmark zur Analyse der OCR-Leistung wurden kürzlich veröffentlichte Modelle verglichen, darunter Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 und mistral-ocr
- Die Modelle Qwen 2.5 VL 72B/32B erzielten die höchste Genauigkeit
- Beide zeigen mit rund 75 % Genauigkeit eine Leistung auf GPT-4o-Niveau
- Qwen 72B erreichte eine um 0,4 % höhere Genauigkeit als 32B, die Leistung ist damit praktisch innerhalb der Fehlertoleranz vergleichbar
- Beide Qwen-Modelle übertrafen die Leistung von mistral-ocr (72,2 %)
- Obwohl mistral-ocr speziell für OCR trainiert wurde, blieb es hinter Qwen zurück
- Das Modell Gemma-3 (27B) erreichte mit 42,9 % eine niedrige Genauigkeit
- Trotz der auf Gemini 2.0 basierenden Architektur ist das ein eher überraschend schwaches Ergebnis
Omni OCR Benchmark
- Ein Benchmarking-Tool zum Vergleich von OCR- und Datenextraktionsfunktionen, das die Genauigkeit bei der Extraktion von Text und JSON großer multimodaler Modelle wie GPT-4o bewertet
- Ziel dieses Benchmarks ist die Veröffentlichung eines umfassenden OCR-Genauigkeits-Benchmarks über traditionelle OCR-Anbieter und multimodale Sprachmodelle hinweg
- Sowohl Evaluierungsdatensatz als auch Methodik sind Open Source verfügbar, und eine Erweiterung des Benchmarks um zusätzliche Anbieter wird ausdrücklich empfohlen
1 Kommentare
Hacker-News-Kommentare