Qwen-2.5-32B ist jetzt das beste Open-Source-OCR-Modell

Im Omni OCR Benchmark zur Analyse der OCR-Leistung wurden kürzlich veröffentlichte Modelle verglichen, darunter Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 und mistral-ocr
Die Modelle Qwen 2.5 VL 72B/32B erzielten die höchste Genauigkeit
- Beide zeigen mit rund 75 % Genauigkeit eine Leistung auf GPT-4o-Niveau
- Qwen 72B erreichte eine um 0,4 % höhere Genauigkeit als 32B, die Leistung ist damit praktisch innerhalb der Fehlertoleranz vergleichbar
Beide Qwen-Modelle übertrafen die Leistung von mistral-ocr (72,2 %)
- Obwohl mistral-ocr speziell für OCR trainiert wurde, blieb es hinter Qwen zurück
Das Modell Gemma-3 (27B) erreichte mit 42,9 % eine niedrige Genauigkeit
- Trotz der auf Gemini 2.0 basierenden Architektur ist das ein eher überraschend schwaches Ergebnis

Omni OCR Benchmark

Ein Benchmarking-Tool zum Vergleich von OCR- und Datenextraktionsfunktionen, das die Genauigkeit bei der Extraktion von Text und JSON großer multimodaler Modelle wie GPT-4o bewertet
Ziel dieses Benchmarks ist die Veröffentlichung eines umfassenden OCR-Genauigkeits-Benchmarks über traditionelle OCR-Anbieter und multimodale Sprachmodelle hinweg
Sowohl Evaluierungsdatensatz als auch Methodik sind Open Source verfügbar, und eine Erweiterung des Benchmarks um zusätzliche Anbieter wird ausdrücklich empfohlen

1 Kommentare

GN⁺ 2025-04-04

Hacker-News-Kommentare

32b wirkt in der Ausgabe menschenfreundlicher, ist besser im mathematischen Schlussfolgern, und die kleinen Anpassungsfunktionen für feinere Verständniskontrolle scheinen nützlich zu sein
Qwen2.5-VL-72b wurde vor zwei Monaten veröffentlicht, und es gab begeisterte Kommentare zur Handschrifterkennung
- Dieses Modell war ein interessanter Release, der geholfen hat, Skepsis und Frustration gegenüber KI zu überwinden
- Die Release Notes sind gut aufbereitet, und auch der Blogpost ist hervorragend
Die HTML-Ausgabe von Qwen war interessant
- Es liefert Bounding Boxes im HTML-Format, wodurch sich visuelles Feedback schnell aufbauen oder strukturierte Daten leicht nutzen lassen
- Traditionelles OCR hat gegenüber LLMs einen großen Vorteil, wenn es darum geht, Koordinaten von Bounding Boxes bereitzustellen
Bis eine Genauigkeit von über 95 % erreicht ist, sind menschliche Gegenprüfung und Korrektur nötig, und ohne Bounding Boxes ist das unrealistisch
Ich lade gerade die MLX-Version von "Qwen2.5-VL-32b-Instruct -8bit" über LM Studio herunter und will sie für ein OCR-Nebenprojekt verwenden
Ich frage mich, ob man die Ergebnisse teilen könnte, wenn neben der Genauigkeit auch Kosten und Latenz gemessen wurden
Ich bin weiterhin beeindruckt von Geminis OCR-Fähigkeiten, und Qwen macht schnelle Fortschritte
Ich vergleiche mehrere Modelle für die Arbeit, und Qwens neuestes Modell ist deutlich stabiler als früher und leichter feinzujustieren
Die OCR-Leistung von OpenAI hat sich seit Langem nicht verbessert, was seltsam und frustrierend ist
Qwen 2.5 VL 72b übertrifft Gemini bei allgemeinem Vision-Verständnis und kann lokal ausgeführt werden
Ich experimentiere auf macOS mit OCR-APIs und würde das gern mit diesen LLMs vergleichen
Tesseract kann bei allem außer Handschrift 99 % Genauigkeit erreichen
Ich frage mich, ob es einen Vorteil hat, dafür LLMs einzusetzen
Ich bin von Qwens Testergebnissen sehr beeindruckt und denke, dass die Leute das unterschätzen
Ich frage mich, wie man eine LLM-Oberfläche konfiguriert, um mehrere Dateien in einem einzelnen Prompt zu verarbeiten
Großartige Arbeit von Tyler und dem Team

Qwen-2.5-32B ist jetzt das beste Open-Source-OCR-Modell

Omni OCR Benchmark

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare