8 Punkte von GN⁺ 2025-04-04 | 1 Kommentare | Auf WhatsApp teilen
  • Im Omni OCR Benchmark zur Analyse der OCR-Leistung wurden kürzlich veröffentlichte Modelle verglichen, darunter Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 und mistral-ocr
  • Die Modelle Qwen 2.5 VL 72B/32B erzielten die höchste Genauigkeit
    • Beide zeigen mit rund 75 % Genauigkeit eine Leistung auf GPT-4o-Niveau
    • Qwen 72B erreichte eine um 0,4 % höhere Genauigkeit als 32B, die Leistung ist damit praktisch innerhalb der Fehlertoleranz vergleichbar
  • Beide Qwen-Modelle übertrafen die Leistung von mistral-ocr (72,2 %)
    • Obwohl mistral-ocr speziell für OCR trainiert wurde, blieb es hinter Qwen zurück
  • Das Modell Gemma-3 (27B) erreichte mit 42,9 % eine niedrige Genauigkeit
    • Trotz der auf Gemini 2.0 basierenden Architektur ist das ein eher überraschend schwaches Ergebnis

Omni OCR Benchmark

  • Ein Benchmarking-Tool zum Vergleich von OCR- und Datenextraktionsfunktionen, das die Genauigkeit bei der Extraktion von Text und JSON großer multimodaler Modelle wie GPT-4o bewertet
  • Ziel dieses Benchmarks ist die Veröffentlichung eines umfassenden OCR-Genauigkeits-Benchmarks über traditionelle OCR-Anbieter und multimodale Sprachmodelle hinweg
  • Sowohl Evaluierungsdatensatz als auch Methodik sind Open Source verfügbar, und eine Erweiterung des Benchmarks um zusätzliche Anbieter wird ausdrücklich empfohlen

1 Kommentare

 
GN⁺ 2025-04-04
Hacker-News-Kommentare
  • 32b wirkt in der Ausgabe menschenfreundlicher, ist besser im mathematischen Schlussfolgern, und die kleinen Anpassungsfunktionen für feinere Verständniskontrolle scheinen nützlich zu sein
  • Qwen2.5-VL-72b wurde vor zwei Monaten veröffentlicht, und es gab begeisterte Kommentare zur Handschrifterkennung
    • Dieses Modell war ein interessanter Release, der geholfen hat, Skepsis und Frustration gegenüber KI zu überwinden
    • Die Release Notes sind gut aufbereitet, und auch der Blogpost ist hervorragend
  • Die HTML-Ausgabe von Qwen war interessant
    • Es liefert Bounding Boxes im HTML-Format, wodurch sich visuelles Feedback schnell aufbauen oder strukturierte Daten leicht nutzen lassen
    • Traditionelles OCR hat gegenüber LLMs einen großen Vorteil, wenn es darum geht, Koordinaten von Bounding Boxes bereitzustellen
  • Bis eine Genauigkeit von über 95 % erreicht ist, sind menschliche Gegenprüfung und Korrektur nötig, und ohne Bounding Boxes ist das unrealistisch
  • Ich lade gerade die MLX-Version von "Qwen2.5-VL-32b-Instruct -8bit" über LM Studio herunter und will sie für ein OCR-Nebenprojekt verwenden
  • Ich frage mich, ob man die Ergebnisse teilen könnte, wenn neben der Genauigkeit auch Kosten und Latenz gemessen wurden
  • Ich bin weiterhin beeindruckt von Geminis OCR-Fähigkeiten, und Qwen macht schnelle Fortschritte
  • Ich vergleiche mehrere Modelle für die Arbeit, und Qwens neuestes Modell ist deutlich stabiler als früher und leichter feinzujustieren
  • Die OCR-Leistung von OpenAI hat sich seit Langem nicht verbessert, was seltsam und frustrierend ist
  • Qwen 2.5 VL 72b übertrifft Gemini bei allgemeinem Vision-Verständnis und kann lokal ausgeführt werden
  • Ich experimentiere auf macOS mit OCR-APIs und würde das gern mit diesen LLMs vergleichen
  • Tesseract kann bei allem außer Handschrift 99 % Genauigkeit erreichen
  • Ich frage mich, ob es einen Vorteil hat, dafür LLMs einzusetzen
  • Ich bin von Qwens Testergebnissen sehr beeindruckt und denke, dass die Leute das unterschätzen
  • Ich frage mich, wie man eine LLM-Oberfläche konfiguriert, um mehrere Dateien in einem einzelnen Prompt zu verarbeiten
  • Großartige Arbeit von Tyler und dem Team