OCR durch ein Vision Language Model ersetzen

(github.com/vlm-run)

14 Punkte von GN⁺ 2025-02-28 | 1 Kommentare | Auf WhatsApp teilen

Dieses Cookbook ist ein Open-Source-Projekt, das über verschiedene Fallstudien und praktische Übungen Video- und Bildverarbeitungsalgorithmen untersucht
Es behandelt verschiedene Anwendungsbereiche wie Video Inference, Bildkataloge und hybride Suche für Modebilder
Im Vergleich zu anderen Projekten bietet es den Vorteil, Algorithmen anhand vielfältiger realer Beispiele zu erlernen
Wichtige Dateien und Notebooks
- 00_quickstart.ipynb: Leitfaden für den schnellen Einstieg in das Projekt
- 01_schema_showcase.ipynb: Enthält Fallstudien, die verschiedene Datenschemata zeigen
- 02_case_study_drivers_license.ipynb: Führerscheinerkennung
- 03_case_study_tv_news.ipynb: TV-Nachrichtenbilder verstehen
- 04_visual_grounding.ipynb: Untersuchung von Visual-Grounding-Algorithmen. JSON innerhalb von Bildboxen extrahieren
- 05_case_study_image_catalogue.ipynb: Analyse von Modeproduktkatalogen zur Erkennung von Produktbeschreibungen, Kategorien, Zielgeschlecht und Saison
- 06_fashion_images_hybrid_search.ipynb: Fallstudie zur hybriden Suche für Modebilder
- advanced_finetuning_video_inference.ipynb: Fortgeschrittene Fine-Tuning-Techniken für Video Inference

1 Kommentare

GN⁺ 2025-02-28

Hacker-News-Kommentare

Interessante Idee, aber für den Einsatz in Produktionsumgebungen noch nicht zuverlässig genug. Traditionelle OCR-Modelle geben bei niedrigem Vertrauen unsinnige Ergebnisse aus, wenn sie Text nicht lesen können. VLMs hingegen liefern selbstbewusst halluzinierte Ergebnisse, wenn sie etwas nicht lesen können, und es gibt keine Möglichkeit, ein Vertrauensniveau zu melden. Bei Versuchen zur Handschrifterkennung hat das VLM gefälschte Namen und Daten erfunden, die zur Stimmung des Dokuments passten. Es gibt keine Möglichkeit, das Modell auf den Quelltext zu verankern
Kürzlich wurde ein Open-Source-Benchmark zur Bewertung von VLMs und OCR veröffentlicht, bei dem VLMs im Allgemeinen besser abschnitten als traditionelle OCR-Modelle
Vorteile von VLMs:
- Handschrifterkennung. Kontextverständnis hilft. Das heißt, es interpretiert ganze Wörter/Sätze statt einzelner Zeichen
- Diagramme/Infografiken. VLMs können Diagramme oder Flussdiagramme in Textform interpretieren. Einschließlich farbcodierter Linien
Vorteile traditioneller OCR:
- Standardisierte Dokumente (z. B. US-Steuerformulare)
- Dicht gesetzter Text. Man denke an Lehrbücher und mehrspaltige wissenschaftliche Arbeiten. Das ist der einfachste Anwendungsfall für OCR, aber VLMs haben Probleme, wenn die Anzahl der Ausgabetokens steigt
- Bounding Boxes. Es gibt noch keine Modelle, die sehr präzise Bounding Boxes liefern. Gemini und Qwen wurden dafür trainiert, leisten aber nicht so viel wie traditionelle Modelle
Es gibt noch viel Verbesserungspotenzial, aber besonders Modelle wie Gemini sind bei Genauigkeit/Kosten sehr wettbewerbsfähig
Ich frage mich, warum alle OCR-Dienste immer nur perfekte Screenshots digitaler Dokumente zeigen. Gibt es wirklich so viele Menschen, die digitale Daten per OCR erfassen wollen? Kann man nicht einfach das HTML kopieren? Wenn es keine digitalen Dokumente sind, wo sind dann die Screenshots mit Knicken, verrutschten Zeilen, Lichtverläufen, Fingern usw.?
Ich habe mit vlm-run und benutzerdefinierten Formulardefinitionen experimentiert, und mit Gemini 2.0 Flash funktioniert es überraschend gut. Soweit ich weiß, sind auch die Kosten niedrig. Die besten Ergebnisse bekommt man bei einfachen Formularen mittlerer Komplexität. Formulare, die ein Mensch mit weniger als 10 Minuten Training verarbeiten könnte
OCR-Tools machen genau das, was draufsteht, etwa Zeichenerkennung auf Papier. Der Vorteil von Vision-Language-Modellen ist, dass man Logik hinzufügen kann wie: „Das ist eine Zeichenkette, aber sieht sie wie ein Zeitstempel aus?“
Was ich möchte: ein Dokument (auch ein ganzes Buch) scannen/fotografieren, an ein Sprachmodell übergeben und ein Latex-Dokument erhalten, das exakt dem Originaldokument entspricht. Abgesehen von Kopierer-/Kamerafehlern und Perspektive. Dafür scheint ein Reinforcement-Learning-Modell möglich zu sein. Es sollte lernen können, Latex zu erzeugen, das das Bild pixelgenau reproduziert
Man sollte beides verwenden. Wenn man OCR und ein LLM verwendet und anschließend beide Ergebnisse miteinander abgleicht, steigt die Qualität stark. Man bekommt nicht nur Dokumentverständnis und Kontext, sondern auch Bounding Boxes usw. Ich baue eine App nach dem Motto „nie wieder Formulare ausfüllen“ und würde gern mit Interessierten sprechen
Vielleicht liegt es an meinem Prompt, aber nach dem Image-Embedding scheint zu viel Interpretation stattzufinden. In meinem Beispiel begann es, Teile des Textes zusammenzufassen, und leider falsch. Bei einer Rechnung mit getipptem Text stand tatsächlich, dass Einreichungen nach Freitag 14 Uhr erst am folgenden Montag verbucht werden, aber es wurde so zusammengefasst, als würden sie 2–3 Werktage lang nicht verbucht. Das ist ein erheblicher Unterschied. Ich frage mich, ob man diese Schicht irgendwie entfernen kann. One-Shot-Erkennung strukturierter Texte war deutlich besser als grundlegende OCR
Es ist gut zu sehen, dass mehr daran gearbeitet wird, aber ich verstehe nicht, warum das an die proprietäre API von irgendjemandem gebunden sein muss. Den Modellanbieter zu wechseln und grundlegendes Logging hinzuzufügen sollte nicht schmerzhaft genug sein, um wie das Onboarding eines weiteren Anbieters zu wirken. Besonders wenn es um etwas Sensibles wie LLM-Prompts geht
Was ist das schnellste und genaueste CLI-OCR-Tool? Mein Anwendungsfall ist einfach: Ich möchte einen Teil des Bildschirms erfassen (Flameshot eignet sich gut dafür) und dann OCR darauf ausführen. Ich brauche das, um während Pair Programming in Zoom Notizen zu machen. Derzeit nutze ich tesseract, das schnell ist und gut funktioniert, aber Fehler macht. Es wäre schön, wenn es Tabellen erkennen und in ASCII- oder Markdown-Tabellen umwandeln könnte. Ich habe docling ausprobiert, aber es wirkt etwas überdimensioniert. Es scheint langsam zu sein – ich muss Text sehr schnell aus Screenshots holen. Ich habe nur die Standardeinstellungen ausprobiert, aber mit Tuning könnte es besser werden. Kann jemand dazu Gedanken teilen? Danke!

OCR durch ein Vision Language Model ersetzen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare