PaddleOCR-VL – Baidu veröffentlicht ein ultrakompaktes 0,9B Vision-Language-Modell für mehrsprachiges OCR

(huggingface.co)

43 Punkte von xguru 2025-10-21 | 6 Kommentare | Auf WhatsApp teilen

Ein ultrakompaktes Vision-Language-Modell (VLM), das für Dokument-Parsing optimiert ist, Koreanisch sowie 109 Sprachen unterstützt und komplexe Elemente wie Formeln, Tabellen, Diagramme und Handschrift präzise erkennt
Das Kernmodell PaddleOCR-VL-0.9B kombiniert einen NaViT-basierten visuellen Encoder mit dynamischer Auflösung mit dem Sprachmodell ERNIE-4.5-0.3B und erreicht damit gleichzeitig hochpräzise Erkennung und schnelle Inferenz
Eine kleine, aber leistungsstarke VLM-Architektur, die Recheneffizienz beibehält und zugleich Erkennungsleistung auf dem Niveau bisheriger großer Modelle liefert
Erzielt auf OmniDocBench u. a. SOTA (State of the Art) und übertrifft bestehende pipeline-basierte Modelle
Unterstützt nicht nur Koreanisch, Chinesisch, Englisch und Japanisch, sondern auch verschiedene Schriftsysteme wie Russisch, Arabisch, Hindi und Thai, wodurch es für die Automatisierung der Dokumentverarbeitung weltweit eingesetzt werden kann
Dank der schlanken Struktur ist der GPU-Ressourcenverbrauch gering, und über Docker, CLI und Python API lässt sich das Modell leicht bereitstellen und integrieren
Übertrifft in einigen Bereichen multimodale 72B-Modelle und ist eine mehrsprachige Lösung für die Dokumentverarbeitung, die sich sofort in realen Umgebungen einsetzen lässt

6 Kommentare

helio 2025-10-21

Ich schätze, dass es durchaus Orte gibt, an denen PaddleOCR kommerziell eingesetzt wird, oder??

tsboard 2025-10-21

Wow, meine Güte, wow. Damit lassen sich dann wohl sogar Dokumente mit komplexen Tabellen direkt erkennen.

xguru 2025-10-21

Gerüchten zufolge soll es sogar deutlich besser sein als einige kommerzielle OCR-Engines.

yeorinhieut 2025-10-21

Diesmal ist ja auch DeepSeek OCR erschienen, daher würde mich ein Leistungsvergleich interessieren.

yangeok 2025-10-21

Wenn mehrere Sprachen gleichzeitig unterstützt werden, ist das natürlich das Beste,,

forgotdonkey456 2025-10-21

Ein Kommentar, der sinngemäß vermutet: Wenn schon ein chinesisches Privatunternehmen ein Modell dieses Niveaus herausbringen kann, hat die NSA zur Informationsbeschaffung wahrscheinlich ein noch leistungsfähigeres (oder verrückteres) OCR-Modell.

PaddleOCR-VL – Baidu veröffentlicht ein ultrakompaktes 0,9B Vision-Language-Modell für mehrsprachiges OCR

Verwandte Beiträge

6 Kommentare