- Ein ultrakompaktes Vision-Language-Modell (VLM), das für Dokument-Parsing optimiert ist, Koreanisch sowie 109 Sprachen unterstützt und komplexe Elemente wie Formeln, Tabellen, Diagramme und Handschrift präzise erkennt
- Das Kernmodell PaddleOCR-VL-0.9B kombiniert einen NaViT-basierten visuellen Encoder mit dynamischer Auflösung mit dem Sprachmodell ERNIE-4.5-0.3B und erreicht damit gleichzeitig hochpräzise Erkennung und schnelle Inferenz
- Eine kleine, aber leistungsstarke VLM-Architektur, die Recheneffizienz beibehält und zugleich Erkennungsleistung auf dem Niveau bisheriger großer Modelle liefert
- Erzielt auf OmniDocBench u. a. SOTA (State of the Art) und übertrifft bestehende pipeline-basierte Modelle
- Unterstützt nicht nur Koreanisch, Chinesisch, Englisch und Japanisch, sondern auch verschiedene Schriftsysteme wie Russisch, Arabisch, Hindi und Thai, wodurch es für die Automatisierung der Dokumentverarbeitung weltweit eingesetzt werden kann
- Dank der schlanken Struktur ist der GPU-Ressourcenverbrauch gering, und über Docker, CLI und Python API lässt sich das Modell leicht bereitstellen und integrieren
- Übertrifft in einigen Bereichen multimodale 72B-Modelle und ist eine mehrsprachige Lösung für die Dokumentverarbeitung, die sich sofort in realen Umgebungen einsetzen lässt
6 Kommentare
Ich schätze, dass es durchaus Orte gibt, an denen PaddleOCR kommerziell eingesetzt wird, oder??
Wow, meine Güte, wow. Damit lassen sich dann wohl sogar Dokumente mit komplexen Tabellen direkt erkennen.
Gerüchten zufolge soll es sogar deutlich besser sein als einige kommerzielle OCR-Engines.
Diesmal ist ja auch DeepSeek OCR erschienen, daher würde mich ein Leistungsvergleich interessieren.
Wenn mehrere Sprachen gleichzeitig unterstützt werden, ist das natürlich das Beste,,
Ein Kommentar, der sinngemäß vermutet: Wenn schon ein chinesisches Privatunternehmen ein Modell dieses Niveaus herausbringen kann, hat die NSA zur Informationsbeschaffung wahrscheinlich ein noch leistungsfähigeres (oder verrückteres) OCR-Modell.