43 Punkte von xguru 2025-10-21 | 6 Kommentare | Auf WhatsApp teilen
  • Ein ultrakompaktes Vision-Language-Modell (VLM), das für Dokument-Parsing optimiert ist, Koreanisch sowie 109 Sprachen unterstützt und komplexe Elemente wie Formeln, Tabellen, Diagramme und Handschrift präzise erkennt
  • Das Kernmodell PaddleOCR-VL-0.9B kombiniert einen NaViT-basierten visuellen Encoder mit dynamischer Auflösung mit dem Sprachmodell ERNIE-4.5-0.3B und erreicht damit gleichzeitig hochpräzise Erkennung und schnelle Inferenz
  • Eine kleine, aber leistungsstarke VLM-Architektur, die Recheneffizienz beibehält und zugleich Erkennungsleistung auf dem Niveau bisheriger großer Modelle liefert
  • Erzielt auf OmniDocBench u. a. SOTA (State of the Art) und übertrifft bestehende pipeline-basierte Modelle
  • Unterstützt nicht nur Koreanisch, Chinesisch, Englisch und Japanisch, sondern auch verschiedene Schriftsysteme wie Russisch, Arabisch, Hindi und Thai, wodurch es für die Automatisierung der Dokumentverarbeitung weltweit eingesetzt werden kann
  • Dank der schlanken Struktur ist der GPU-Ressourcenverbrauch gering, und über Docker, CLI und Python API lässt sich das Modell leicht bereitstellen und integrieren
  • Übertrifft in einigen Bereichen multimodale 72B-Modelle und ist eine mehrsprachige Lösung für die Dokumentverarbeitung, die sich sofort in realen Umgebungen einsetzen lässt

6 Kommentare

 
helio 2025-10-21

Ich schätze, dass es durchaus Orte gibt, an denen PaddleOCR kommerziell eingesetzt wird, oder??

 
tsboard 2025-10-21

Wow, meine Güte, wow. Damit lassen sich dann wohl sogar Dokumente mit komplexen Tabellen direkt erkennen.

 
xguru 2025-10-21

Gerüchten zufolge soll es sogar deutlich besser sein als einige kommerzielle OCR-Engines.

 
yeorinhieut 2025-10-21

Diesmal ist ja auch DeepSeek OCR erschienen, daher würde mich ein Leistungsvergleich interessieren.

 
yangeok 2025-10-21

Wenn mehrere Sprachen gleichzeitig unterstützt werden, ist das natürlich das Beste,,

 
forgotdonkey456 2025-10-21

Ein Kommentar, der sinngemäß vermutet: Wenn schon ein chinesisches Privatunternehmen ein Modell dieses Niveaus herausbringen kann, hat die NSA zur Informationsbeschaffung wahrscheinlich ein noch leistungsfähigeres (oder verrückteres) OCR-Modell.