OCRmyPDF – OCR-Textebene zu gescannten PDF-Dateien hinzufügen

xguru · 2021-11-09T11:02:26+09:00

Aus gewöhnlichen PDFs durchsuchbare PDF/A-Dateien erstellen OCR-erkannten Text unter dem Bild einfügen und so Copy/Paste unterstützen Die Auflösung bereits eingebetteter Bilder bleibt unverändert erhalten OCR-Informationen einfügen, ohne die Datei zu beschädigen PDF-Bilder optimieren, um die Dateigröße zu reduzieren Verteilte Verarbeitung unter Nutzung aller CPU-Kerne Mit Tesseract OCR werden unverändert mehr als 100 Sprachen unterstützt (einschließlich Koreanisch) Skaliert gut und verarbeitet auch Dateien mit Tausenden von Seiten Mit mehreren Millionen Dateien getestet Linux/Mac/Windows (WSL)

(github.com)

17 Punkte von xguru 2021-11-09 | 2 Kommentare | Auf WhatsApp teilen

Aus gewöhnlichen PDFs durchsuchbare PDF/A-Dateien erstellen
OCR-erkannten Text unter dem Bild einfügen und so Copy/Paste unterstützen
Die Auflösung bereits eingebetteter Bilder bleibt unverändert erhalten
OCR-Informationen einfügen, ohne die Datei zu beschädigen
PDF-Bilder optimieren, um die Dateigröße zu reduzieren
Verteilte Verarbeitung unter Nutzung aller CPU-Kerne
Mit Tesseract OCR werden unverändert mehr als 100 Sprachen unterstützt (einschließlich Koreanisch)
Skaliert gut und verarbeitet auch Dateien mit Tausenden von Seiten
Mit mehreren Millionen Dateien getestet
Linux/Mac/Windows (WSL)

2 Kommentare

alstjr7375 2021-11-09

Großartig.

xguru 2021-11-09

Es soll deutlich mehr Funktionen bieten als pdfsandwich, das vor ein paar Tagen vorgestellt wurde.

pdfsandwich - Tool zum Erstellen von PDF-Dateien mit einer Sandwich-Struktur aus Bild und OCR: https://de.news.hada.io/topic?id=5334

OCRmyPDF – OCR-Textebene zu gescannten PDF-Dateien hinzufügen

Verwandte Beiträge

2 Kommentare