Image-Table-OCR – Tabellenbilder in CSV konvertieren
(github.com)-
Open-Source-Tool, das Tabellendaten aus PDFs oder Bildern extrahiert und in CSV umwandelt
-
Code auf Basis von Python + OpenCV + Tesseract
-
Bilder in PDFs können mit Poppler + ImageMagick jeweils als separate Bilddateien extrahiert und auf einmal verarbeitet werden (Batch-Skript)
1 Kommentare
Wenn die Tabelle nur Zahlen enthält, dürfte der untenstehende Code praktischer sein, da er sogar den Bereich auswählt und extrahieren kann.
image2csv - Open-Source-Tool zum Konvertieren von Bildtabellen mit Zahlen in CSV
https://github.com/artperrin/image2csv
Python + OpenCV + Tesseract-Code
Automatische Grid-(Tabellen-)Erkennung
Bei manueller Erkennung Auswahl des Bereichs mit der Maus unter Windows