13 Punkte von xguru 2021-03-12 | 1 Kommentare | Auf WhatsApp teilen
  • Open-Source-Tool, das Tabellendaten aus PDFs oder Bildern extrahiert und in CSV umwandelt

  • Code auf Basis von Python + OpenCV + Tesseract

  • Bilder in PDFs können mit Poppler + ImageMagick jeweils als separate Bilddateien extrahiert und auf einmal verarbeitet werden (Batch-Skript)

1 Kommentare

 
xguru 2021-03-12

Wenn die Tabelle nur Zahlen enthält, dürfte der untenstehende Code praktischer sein, da er sogar den Bereich auswählt und extrahieren kann.

image2csv - Open-Source-Tool zum Konvertieren von Bildtabellen mit Zahlen in CSV

https://github.com/artperrin/image2csv

  • Python + OpenCV + Tesseract-Code

  • Automatische Grid-(Tabellen-)Erkennung

  • Bei manueller Erkennung Auswahl des Bereichs mit der Maus unter Windows