OlmOCR – Open-Source-Tool zum Extrahieren von Text aus PDFs

xguru · 2025-03-03T09:51:15+09:00

Open-Source-Tool, das PDF- sowie JPG/PNG-Dokumente in Klartext umwandelt und dabei eine natürliche Lesereihenfolge beibehält Für die schnelle Verarbeitung großer Dokumentenmengen konzipiert und unterstützt Tabellen, Formeln, Handschrift und mehr Trainiert auf Basis wissenschaftlicher Arbeiten, technischer Dokumente und weiterer Referenzmaterialien Nutzt eine spezielle Prompting-Technik, um die Genauigkeit zu erhöhen und Halluzinationen zu verringern Das aktuelle Modell ist für englische Dokumente optimiert; andere Sprachen werden möglicherweise nicht zuverlässig unterstützt Dokumente können direkt auf der Demo-Seite getestet werden Die Kosten für die Konvertierung von 1 Million Seiten liegen bei etwa 190 USD und ermöglichen einen kosteneffizienten Betrieb Aktuelle NVIDIA-GPUs erforderlich (Tests abgeschlossen mit RTX 4090, L40S, A100, H100) Online-Demo zum Testen (PDF, JPG, PNG) Im Open-Source-Toolkit enthaltene Codes Prompting-Strategie auf Basis von ChatGPT 4o (buildsilver.py) : Enthält Techniken zur Maximierung der Leistung beim Parsen natürlicher Texte Tool zur vergleichenden Bewertung von Pipelines (runeval.py) Sprachfilterung und Entfernung von SEO-Spam (filter.py) Fine-Tuning-Code für Qwen2-VL und Molmo-O (train.py) Pipeline zur Verarbeitung großer PDF-Mengen (pipeline.py) : Kann mit Sglang Millionen von PDFs verarbeiten Dolma-Dokumenten-Viewer (dolmaviewer.py) : Ermöglicht die visuelle Prüfung von aus PDFs konvertierten Dokumenten im Dolma-Format

(github.com/allenai)

25 Punkte von xguru 2025-03-03 | 2 Kommentare | Auf WhatsApp teilen

Open-Source-Tool, das PDF- sowie JPG/PNG-Dokumente in Klartext umwandelt und dabei eine natürliche Lesereihenfolge beibehält
Für die schnelle Verarbeitung großer Dokumentenmengen konzipiert und unterstützt Tabellen, Formeln, Handschrift und mehr
Trainiert auf Basis wissenschaftlicher Arbeiten, technischer Dokumente und weiterer Referenzmaterialien
Nutzt eine spezielle Prompting-Technik, um die Genauigkeit zu erhöhen und Halluzinationen zu verringern
Das aktuelle Modell ist für englische Dokumente optimiert; andere Sprachen werden möglicherweise nicht zuverlässig unterstützt
Dokumente können direkt auf der Demo-Seite getestet werden
Die Kosten für die Konvertierung von 1 Million Seiten liegen bei etwa 190 USD und ermöglichen einen kosteneffizienten Betrieb
Aktuelle NVIDIA-GPUs erforderlich (Tests abgeschlossen mit RTX 4090, L40S, A100, H100)
Online-Demo zum Testen (PDF, JPG, PNG)

Im Open-Source-Toolkit enthaltene Codes

Prompting-Strategie auf Basis von ChatGPT 4o (buildsilver.py) : Enthält Techniken zur Maximierung der Leistung beim Parsen natürlicher Texte
Tool zur vergleichenden Bewertung von Pipelines (runeval.py)
Sprachfilterung und Entfernung von SEO-Spam (filter.py)
Fine-Tuning-Code für Qwen2-VL und Molmo-O (train.py)
Pipeline zur Verarbeitung großer PDF-Mengen (pipeline.py) : Kann mit Sglang Millionen von PDFs verarbeiten
Dolma-Dokumenten-Viewer (dolmaviewer.py) : Ermöglicht die visuelle Prüfung von aus PDFs konvertierten Dokumenten im Dolma-Format

2 Kommentare

kleinstein 2025-03-06

Derzeit läuft es wohl nicht unter Windows..

kaydash 2025-03-03

Bibliotheken, die ohne GPU laufen, scheinen im Moment wohl noch nützlich zu sein.

OlmOCR – Open-Source-Tool zum Extrahieren von Text aus PDFs

Im Open-Source-Toolkit enthaltene Codes

Verwandte Beiträge

2 Kommentare