- Open-Source-Tool, das PDF- sowie JPG/PNG-Dokumente in Klartext umwandelt und dabei eine natürliche Lesereihenfolge beibehält
- Für die schnelle Verarbeitung großer Dokumentenmengen konzipiert und unterstützt Tabellen, Formeln, Handschrift und mehr
- Trainiert auf Basis wissenschaftlicher Arbeiten, technischer Dokumente und weiterer Referenzmaterialien
- Nutzt eine spezielle Prompting-Technik, um die Genauigkeit zu erhöhen und Halluzinationen zu verringern
- Das aktuelle Modell ist für englische Dokumente optimiert; andere Sprachen werden möglicherweise nicht zuverlässig unterstützt
- Dokumente können direkt auf der Demo-Seite getestet werden
- Die Kosten für die Konvertierung von 1 Million Seiten liegen bei etwa 190 USD und ermöglichen einen kosteneffizienten Betrieb
- Aktuelle NVIDIA-GPUs erforderlich (Tests abgeschlossen mit RTX 4090, L40S, A100, H100)
- Online-Demo zum Testen (PDF, JPG, PNG)
Im Open-Source-Toolkit enthaltene Codes
- Prompting-Strategie auf Basis von ChatGPT 4o (
buildsilver.py) : Enthält Techniken zur Maximierung der Leistung beim Parsen natürlicher Texte
- Tool zur vergleichenden Bewertung von Pipelines (
runeval.py)
- Sprachfilterung und Entfernung von SEO-Spam (
filter.py)
- Fine-Tuning-Code für Qwen2-VL und Molmo-O (
train.py)
- Pipeline zur Verarbeitung großer PDF-Mengen (
pipeline.py) : Kann mit Sglang Millionen von PDFs verarbeiten
- Dolma-Dokumenten-Viewer (
dolmaviewer.py) : Ermöglicht die visuelle Prüfung von aus PDFs konvertierten Dokumenten im Dolma-Format
2 Kommentare
Derzeit läuft es wohl nicht unter Windows..
Bibliotheken, die ohne GPU laufen, scheinen im Moment wohl noch nützlich zu sein.