25 Punkte von xguru 2025-03-03 | 2 Kommentare | Auf WhatsApp teilen
  • Open-Source-Tool, das PDF- sowie JPG/PNG-Dokumente in Klartext umwandelt und dabei eine natürliche Lesereihenfolge beibehält
  • Für die schnelle Verarbeitung großer Dokumentenmengen konzipiert und unterstützt Tabellen, Formeln, Handschrift und mehr
  • Trainiert auf Basis wissenschaftlicher Arbeiten, technischer Dokumente und weiterer Referenzmaterialien
  • Nutzt eine spezielle Prompting-Technik, um die Genauigkeit zu erhöhen und Halluzinationen zu verringern
  • Das aktuelle Modell ist für englische Dokumente optimiert; andere Sprachen werden möglicherweise nicht zuverlässig unterstützt
  • Dokumente können direkt auf der Demo-Seite getestet werden
  • Die Kosten für die Konvertierung von 1 Million Seiten liegen bei etwa 190 USD und ermöglichen einen kosteneffizienten Betrieb
  • Aktuelle NVIDIA-GPUs erforderlich (Tests abgeschlossen mit RTX 4090, L40S, A100, H100)
  • Online-Demo zum Testen (PDF, JPG, PNG)

Im Open-Source-Toolkit enthaltene Codes

  • Prompting-Strategie auf Basis von ChatGPT 4o (buildsilver.py) : Enthält Techniken zur Maximierung der Leistung beim Parsen natürlicher Texte
  • Tool zur vergleichenden Bewertung von Pipelines (runeval.py)
  • Sprachfilterung und Entfernung von SEO-Spam (filter.py)
  • Fine-Tuning-Code für Qwen2-VL und Molmo-O (train.py)
  • Pipeline zur Verarbeitung großer PDF-Mengen (pipeline.py) : Kann mit Sglang Millionen von PDFs verarbeiten
  • Dolma-Dokumenten-Viewer (dolmaviewer.py) : Ermöglicht die visuelle Prüfung von aus PDFs konvertierten Dokumenten im Dolma-Format

2 Kommentare

 
kleinstein 2025-03-06

Derzeit läuft es wohl nicht unter Windows..

 
kaydash 2025-03-03

Bibliotheken, die ohne GPU laufen, scheinen im Moment wohl noch nützlich zu sein.