- PDF ist weiterhin ein verbreitetes Dokumentenformat → für die Suchleistung von LLMs jedoch mit Einschränkungen
- Experiment zur Umwandlung von PDF → Markdown mit Microsofts Open-Source-Tool markitdown
- Grenzen wie fehlerhafte Formeln und Layout-Brüche, bessere Lesbarkeit durch Korrektur mit LLM
- Geeignet für einspaltige, textzentrierte PDFs, bei komplexen Dokumenten eingeschränkt
5 Kommentare
Auch bei RAG gibt es wegen dieser PDF-Dokumente ständig Probleme.
Das schlimmste Format: PDF
markitdownist zwar praktisch für die Konvertierung zwischen Formaten, aber bei PDF sollte man es auf keinen Fall verwenden, haha.Für die Dokumentenextraktion gibt es bereits viele Ansätze mit multimodalen LLMs wie Gemini, und auch in Benchmarks schneiden sie ziemlich gut ab. Das Problem sind allerdings die Kosten.
Auch so etwas wie
doclingist gut.doclingist auch gut.markitdown verwendet für das PDF-Parsing https://github.com/pdfminer/pdfminer.six und extrahiert Text oder eingebettete Bilder direkt aus der Datei. Allein beim Gedanken an OCR wird mir schon ganz schwindelig...