18 Punkte von computerphilosopher 2025-09-20 | 5 Kommentare | Auf WhatsApp teilen
  • PDF ist weiterhin ein verbreitetes Dokumentenformat → für die Suchleistung von LLMs jedoch mit Einschränkungen
  • Experiment zur Umwandlung von PDF → Markdown mit Microsofts Open-Source-Tool markitdown
  • Grenzen wie fehlerhafte Formeln und Layout-Brüche, bessere Lesbarkeit durch Korrektur mit LLM
  • Geeignet für einspaltige, textzentrierte PDFs, bei komplexen Dokumenten eingeschränkt

5 Kommentare

 
ahwjdekf 2025-09-23

Auch bei RAG gibt es wegen dieser PDF-Dokumente ständig Probleme.

 
ahwjdekf 2025-09-22

Das schlimmste Format: PDF

 
kbumsik 2025-09-22

markitdown ist zwar praktisch für die Konvertierung zwischen Formaten, aber bei PDF sollte man es auf keinen Fall verwenden, haha.

Für die Dokumentenextraktion gibt es bereits viele Ansätze mit multimodalen LLMs wie Gemini, und auch in Benchmarks schneiden sie ziemlich gut ab. Das Problem sind allerdings die Kosten.

Auch so etwas wie docling ist gut.

 
kaydash 2025-09-22

docling ist auch gut.

 
lamanus 2025-09-21

markitdown verwendet für das PDF-Parsing https://github.com/pdfminer/pdfminer.six und extrahiert Text oder eingebettete Bilder direkt aus der Datei. Allein beim Gedanken an OCR wird mir schon ganz schwindelig...