Warum die Extraktion von Daten aus PDFs noch immer so schwierig ist

(arstechnica.com)

3 Punkte von GN⁺ 2025-03-20 | 1 Kommentare | Auf WhatsApp teilen

Grenzen der OCR (optische Zeichenerkennung)

PDF-Dateien enthalten wichtige Daten wie wissenschaftliche Forschungsergebnisse und Regierungsunterlagen, sind aber aufgrund ihres festen Formats für Maschinen schwer zu lesen und zu analysieren.
PDFs sind für Drucklayouts konzipiert und daher für die digitale Analyse nicht gut geeignet.
Viele PDFs enthalten Bilder von Informationen; um diese in Daten umzuwandeln, wird OCR-Software benötigt.
Bei alten Dokumenten oder handschriftlichen Unterlagen ist die OCR-Leistung noch schlechter.

Problem unstrukturierter Daten

Rund 80–90 % der Daten in Organisationen weltweit werden als unstrukturierte Daten gespeichert und liegen häufig in PDFs vor.
Besonders schwierig ist die Datenextraktion bei zweispaltigen Layouts, Tabellen, Diagrammen und Scans mit niedriger Bildqualität.
Das verursacht große Probleme, insbesondere beim Zugang zu technischer Literatur in wissenschaftlicher Forschung, bei der Bewahrung historischer Dokumente, im Kundenservice und in KI-Systemen.

Auswirkungen nach Bereichen

Betroffen ist der Betrieb öffentlicher Einrichtungen wie Regierungsarchive, Gerichte, Polizei und soziale Dienste.
In informationsabhängigen Branchen wie Versicherungen und Banken werden viel Zeit und Ressourcen aufgewendet, um PDF-Daten zu konvertieren.

Geschichte der OCR-Technologie

In den 1970er Jahren entwickelte Ray Kurzweil ein kommerzielles OCR-System auf Basis von Pattern-Matching-Algorithmen.
Die Kurzweil Reading Machine bot Zeichen- und Texterkennung für sehbehinderte Menschen.
Traditionelle OCR-Systeme erkennen Helligkeits- und Kontrastmuster und wandeln diese in Zeichen um.
Bei komplexen Schriftarten, mehrspaltigen Layouts und Tabellen sinkt die Leistung.
Fehler in traditioneller OCR sind oft vorhersehbar und dadurch leichter zu korrigieren, dennoch bleiben klare Grenzen bestehen.

Aufstieg der KI-basierten OCR

Multimodale LLMs (Large Language Models) extrahieren Daten, indem sie Bilder und Text integriert verarbeiten.
Modelle von OpenAI, Google und Meta können visuelle Elemente von Dokumenten und den Textkontext gleichzeitig erkennen.
Während traditionelle OCR auf zeichenbasiertem Pattern Matching beruht, verarbeitet KI zusätzlich Dokumentlayout und Kontext.
Amazons Textract nutzt einen traditionellen OCR-Ansatz, während LLMs Dokumente in einem breiteren Kontext analysieren können.
Komplexe Layouts, Tabellen und Bildunterschriften lassen sich damit besser verarbeiten.

Neue Versuche mit LLM-basierter OCR

Das französische KI-Unternehmen Mistral hat mit Mistral OCR eine LLM-basierte API zur Dokumentverarbeitung vorgestellt.
Ziel ist die Extraktion von Text und Bildern aus Dokumenten mit komplexen Layouts.
Es traten Leistungsprobleme auf: Tabellen in alten Dokumenten wurden nicht korrekt verarbeitet, zudem kam es zu Zahlenfehlern.
Auch bei der Erkennung von Handschrift gab es Probleme → die KI erzeugte frei erfundene Inhalte (Halluzinationen).
Googles Gemini 2.0 liefert derzeit die beste Leistung und macht selbst bei komplexen Dokumenten weniger Fehler.

Probleme der LLM-basierten OCR

Da LLMs probabilistische Modelle sind, ist die Wahrscheinlichkeit für Fehler hoch.
Wenn sich Dokumentlayouts wiederholen, können Zeilen ausgelassen werden.
LLMs können daran scheitern, Benutzer-Prompts und Dokumentinhalt sauber zu unterscheiden, was zu Fehlinterpretationen führt.
Falsche Zuordnungen von Werten in Tabellen können fatale Fehler verursachen, insbesondere in den Bereichen Finanzen, Recht und Medizin.
Das Problem frei erfundener Texte bleibt bestehen → eine menschliche Prüfung ist erforderlich.

Aufgaben für die Zukunft

Eine perfekte OCR-Lösung existiert bislang nicht.
Google, OpenAI und andere verbessern die Leistung durch kontextbewusste KI-Produkte.
KI-Unternehmen hoffen, durch die Datenextraktion aus PDFs zusätzliche Trainingsdaten für KI zu gewinnen.
Wenn KI PDF-Daten vollständig verarbeiten kann, könnte dies eine neue Ära der Datenanalyse einläuten.

1 Kommentare

sixmen 2025-03-20

„PDF ist ein Format, das auf Drucklayouts zugeschnitten ist und sich daher nicht gut für digitale Analysen eignet.“

Ich denke, HWP hat ein ähnliches Problem. Ich halte HWP nach wie vor für eine hervorragende Software, aber da es im Grunde für die Publikation gedacht ist, ist die Analyse schwierig.

Word ist dagegen für die Erstellung von Druckerzeugnissen eher chaotisch, aber man kann sich dafür stärker auf den Inhalt konzentrieren, und deshalb scheint es paradoxerweise besser zum Web-/KI-Zeitalter gepasst zu haben.