Wie man Millionen von PDFs verarbeitet und warum Gemini 2.0 alles verändert

(sergey.fyi)

29 Punkte von GN⁺ 2025-02-06 | 2 Kommentare | Auf WhatsApp teilen

Die Umwandlung von PDFs in Text-Chunks (chunking) ist beim Aufbau großskaliger RAG-Systeme eines der lästigsten Probleme.
Es gibt sowohl Open-Source- als auch kommerzielle Lösungen, aber in Bezug auf Genauigkeit, Skalierbarkeit und Kosteneffizienz liefern sie oft keine zufriedenstellenden Ergebnisse.
- Beispiel: NVIDIAs nv-ingest erfordert die Zusammensetzung mehrerer Services in einem Kubernetes-Cluster und ist ein komplexer Ansatz mit hohem GPU-Ressourcenverbrauch.
- Auch einige kommerzielle Dienste bieten im Verhältnis zu den Kosten nicht genug Genauigkeit, oder die Preise steigen bei der Anwendung auf große Dokumentenmengen astronomisch an.

Das Aufkommen von Gemini Flash 2.0

Es gab Versuche, große Modelle (LLMs) für OCR und PDF-Konvertierung einzusetzen, aber die tatsächliche Kostensenkung war gering und es traten viele unvorhersehbare Fehler auf.
- Beispiel: Es wurden Fälle berichtet, in denen GPT-4o unnötige Zellen in Tabellen hinzufügte.
Gemini Flash 2.0 wird im Vergleich zur Version 1.5 Flash als deutlich verbessert bei Genauigkeit und Kosteneffizienz bewertet.
- Interne Tests zeigen, dass nahezu perfekte OCR-Genauigkeit bei sehr niedrigen Kosten erreicht wird.
Googles Developer Experience wird zwar als etwas schwächer als die von OpenAI eingeschätzt, aber die vernünftige Preisgestaltung ist ein großer Vorteil.

Bei der Konvertierung von PDFs in Markdown schneidet Gemini Flash 2.0 bei den Verarbeitungskosten pro Seite besonders gut ab.
- 2.0 Flash: etwa 6.000 Seiten/$1
- 2.0 Flash Lite: etwa 12.000 Seiten/$1 (vor dem Test)
- 1.5 Flash: etwa 10.000 Seiten/$1
- AWS Textract: etwa 1.000 Seiten/$1
- OpenAI 4o-mini: etwa 450 Seiten/$1 usw.
Bei der Genauigkeit der Tabellenextraktion lag das eigene Modell von Reducto mit 0,90 vorn, während Gemini 2.0 Flash und Anthropic Sonnet bei etwa 0,84 lagen.
- In den Fällen, in denen Gemini falsch zu liegen schien, handelte es sich meist um Probleme der strukturellen Formatierung; tatsächlich falsch erkannte Zahlen waren selten.
Auch die sonstige Textextraktion funktioniert nahezu perfekt.

Für die Nutzung in einer RAG-Pipeline muss der extrahierte Text in sinnvolle semantische Einheiten zerlegt werden.
Forschungsergebnisse deuten darauf hin, dass große LLMs Textgrenzen natürlicher erkennen können.
Bisher waren die Kosten jedoch zu hoch, um dies auf große Dokumentensammlungen praktisch anzuwenden.
Dank Gemini Flash 2.0 lässt sich LLM-basiertes Chunking nun auch bei großen Dokumentmengen kostengünstig einsetzen.
- Beispiel: Ein PDF-Korpus mit 100 Millionen Seiten kann für etwa $5.000 verarbeitet werden.
Einfaches Beispiel-Prompt:

OCR the following page into Markdown. Tables should be formatted as HTML.
Do not sorround your output with triple backticks.

Chunk the document into sections of roughly 250 - 1000 words. Our goal is
to identify parts of the page with same semantic theme. These chunks will
be embedded and used in a RAG pipeline.

Surround the chunks with <chunk> </chunk> html tags.

In PDFs müssen Positionsinformationen des Textes (z. B. Bounding Boxes) erhalten bleiben, damit Nutzern präzise Belege bereitgestellt werden können.
Dass diese Positionsinformationen bei der Umwandlung in Markdown verloren gehen, ist ein großer Nachteil.
Einige Studien zeigten Beispiele dafür, dass LLMs räumliches Verständnis in Bildern und Dokumenten besitzen können, aber die aktuellen Gemini-Modelle können noch keine präzisen Bounding Boxes liefern.
Wenn Google durch zusätzliches Training oder Fine-tuning Dokumentlayout-Daten stärkt, könnte dieses Problem lösbar sein.

Eine günstige und präzise Lösung für PDF-Extraktion und Segmentierung ist ein Kernelement, um großskalige Dokumentindexierungs-Pipelines zu vereinfachen und besser skalierbar zu machen.
Wenn Probleme bei Parsing, Chunking und Bounding Boxes gelöst werden, dürfte LLM-basierte Dokumentverarbeitung erheblich einfacher werden.
Künftig werden voraussichtlich nach und nach ausgereifte Open-Source-Bibliotheken erscheinen, die vielen Unternehmen und Entwicklern eine leicht nutzbare Grundlage bieten.
Wer Informationen zu Googles AI-Startup-Credits-Programm hat, wird um Kontakt gebeten.

[1] Es ist ein Beispielbild beigefügt, das Reducto, Gemini und das ursprüngliche PDF vergleicht.
[2] Kostenberechnung für Gemini Flash 2.0: Basierend auf Eingabebildkosten von $0.00009675 und Ausgabekosten von $0.0000525 pro 400 Token ergeben sich grob 6.379 Seiten/$1.

jacde 2025-02-07

In Bezug auf Kosten oder Leistung scheint Agent Chunking durchaus wirksam zu sein.

ragingwind 2025-02-06

Der Wettbewerb um die Konvertierung in LLM-Ready-Formate ist heftig.