Ich dachte, es reicht, einfach nur ein PDF reinzuwerfen – gescheiterter Versuch, RAG auf GPTs anzuwe

Hintergrund der Entwicklung eines buddhistischen GPT

Ich wollte GPT zum Studium des Buddhismus nutzen, doch die Grundleistung blieb hinter den Erwartungen zurück.
Durch das Einlernen von PDF-Materialien verbesserte sich die Qualität der Antworten.
Nachdem mir vorgeschlagen wurde, die Jataka-Schriften einlernen zu lassen, startete ich das Projekt.

Grenzen des PDF-Trainings

Nach dem Einlernen der Jataka-PDFs waren Halluzinationen massiv.
Nichtlineare Strukturen wie Mehrspaltigkeit, Tabellen und Abbildungen störten GPT.

Versuchte Methoden (alle gescheitert)

Verwendung des epub-Formats
Anpassung der Instructions
Umwandlung in Markdown + Crawling
Hinzufügen eines csv-Index

Ein Ansatz zur Lösung

Das Problem war der Konflikt zwischen der nummernbasierten Struktur der Jataka und den generativen Eigenschaften von GPT.
GPT konnte das csv nicht richtig nutzen.
Nachdem mir ein JSON-Index vorgeschlagen wurde und ich ihn anwandte, stieg die Genauigkeit stark an.

Konkrete Umsetzung

epub → Umwandlung in Markdown (pandoc)
Überschriften anpassen, unnötigen Text entfernen
Je nach Fall manuelle Strukturierung des Markdown

Gründe für die Einstellung des Dienstes

Bei Fragen zum Abhidhamma traten Halluzinationen auf
Der Übersetzer Sujato Bhante lehnt KI-Training ab
Mögliches Risiko eines Verstoßes gegen die SuttaCentral-Lizenz

Fazit

RAG ist nicht einfach.
Bei Materialien für KI-Training muss die Lizenz unbedingt geprüft werden.

4 Kommentare

pkj3186 2025-03-24

Das könnte auch beim Lernen anderer Arten helfen, die eine dem Kanon ähnliche Notation verwenden. Zum Beispiel Platon-Schriften ...

bus710 2025-03-24

Also also ... Sie ist doch nicht etwa ohne uns ganz allein ins Nirwana eingegangen, oder?

1206good 2025-03-24

Ich dachte, dass Doc As Prompt mit Mistral OCR gut funktionieren würde, aber ich hatte ein ähnliches Problem. Ich nehme hier einen wichtigen Hinweis mit.

halfenif 2025-03-24

Das erinnert mich an den Gedanken: „Macht eure Beziehungsberatung, die man nur schwer mit Freunden besprechen kann, ganz bequem mit einem LLM.“