Hintergrund der Entwicklung eines buddhistischen GPT
- Ich wollte GPT zum Studium des Buddhismus nutzen, doch die Grundleistung blieb hinter den Erwartungen zurück.
- Durch das Einlernen von PDF-Materialien verbesserte sich die Qualität der Antworten.
- Nachdem mir vorgeschlagen wurde, die Jataka-Schriften einlernen zu lassen, startete ich das Projekt.
Grenzen des PDF-Trainings
- Nach dem Einlernen der Jataka-PDFs waren Halluzinationen massiv.
- Nichtlineare Strukturen wie Mehrspaltigkeit, Tabellen und Abbildungen störten GPT.
Versuchte Methoden (alle gescheitert)
- Verwendung des
epub-Formats
- Anpassung der Instructions
- Umwandlung in Markdown + Crawling
- Hinzufügen eines
csv-Index
Ein Ansatz zur Lösung
- Das Problem war der Konflikt zwischen der nummernbasierten Struktur der Jataka und den generativen Eigenschaften von GPT.
- GPT konnte das
csv nicht richtig nutzen.
- Nachdem mir ein JSON-Index vorgeschlagen wurde und ich ihn anwandte, stieg die Genauigkeit stark an.
Konkrete Umsetzung
epub → Umwandlung in Markdown (pandoc)
- Überschriften anpassen, unnötigen Text entfernen
- Je nach Fall manuelle Strukturierung des Markdown
Gründe für die Einstellung des Dienstes
- Bei Fragen zum Abhidhamma traten Halluzinationen auf
- Der Übersetzer Sujato Bhante lehnt KI-Training ab
- Mögliches Risiko eines Verstoßes gegen die SuttaCentral-Lizenz
Fazit
- RAG ist nicht einfach.
- Bei Materialien für KI-Training muss die Lizenz unbedingt geprüft werden.
4 Kommentare
Das könnte auch beim Lernen anderer Arten helfen, die eine dem Kanon ähnliche Notation verwenden. Zum Beispiel Platon-Schriften ...
Also also ... Sie ist doch nicht etwa ohne uns ganz allein ins Nirwana eingegangen, oder?
Ich dachte, dass Doc As Prompt mit Mistral OCR gut funktionieren würde, aber ich hatte ein ähnliches Problem. Ich nehme hier einen wichtigen Hinweis mit.
Das erinnert mich an den Gedanken: „Macht eure Beziehungsberatung, die man nur schwer mit Freunden besprechen kann, ganz bequem mit einem LLM.“