DeepEval – Unit-Testing für LLMs
(github.com/mr-gpt)- Die Grundphilosophie ist „Pytest for LLM“
- Für den Übergang in die Produktion bietet es eine Python-typische Methode, um Offline-Evaluierungen für LLM-Pipelines durchzuführen
- Tests für LLM-Anwendungen (wie RAG) lassen sich ähnlich schreiben wie Python-Unit-Tests
- Über
assert_llm_outputwerden Antworten mit Metriken wie entailment / exact / bertscore bewertet - Eigene Metriken können definiert und bestehende Metriken angepasst werden
Noch keine Kommentare.