DeepEval – Unit-Testing für LLMs

xguru · 2023-08-19T10:03:01+09:00

Die Grundphilosophie ist „Pytest for LLM“ Für den Übergang in die Produktion bietet es eine Python-typische Methode, um Offline-Evaluierungen für LLM-Pipelines durchzuführen Tests für LLM-Anwendungen (wie RAG) lassen sich ähnlich schreiben wie Python-Unit-Tests Über assert_llm_output werden Antworten mit Metriken wie entailment / exact / bertscore bewertet Eigene Metriken können definiert und bestehende Metriken angepasst werden

(github.com/mr-gpt)

4 Punkte von xguru 2023-08-19 | Noch keine Kommentare. | Auf WhatsApp teilen

Die Grundphilosophie ist „Pytest for LLM“
Für den Übergang in die Produktion bietet es eine Python-typische Methode, um Offline-Evaluierungen für LLM-Pipelines durchzuführen
Tests für LLM-Anwendungen (wie RAG) lassen sich ähnlich schreiben wie Python-Unit-Tests
Über assert_llm_output werden Antworten mit Metriken wie entailment / exact / bertscore bewertet
Eigene Metriken können definiert und bestehende Metriken angepasst werden

DeepEval – Unit-Testing für LLMs

Verwandte Beiträge

Noch keine Kommentare.