Llama 2 Chat 70B übertrifft ChatGPT (3.5) in der Modellbewertung
(tatsu-lab.github.io)- Basierend auf dem AlpacaEval Leaderboard zur automatischen Bewertung von Instruction-Following-Sprachmodellen
- GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
- AlpacaEval führt die automatische Bewertung durch, indem es das AlpacaFarm-Evaluierungsset verwendet und die Antworten mit den von GPT-4 erzeugten Antworten vergleicht
Noch keine Kommentare.