Llama 2 Chat 70B übertrifft ChatGPT (3.5) in der Modellbewertung

xguru · 2023-07-31T10:17:01+09:00

Basierend auf dem AlpacaEval Leaderboard zur automatischen Bewertung von Instruction-Following-Sprachmodellen GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37% AlpacaEval führt die automatische Bewertung durch, indem es das AlpacaFarm-Evaluierungsset verwendet und die Antworten mit den von GPT-4 erzeugten Antworten vergleicht

(tatsu-lab.github.io)

10 Punkte von xguru 2023-07-31 | Noch keine Kommentare. | Auf WhatsApp teilen

Basierend auf dem AlpacaEval Leaderboard zur automatischen Bewertung von Instruction-Following-Sprachmodellen
GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
AlpacaEval führt die automatische Bewertung durch, indem es das AlpacaFarm-Evaluierungsset verwendet und die Antworten mit den von GPT-4 erzeugten Antworten vergleicht

Llama 2 Chat 70B übertrifft ChatGPT (3.5) in der Modellbewertung

Verwandte Beiträge

Noch keine Kommentare.