Von LLM getötet
(r0bk.github.io)- Benchmarks, die durch Fortschritte in der KI überholt wurden (für die Messung neuester Modelle nicht mehr geeignet)
- Als Benchmark noch nützlich, leisten sie jedoch keinen nennenswerten Beitrag zur Frage „Kann KI X tun?“
- 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
- 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
- 2022: BIG-Bench
- 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
- 2018: SWAG
3 Kommentare
Verschwindet SQuAD auch?
Das erinnert mich an Google.
Bei einigen Benchmarks gibt es zwar noch Pro und Contra, aber das ist spannend. https://news.ycombinator.com/item?id=42606231