Von LLM getötet

xguru · 2025-01-08T09:33:01+09:00

Benchmarks, die durch Fortschritte in der KI überholt wurden (für die Messung neuester Modelle nicht mehr geeignet) Als Benchmark noch nützlich, leisten sie jedoch keinen nennenswerten Beitrag zur Frage „Kann KI X tun?“ 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande 2022: BIG-Bench 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD 2018: SWAG

(r0bk.github.io)

7 Punkte von xguru 2025-01-08 | 3 Kommentare | Auf WhatsApp teilen

Benchmarks, die durch Fortschritte in der KI überholt wurden (für die Messung neuester Modelle nicht mehr geeignet)
- Als Benchmark noch nützlich, leisten sie jedoch keinen nennenswerten Beitrag zur Frage „Kann KI X tun?“
2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
2022: BIG-Bench
2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
2018: SWAG

3 Kommentare

kandk 2025-01-08

Verschwindet SQuAD auch?

nutella 2025-01-08

Das erinnert mich an Google.

xguru 2025-01-08

Bei einigen Benchmarks gibt es zwar noch Pro und Contra, aber das ist spannend. https://news.ycombinator.com/item?id=42606231

Von LLM getötet

Verwandte Beiträge

3 Kommentare