Simon Willisons Rezension zu Claude 4.5 Opus
(simonwillison.net)Claude Opus 4.5 und warum die Bewertung neuer LLMs immer schwieriger wird
Der Preis ist sehr überzeugend
- 5 Dollar pro Million Input-Tokens, 25 Dollar pro Million Output-Tokens
- Deutlich günstiger als das frühere Opus mit 15 Dollar / 75 Dollar
- Auch im Vergleich zur GPT-5.1-Familie (1,25 Dollar / 10 Dollar) und Gemini 3 Pro (2 Dollar / 12 Dollar, oder 4 Dollar / 18 Dollar bei Käufen über 200.000 Tokens) konkurrenzfähig
Interessante Verbesserungen in Opus 4.5
- Opus 4.5 ergänzt einen neuen
effort-Parameter, der standardmäßig auf hoch gesetzt ist - Unterstützt verbessertes Computer use und bietet insbesondere ein
zoom, mit dem man das Modell anweisen kann, vergrößerte Bereiche des Bildschirms zu untersuchen - Denkblöcke aus früheren Hilfs-Turns werden nun standardmäßig im Modellkontext beibehalten
Die Schwierigkeit der Bewertung
- Es wird immer schwieriger, die Leistung führender LLMs voneinander abzugrenzen
- Benchmarks wie SWE-bench Verified zeigen Unterschiede von nur einstelligen Prozentpunkten zwischen Modellen
- Das erklärt aber nicht, welche Ergebnisse das in der Praxis bringt, wenn man versucht, reale Probleme zu lösen, oder wie groß der Unterschied dann tatsächlich ist
- Vorerst geht das Zeichnen eines Pelikan auf einem Fahrrad weiter.
2 Kommentare
Übersetzung: https://rosettalens.com/s/ko/claude-opus
Anthropic hat das Opus-4.5-Benchmark-Diagramm