Simon Willisons Rezension zu Claude 4.5 Opus

(simonwillison.net)

8 Punkte von laeyoung 2025-11-26 | 2 Kommentare | Auf WhatsApp teilen

Claude Opus 4.5 und warum die Bewertung neuer LLMs immer schwieriger wird

Der Preis ist sehr überzeugend

5 Dollar pro Million Input-Tokens, 25 Dollar pro Million Output-Tokens
Deutlich günstiger als das frühere Opus mit 15 Dollar / 75 Dollar
Auch im Vergleich zur GPT-5.1-Familie (1,25 Dollar / 10 Dollar) und Gemini 3 Pro (2 Dollar / 12 Dollar, oder 4 Dollar / 18 Dollar bei Käufen über 200.000 Tokens) konkurrenzfähig

Interessante Verbesserungen in Opus 4.5

Opus 4.5 ergänzt einen neuen effort-Parameter, der standardmäßig auf hoch gesetzt ist
Unterstützt verbessertes Computer use und bietet insbesondere ein zoom, mit dem man das Modell anweisen kann, vergrößerte Bereiche des Bildschirms zu untersuchen
Denkblöcke aus früheren Hilfs-Turns werden nun standardmäßig im Modellkontext beibehalten

Die Schwierigkeit der Bewertung

Es wird immer schwieriger, die Leistung führender LLMs voneinander abzugrenzen
Benchmarks wie SWE-bench Verified zeigen Unterschiede von nur einstelligen Prozentpunkten zwischen Modellen
Das erklärt aber nicht, welche Ergebnisse das in der Praxis bringt, wenn man versucht, reale Probleme zu lösen, oder wie groß der Unterschied dann tatsächlich ist
Vorerst geht das Zeichnen eines Pelikan auf einem Fahrrad weiter.

2 Kommentare

youknowone 2025-11-26

Übersetzung: https://rosettalens.com/s/ko/claude-opus

laeyoung 2025-11-26

Anthropic hat das Opus-4.5-Benchmark-Diagramm

Wenn man es einfach so zeichnet, sind die Höhen fast identisch, daher ist der Bereich 0–70 auf der Y-Achse des Diagramms verkürzt.