8 Punkte von laeyoung 2025-11-26 | 2 Kommentare | Auf WhatsApp teilen

Claude Opus 4.5 und warum die Bewertung neuer LLMs immer schwieriger wird

Der Preis ist sehr überzeugend

  • 5 Dollar pro Million Input-Tokens, 25 Dollar pro Million Output-Tokens
  • Deutlich günstiger als das frühere Opus mit 15 Dollar / 75 Dollar
  • Auch im Vergleich zur GPT-5.1-Familie (1,25 Dollar / 10 Dollar) und Gemini 3 Pro (2 Dollar / 12 Dollar, oder 4 Dollar / 18 Dollar bei Käufen über 200.000 Tokens) konkurrenzfähig

Interessante Verbesserungen in Opus 4.5

  • Opus 4.5 ergänzt einen neuen effort-Parameter, der standardmäßig auf hoch gesetzt ist
  • Unterstützt verbessertes Computer use und bietet insbesondere ein zoom, mit dem man das Modell anweisen kann, vergrößerte Bereiche des Bildschirms zu untersuchen
  • Denkblöcke aus früheren Hilfs-Turns werden nun standardmäßig im Modellkontext beibehalten

Die Schwierigkeit der Bewertung

  • Es wird immer schwieriger, die Leistung führender LLMs voneinander abzugrenzen
  • Benchmarks wie SWE-bench Verified zeigen Unterschiede von nur einstelligen Prozentpunkten zwischen Modellen
  • Das erklärt aber nicht, welche Ergebnisse das in der Praxis bringt, wenn man versucht, reale Probleme zu lösen, oder wie groß der Unterschied dann tatsächlich ist
  • Vorerst geht das Zeichnen eines Pelikan auf einem Fahrrad weiter.

2 Kommentare

 
laeyoung 2025-11-26

Anthropic hat das Opus-4.5-Benchmark-Diagramm

  • Wenn man es einfach so zeichnet, sind die Höhen fast identisch, daher ist der Bereich 0–70 auf der Y-Achse des Diagramms verkürzt.