8 Punkte von GN⁺ 2025-11-25 | 2 Kommentare | Auf WhatsApp teilen
  • Claude Opus 4.5 ist ein KI-Modell mit Spitzenleistung beim Schreiben von Code, beim Ausführen von Agenten und bei der Nutzung von Computern
  • Im realen Software-Engineering-Test (SWE-bench Verified) erzielte es den Bestwert; Token-Effizienz und Schlussfolgerungsfähigkeit wurden deutlich verbessert
  • Der Preis wurde auf $5/$25 pro 1 Million Tokens gesenkt, sodass mehr Entwickler und Unternehmen Funktionen auf Opus-Niveau nutzen können
  • Mit dem neuen Parameter effort, Kontextverwaltung und verbesserter Tool-Nutzung wurden die Claude Developer Platform und Claude Code deutlich aufgewertet
  • Verstärkte Sicherheit und Alignment sowie eine verbesserte Abwehr von Prompt-Injection markieren einen Wendepunkt für das Vertrauen in den KI-Einsatz branchenübergreifend

Überblick über Claude Opus 4.5

  • Anthropic hat Claude Opus 4.5 vorgestellt und als Modell auf Weltklasseniveau für Coding, Agenten und Computernutzung beschrieben
    • Auch bei Alltagsaufgaben wie Recherche, Folien und Tabellenkalkulationen wurde die Leistung verbessert
    • Es wird als ein Schritt bewertet, der den Umfang dessen erweitert, was KI-Systeme leisten können
  • Opus 4.5 erzielte im SWE-bench Verified-Test den Höchstwert
  • Sofort verfügbar in der Anthropic-App, über die API und auf den drei großen Cloud-Plattformen
    • API-Modellname: claude-opus-4-5-20251101
    • Preis: Eingabe $5 / Ausgabe $25 (pro 1 Million Tokens)

Feedback von frühen Nutzern und aus Tests

  • Interne Tests berichten von Verbesserungen beim Umgang mit mehrdeutigen Problemen und beim Lösen komplexer Bugs
  • Frühe Nutzer aus mehreren Unternehmen gaben unter anderem folgendes Feedback
    • Höhere Codequalität und halbierter Token-Verbrauch
    • Starke Leistung bei mehrstufigem Schlussfolgern, langfristiger autonomer Arbeit und Agent-Workflows
    • Mehr als 15 % bessere Effizienz gegenüber Sonnet 4.5
    • Bestätigung der Möglichkeit, sich selbst verbessernde KI-Agenten umzusetzen
    • Leistungssteigerungen in Bereichen wie Excel-Automatisierung, 3D-Visualisierung, Code-Review und Story-Generierung
    • Gemeldete 50–75 % weniger Tool-Call-Fehler und Build-Fehler sowie höhere Geschwindigkeit

Leistungsbewertung

  • In Anthropics internem Software-Engineering-Test übertraf das Modell den Bestwert menschlicher Kandidaten
    • Bestleistung innerhalb des Zeitlimits von 2 Stunden
  • Sehvermögen, Schlussfolgerung und mathematische Fähigkeiten wurden insgesamt verbessert und erreichten in vielen Benchmarks den State of the Art (SOTA)
  • Im Test τ2-bench wurde ein Beispiel für kreative Problemlösung gezeigt
    • Eine Richtlinie, nach der Flugtickets nicht geändert werden können, wurde nicht umgangen, sondern über ein legales Verfahren (Sitzplatz-Upgrade und anschließende Terminänderung) gelöst
    • Der Benchmark wertete dies zwar als Fehlschlag, es wurde jedoch als Beispiel für kreative Schlussfolgerungsfähigkeit angeführt

Verbesserungen bei Sicherheit und Alignment

  • Claude Opus 4.5 ist laut Anthropic das am stärksten alignte Modell, das das Unternehmen bisher veröffentlicht hat
    • Die Widerstandsfähigkeit gegen Prompt-Injection-Angriffe liegt auf Spitzenniveau in der Branche
    • Auch in einem starken Angriffs-Benchmark von Gray Swan wurden gute Ergebnisse erzielt
  • Ein niedriger Wert bei „concerning behavior“ verringert die Wahrscheinlichkeit von missbräuchlicher Nutzung und autonomen Fehlfunktionen
  • Detaillierte Sicherheits- und Leistungsbewertungen sind in der Claude Opus 4.5 System Card enthalten

Updates der Claude Developer Platform

  • Opus 4.5 liefert bessere Ergebnisse mit weniger Tokens
  • Mit dem neuen Parameter effort lässt sich die Balance zwischen Geschwindigkeit, Kosten und Leistung anpassen
    • Auf mittlerem effort-Niveau gleiche Leistung wie Sonnet 4.5 bei 76 % weniger Output-Tokens
    • Auf höchstem effort-Niveau 4,3 % bessere Leistung und 48 % weniger Tokens gegenüber Sonnet 4.5
  • effort-Steuerung, context compaction und fortgeschrittene Tool-Nutzung verbessern die Effizienz bei langfristigen Aufgaben
  • 15 % bessere Agentenleistung durch Kontextverwaltung und Speicherfunktionen
  • Die Plattform entwickelt sich schrittweise zu einer modularen, kombinierbaren Architektur

Produkt-Updates

  • Claude Code verbessert auf Basis von Opus 4.5 die Präzision und Ausführungskraft des Plan Mode
    • Vor der Ausführung wird eine plan.md-Datei erzeugt, die Nutzer prüfen können
    • Die Desktop-App unterstützt parallele Ausführung mehrerer Sessions
  • Die Claude-App behält mit einer automatischen Zusammenfassung langer Gespräche den Kontext bei
  • Claude for Chrome wird für alle Max-Nutzer bereitgestellt
  • Claude for Excel wird als Beta auf Max-, Team- und Enterprise-Nutzer ausgeweitet
  • Durch eine Anhebung des dedizierten Nutzungslimits für Opus 4.5 wird der Einsatz in täglichen Arbeitsabläufen möglich

Weitere Informationen

  • Alle Bewertungen (evals) wurden als Durchschnitt aus 5 Durchläufen mit 64K thinking budget, 200K Kontextfenster und der Standardeinstellung effort (high) durchgeführt
  • Einige Tests wie SWE-bench Verified und Terminal Bench verwendeten separate Einstellungen
  • Zugehörige Forschungsergebnisse und Detailresultate finden sich in der Claude Opus 4.5 System Card

Verwandte Meldungen

  • Claude wurde in Microsoft Foundry und Microsoft 365 Copilot integriert
  • Microsoft, NVIDIA und Anthropic haben eine strategische Partnerschaft geschlossen
    • Anthropic plant den Kauf von Azure-Rechenkapazität im Wert von 30 Milliarden Dollar sowie zusätzliche Verträge von bis zu 1 GW
  • Zusammenarbeit mit der Regierung von Ruanda und ALX zum Ausbau der KI-Bildung in Afrika

2 Kommentare

 
kaydash 2025-11-27

Ich muss schon für 5G-Kommunikationsgebühren zahlen und auch noch Netflix abonnieren, und jetzt soll ich auch noch ein AI-Abo abschließen schnief.

 
GN⁺ 2025-11-25
Hacker-News-Kommentare
  • Im Mittelpunkt dieser Ankündigung steht die Preissenkung von Opus 4.5
    $5/$25 pro MTok entspricht im Vergleich zu Opus 4 einer Reduktion um das Dreifache, sodass es nun nicht mehr nur ein „Modell für wichtige Aufgaben“ ist, sondern ein Modell, das tatsächlich in produktiven Workloads eingesetzt werden kann
    Außerdem wird behauptet, die Resistenz gegen Prompt Injection liege auf SOTA-Niveau. Falls die Werte aus der System Card auch unter aggressiven Tests Bestand haben, wäre das für Betreiber von Agenten mit Tool-Zugriff von großer Bedeutung
    Die Formulierung „am stärksten ausgerichtetes Modell“ wirkt allerdings etwas übertrieben, und ich bin auf Ergebnisse von Third-Party-Red-Teams gespannt

    • Mit dem Release von Opus 4.5 wurden die Nutzungsbeschränkungen von Claude Code gelockert
      Die nur für Opus geltende Obergrenze wurde entfernt, und auch Max- sowie Team-Premium-Nutzer können nun ähnlich viele Tokens verwenden wie zu Sonnet-Zeiten
      Laut Aussage wurden die Limits angepasst, damit sich Opus 4.5 im Arbeitsalltag einsetzen lässt
    • Interne Tests zeigten, dass Opus 4.5 im Betrieb oft sogar günstiger als Sonnet war
      Beim Amp-Team lagen die durchschnittlichen Kosten pro Thread bei Sonnet 4.5 bei $1.83 und bei Opus 4.5 bei etwa $1.30
      Ein größerer Kostenvorteil als der reine Tokenpreis ist die Verringerung von Fehlern durch höhere Intelligenz
    • Die dreifache Preissenkung deutet vermutlich darauf hin, dass Opus 4.5 ein kleineres und spezialisierteres Basismodell sein könnte
      Das Fine-Tuning auf Benchmarks scheint verstärkt worden zu sein, und mich interessiert die Leistung in nicht zielgerichteten Tests wie eqbench.com
    • Früher habe ich den Abschnitt „Safety“ eher als eine Art Science-Fiction-Warnung verstanden, diesmal fand ich spannend, dass praktische Probleme wie Prompt Injection behandelt werden
      Offenbar entwickelt sich der Begriff „Sicherheit“ inzwischen in eine andere Richtung
    • Allerdings soll Pliney the Liberator bereits erfolgreich einen Jailbreak durchgeführt haben
      Das könnte allerdings etwas anderes sein als Resistenz gegen Prompt Injection
  • Dieses Modell wird wohl für 2–4 Wochen revolutionär sein, danach kommt vermutlich der „Nerf“
    In den Monaten danach werden Leute, die auf nachlassende Leistung hinweisen, als „nicht gut genug“ abgestempelt, dann verkündet ein Engineer, man habe „einige Bugs“ gefunden, und anschließend erscheint Opus 4.7
    Meine Loyalität messe ich inzwischen in Nerf-Zyklen

    • Es könnte auch sein, dass es sich nicht um echte Leistungsverschlechterung, sondern um eine kognitive Täuschung handelt
      Denn in den Benchmarks gibt es keine Belege für eine Verschlechterung
      Falls Menschen den Rückgang dennoch real wahrnehmen, würde das darauf hindeuten, dass es einen mit Benchmarks nicht erfassbaren Faktor (x-factor) gibt
    • Deshalb bin ich zu Gemini gewechselt
      Seit der v2.5-Generation gab es dort keinen Leistungsabfall, und ich vermute bei Anthropic fast, dass dort quantisierte Modellvarianten ausgetauscht werden
    • Klingt wie ein Witz, aber vielleicht ist das in Wirklichkeit einfach ein Relaunch von Opus 4.0
    • Dieses Phänomen passt auch zum Verhaltensmuster des CEO
    • Claude scheint vermutlich heimlich mit Kontextkompression zu experimentieren
      Bei einzelnen Anfragen mit geringer Kontextabhängigkeit ist der Leistungsabfall weniger stark
  • Ich habe Gemini 3 Pro in Cursor verwendet, und es ist deutlich schwächer als Sonnet 4.5
    Es gab Probleme, die nur Claude Code lösen konnte, und Sonnet 4.5 funktioniert besonders gut innerhalb von Cursor
    Ich halte es für die richtige Entscheidung, dass Anthropic eine auf Software Engineering fokussierte Strategie gewählt hat
    Für 2026 ist es für mich das spannendste Modell

    • Claude-Modelle verfügen über eingebaute Tools wie str_replace_editor
      Cursor hat solche Tools nicht, weshalb Leistungsunterschiede entstehen
      Der zugehörige Tweet ist hier
    • Mein Workflow bestand darin, mit Gemini zu entwerfen und mit Sonnet umzusetzen
    • Persönlich verstehe ich den übermäßigen Hype um Gemini nicht
      Opus/Sonnet/GPT sind für agentische Workflows deutlich besser geeignet
    • Ich habe mit der Gemini-2.5-Pro-API ein Side-Project gebaut, dabei waren Konsistenz bei der Ausführung von Anweisungen und Resource-Exceeded-Fehler problematisch
      Azure GPT-4.1, Bedrock Sonnet 4 und Perplexity waren deutlich stabiler
      Mich interessieren die Erfahrungen anderer
    • Ich habe Sonnet 4.5 base64-kodiertes PHP-serialize()-JSON gegeben und es URLs extrahieren lassen, woraufhin es einen YouTube-Link von Rick Astley zurückgab
  • Die Claude-Opus-4.5-System-Card ist deutlich ausführlicher als der Marketing-Blog
    Es handelt sich um ein 150-seitiges PDF, besonders interessant ist der Abschnitt über Täuschung (deception)
    Dort gibt es zum Beispiel einen Fall, in dem das Modell Nachrichten über die Auflösung von Anthropics Sicherheitsteam erhält und diese Information dem Nutzer dennoch vorenthält
    Auch CBRN-bezogene Risiken werden behandelt, Opus liegt aber noch auf ASL-3-Niveau, also ohne großskaliges Risiko
    Ich habe dazu hier eine Blog-Zusammenfassung veröffentlicht

  • Ich freue mich wirklich über diese Benchmark-Ergebnisse
    Dadurch kann ich meinen bestehenden Coding Agent weiterverwenden
    In der schnelllebigen AI-Landschaft wurde es immer schwerer, ohne FOMO mitzuhalten, aber diesmal hat Anthropic seine Wettbewerbsfähigkeit erneut bewiesen

    • Es scheint, als hätten wir nun einen Punkt erreicht, an dem man den Hype ignorieren kann, ohne zurückzufallen
      Die Kombination aus Sonnet und Claude Code war bereits stabil genug, und seit 4.5 ist sie automatisch noch besser geworden
      Der Versuchung, zu Codex zu wechseln, widerstehe ich einfach
    • Ich bin wegen Preislimits zu OpenAI gewechselt
      Selbst wenn Claude etwas besseren Code erzeugt, ermöglicht GPT unbegrenzte Anfragen, was mehr Freiheit beim Experimentieren bietet
    • Mehrere Tools parallel zu nutzen bringt produktivitätsseitig keinen großen Gewinn
      Opus ist ein sinnvoller Fortschritt, aber vermutlich keine grundlegende Veränderung des Workflows
    • Ich mag auch Anthropics entwicklerfreundliche Ausrichtung
      Hoffentlich schlägt sich das Unternehmen weiterhin gut im Wettbewerb
    • Ich habe auch Codex ausprobiert, bin aber letztlich zu Claude Code zurückgekehrt
      Codex nutze ich nur noch vorübergehend, wenn ich an Limits stoße
  • Besonders beeindruckend fand ich die fortgeschrittenen Tool-Fähigkeiten von Opus 4.5
    Laut dem Dokument Advanced Tool Use sind Tool-Suche, programmatische Aufrufe und Lernen anhand von In-Context-Beispielen möglich
    Allein für die Tool-Definitionen wurden angeblich 130.000 Tokens verwendet, was erstaunlich ist
    Auch das Demo-Video zum Puzzle-Spiel war interessant

  • Ich habe Simon Willisons Opus-Review gelesen

    • Eine schrittweise Evolution ist in großen Codebasen nur schwer spürbar
      Bei den meisten Aufgaben ist die Lücke im Tooling größer als die zwischen den Modellen
    • Ich frage mich, ob die Bibliothek zur Umwandlung von Terminal-Ausgabe in HTML selbst geschrieben wurde
    • Ich frage mich, ob das Modell womöglich auf Benchmark-Daten hin trainiert wurde
    • In der Preisangabe für Haiku gibt es einen Fehler — korrekt ist $1/$5
    • Vorschlag zur Tippfehlerkorrektur: There modelTheir model
  • Wenn man sich das ARC-AGI-2-Leaderboard ansieht, wird der Vergleich von Kosten und Leistung zwischen den Modellen deutlich
    Opus 4.5 zeigt im Vergleich zu Gemini 3 hervorragende Ergebnisse, Gemini 3 Deep Think liegt zwar weiterhin auf Platz 1, kostet aber mehr als das 30-Fache
    Als OpenAI im Dezember 2024 die menschliche Leistung bei ARC-AGI-1 übertraf, lagen die Kosten noch bei $3.000 pro Aufgabe, inzwischen sind es nur noch ein paar Dollar, also eine Verbesserung um das 80-Fache
    Siehe Leaderboard und den zugehörigen Blog

    • Zur Einordnung: Gemini 3 Pro ist die Version ohne Tool-Nutzung, Deep Think die Version mit Tool-Nutzung
      Mit denselben Tool-Zugriffsrechten wäre der Abstand zwischen beiden Modellen kleiner
  • In letzter Zeit wirkt es so, als habe sich das Tempo der LLM-Verbesserungen verlangsamt
    Die Fortschritte bei der Genauigkeit sind gering, aber die Verbesserungen bei der Effizienz sind aus meiner Sicht erheblich

  • In letzter Zeit wirkt Sonnet 4.5 irgendwie dümmer
    Es konnte nicht einmal einfaches CSS sauber verarbeiten
    Dass Opus dreimal günstiger geworden ist, ist gut, aber im Claude-Code-Pro-Abo ist es noch immer nicht nutzbar
    Mit dem Befehl /model opusplan kann man Opus in der Planungsphase verwenden, aber die Credit-Nutzung ist dabei intransparent
    Eine einfache CSS-Korrektur hat $0.95 gekostet, das ist zu teuer
    Künftig werde ich wohl manuell zwischen Opus und Sonnet wechseln

    • Die Qualität von Sonnet 4.5 scheint sich wie bei einer Schach-Engine proportional zur Suchtiefe zu verhalten
      Zu Spitzenzeiten ist ein Leistungsabfall wohl unvermeidlich, daher wäre eine Load-Signal-Funktion wünschenswert
    • In den letzten Tagen fühlte es sich eindeutig so an, als sei die Intelligenz gesunken
      Vielleicht wurde sie absichtlich reduziert, um das neue Modell zu bewerben, oder durch mehr Last infolge verteilter Gratis-Credits läuft nun eine quantisierte Version
      Die Intransparenz und Instabilität bei Anthropic sind bedauerlich
    • Wahrscheinlich gibt es bei Traffic-Überlastung ein Failover auf ein günstigeres Modell
    • Besonders an Freitagen habe ich wiederholt anhaltend dumme Antworten gesehen
      Zuerst hielt ich es für einen simplen vorübergehenden Fehler, aber es fühlt sich an, als hätte sich etwas verändert