Claude Opus 4.7
(anthropic.com)- Die fortschrittliche Software-Engineering-Leistung wurde verbessert, sodass komplexe und lang laufende Aufgaben mit hoher Konsistenz und Genauigkeit bearbeitet werden können
- Die visuelle Erkennung und multimodale Verständnisfähigkeit wurden verbessert, sodass komplexe visuelle Informationen wie hochauflösende Bilder, technische Diagramme und chemische Strukturen analysiert werden können
- Integrierte Cybersecurity-Schutzmechanismen erkennen und blockieren automatisch Hochrisikoanfragen; legitime Sicherheitsforscher können am Cyber Verification Program teilnehmen
- Neue Funktionen wie Effort-Steuerung, Task Budget und der Befehl ultrareview verbessern die Effizienz bei Langzeitaufgaben und die Fähigkeit zur Überprüfung der Codequalität
- Gegenüber Opus 4.6 wurde eine Leistungssteigerung von 13 % sowie hohe Zuverlässigkeit erreicht; Anthropic bereitet auf dieser Grundlage die sichere Veröffentlichung eines Modells der Mythos-Klasse vor
Überblick über Claude Opus 4.7
- Claude Opus 4.7 ist ein Modell mit deutlich verbesserter fortschrittlicher Software-Engineering-Leistung gegenüber Opus 4.6 und kann komplexe und lang laufende Aufgaben mit hoher Konsistenz und Genauigkeit bearbeiten
- Nutzer können dem Modell anspruchsvollere Coding-Aufgaben anvertrauen und delegieren als bisher; das Modell prüft seine Ergebnisse selbst und berichtet anschließend darüber
- Die visuelle Wahrnehmungsfähigkeit wurde verbessert, wodurch bei hochauflösenden Bildern, Interfaces, Slides und Dokumenten hohe Qualität und Kreativität erzielt werden
- Im Vergleich zu Anthropics Claude Mythos Preview ist die allgemeine Leistungsfähigkeit geringer, auf verschiedenen Benchmarks erzielt es jedoch bessere Ergebnisse als Opus 4.6
- Verfügbar für die gesamte Claude-Produktfamilie und API sowie über Amazon Bedrock, Google Cloud Vertex AI und Microsoft Foundry; der Preis ist derselbe wie bei Opus 4.6
Maßnahmen im Bereich Cybersecurity
- Anthropic legt über Project Glasswing die Cybersecurity-Risiken und -Vorteile von KI offen, beschränkt die Veröffentlichung von Mythos Preview und will Sicherheitsexperimente zunächst mit weniger leistungsstarken Modellen durchführen
- Opus 4.7 ist das erste solcher Modelle und enthält Schutzmechanismen, die verbotene oder hochriskante Cybersecurity-Anfragen automatisch erkennen und blockieren
- Auf Basis realer Bereitstellungsdaten wird die breitere Veröffentlichung künftiger Modelle der Mythos-Klasse vorbereitet
- Legitime Sicherheitsforscher (Schwachstellenanalyse, Penetrationstests, Red Teaming usw.) können am Cyber Verification Program teilnehmen
Wichtige Leistungswerte und Nutzerfeedback
- In frühen Tests wurde die Fähigkeit bestätigt, logische Fehler selbst zu erkennen und die Ausführungsgeschwindigkeit zu erhöhen
- Es zeigt hervorragende Leistung bei asynchronen Workflows, CI/CD und lang laufenden Automatisierungsaufgaben und liefert nicht nur bloße Zustimmung, sondern auch tiefgehende Problemanalyse und eigene Einschätzungen
- Bei fehlenden Daten vermeidet es fehlerhafte Schlussfolgerungen und tappt nicht in Fallen durch widersprüchliche Daten
- Auf 93 Coding-Benchmarks 13 % Verbesserung gegenüber Opus 4.6, einschließlich der zusätzlichen Lösung von 4 zuvor unlösbaren Aufgaben
- Bei der Effizienz mehrstufiger Aufgaben zeigt es Konsistenz auf Spitzenniveau; im Finanzmodul erreicht es 0,813 und übertrifft damit Opus 4.6 (0,767)
- Das multimodale Verständnis wurde verbessert, wodurch die Interpretation chemischer Strukturen und komplexer technischer Diagramme besser gelingt
- Die Fähigkeit zur autonomen Ausführung langfristiger Aufgaben wurde gestärkt, sodass über mehrere Stunden hinweg konsistente Problemlösung möglich ist
- Mehrere Unternehmen wie Replit, Harvey, Hex, Notion, Databricks und Vercel berichten von Verbesserungen bei Codequalität, Genauigkeit von Tool-Aufrufen und Zuverlässigkeit langfristiger Workflows
- Als Praxisbeispiel wurde eine Rust-basierte Sprachsynthese-Engine vollständig autonom entwickelt und die Übereinstimmung mit einem Python-Referenzmodell selbstständig verifiziert
Wichtige Verbesserungen in frühen Tests
-
Genauigkeit bei der Befehlsinterpretation
- Opus 4.7 interpretiert Anweisungen wörtlich und befolgt sie deutlich strikter als frühere Modelle
- Bestehende Prompts können unerwartete Ergebnisse liefern, daher ist eine Anpassung der Prompts erforderlich
-
Verbesserte multimodale Unterstützung
- Bilder mit einer Auflösung von bis zu 2.576 Pixeln (ca. 3,75 MP) können verarbeitet werden
- Geeignet für Aufgaben mit feingranularer visueller Information wie die Analyse komplexer Diagramme oder screenshotbasierte Datenextraktion
-
Leistung in realen Arbeitsabläufen
- Bei Finanzanalyse, Präsentationen und Modellierung wird höhere Fachlichkeit und Konsistenz als bei Opus 4.6 erreicht
- Auch in der externen Bewertung GDPval-AA werden in wissensintensiven Bereichen wie Finanzen und Recht Spitzenwerte erreicht
-
Speichernutzung
- Dateisystembasierter Speicher wird effizient genutzt, um Arbeitskontext über mehrere Sitzungen hinweg zu behalten und wiederzuverwenden
Bewertung von Sicherheit und Alignment
- Insgesamt zeigt es ein ähnliches Sicherheitsprofil wie Opus 4.6, mit niedrigen Raten bei Problemen wie Täuschung, Schmeichelei und Unterstützung von Missbrauch
- Ehrlichkeit und Resistenz gegen bösartige Prompt-Injektionen wurden verbessert, in einigen Bereichen (z. B. übermäßig detaillierte Ratschläge zu Drogen) gibt es jedoch leichte Rückschritte
- Das Ergebnis der Bewertung lautet, dass es „größtenteils gut ausgerichtet und vertrauenswürdig, aber nicht vollständig ideal“ ist
- Mythos Preview wird weiterhin als das am besten ausgerichtete Modell bewertet
Zusätzliche veröffentlichte Funktionen
-
Verbesserte Effort-Steuerung
- Zwischen
highundmaxwurde die neue Stufexhighhinzugefügt, wodurch eine feinere Abstimmung zwischen Reasoning-Leistung und Latenzzeit möglich wird - In Claude Code wurde die standardmäßige Effort-Stufe auf
xhighangehoben
- Zwischen
-
Claude Platform(API)
- Neben der Unterstützung für hochauflösende Bilder wird die Task-Budget-Funktion als Public Beta bereitgestellt, um bei langfristigen Aufgaben die Priorisierung des Token-Verbrauchs zu steuern
-
Claude Code
- Mit dem neuen Befehl
/ultrareviewkönnen Sessions zur Überprüfung von Codeänderungen und zum Erkennen von Bugs ausgeführt werden - Pro- und Max-Nutzer erhalten 3 kostenlose ultrareview
- Auto Mode wird auf Max-Nutzer ausgeweitet, um bei langfristigen Aufgaben Genehmigungsschritte zu reduzieren und eine unterbrechungsfreie Ausführung zu ermöglichen
- Mit dem neuen Befehl
Migration von Opus 4.6 zu 4.7
- Opus 4.7 kann direkt als Upgrade übernommen werden, allerdings sollte auf Änderungen beim Token-Verbrauch geachtet werden
- Durch den neuen Tokenizer kann dieselbe Eingabe in etwa 1,0- bis 1,35-mal mehr Tokens umgewandelt werden
- Bei hohen Effort-Stufen wird mehr Reasoning durchgeführt, wodurch mehr Output-Tokens anfallen können
- Der Token-Verbrauch kann über den Effort-Parameter, Task Budget und ein prägnantes Prompt-Design gesteuert werden
- In internen Tests wurden Effizienzverbesserungen über alle Effort-Stufen hinweg bestätigt
- Detaillierte Upgrade-Methoden werden im Migration Guide beschrieben
1 Kommentare
Hacker-News-Kommentare
Ich finde das neu eingeführte Konzept des adaptive thinking extrem verwirrend
Früher habe ich mit dem thinking budget / effort-Modus Code geschrieben, aber jetzt funktioniert es komplett anders
Selbst nach dem Lesen der offiziellen Dokumentation habe ich immer noch kein richtiges Gefühl dafür
Außerdem gibt 4.7 standardmäßig keine für Menschen lesbare Zusammenfassung des Reasonings mehr aus. Man muss die Option
"display": "summarized"selbst hinzufügenIch teste gerade das Pelican-Projekt, aber wegen der neuen Thinking-Methodik hänge ich ständig fest
Siehe auch den zugehörigen Thread
Nachdem ich adaptive thinking ausgeschaltet und effort erhöht hatte, war das frühere Niveau wieder da
Aber „in internen Evaluierungen funktioniert es gut“ reicht nicht aus. Viele Nutzer melden dasselbe Problem
Screenshot
--thinking-display summarizedhinzugekommen zu seinVS-Code-Nutzer können ein Wrapper-Skript mit
exec "$@" --thinking-display summarizederstellen und es in die EinstellungclaudeCode.claudeProcessWrappereintragen, um die Reasoning-Zusammenfassung wieder zu sehenFrüher galt es als zentral für die Sicherheit, die CoT (Chain of Thought) von LLMs offenzulegen, aber die Richtung scheint sich geändert zu haben
Der neue Tokenizer von Opus 4.7 erhöht zwar die Effizienz der Textverarbeitung, aber Eingaben werden auf das 1,0- bis 1,35-Fache an Tokens abgebildet
Deshalb finde ich die Ausgabe des caveman-Projekts sogar lesbarer
caveman-Repository
Da der Großteil des Kontexts für Dateilesen und Reasoning draufgeht, liegt der tatsächliche Token-Spareffekt unter 1 %. Im Gegenteil könnte es das Modell sogar verwirren
mac app, CLI-Version
Ich dachte, häufige Wörter könnten Rauschen sein, aber beim Ergebnis gab es fast keinen Unterschied
Ich würde gern einen Vergleichstest mit caveman machen
Das liegt am geringeren Einsatz von Reasoning-Tokens. Es zeigt, dass es inzwischen wenig Sinn ergibt, Modellkosten nur über den Tokenpreis zu vergleichen
Nachdem ich die Ankündigung gesehen habe, dass Anthropic Opus 4.7 als cybersecurity-beschränktes Modell veröffentlicht hat, wirkt das auf mich wie eine Scheiterstrategie
Sicherheitswissen zu zensieren und gleichzeitig sichere Software entwickeln zu wollen, ist widersprüchlich
Solange nicht alle AI-Anbieter dieselbe Politik verfolgen, ist das auch praktisch wirkungslos. Am Ende wird man diesen Ansatz wohl aufgeben
Solche Beschränkungen zentralisieren Sicherheit jedoch nur, deshalb ist es schwer, das als echten Sicherheitsgewinn zu sehen
So wie jemand vor einem Whiteboard im Bewerbungsgespräch 10 % IQ verliert, wirkt auch das Modell gehemmt
Deshalb scheint man den Weg einzuschlagen, sie „selektiv dümmer“ zu machen. Offenbar läuft dieses Experiment bereits
Angreifer müssen nur einmal erfolgreich sein, Verteidiger aber jedes Mal, insofern kann das Zeit gewinnen
Wegen des Qualitätsabfalls von 4.6 letzte Woche bin ich am Ende zu Codex gewechselt
4.6 hat nicht einmal das Web durchsucht und 17K Tokens mit Unsinn gefüllt. Selbst ein Beispiel für Parallelverarbeitung war völlig falsch implementiert
Der Tokenverbrauch ist plötzlich explodiert, und die gleichgültige Reaktion des Supports war der entscheidende Auslöser
Bugs kann ich akzeptieren, aber der Umgang mit Kunden ist schwer hinnehmbar
Seit dem Wechsel zu Codex geht die Arbeit wenigstens voran, und das ist alles, was zählt
Codex hat das Nutzungslimit verdoppelt, um Claude-Kunden abzuwerben, und auch die PR ist deutlich besser
90 % der Probleme bei Claude scheinen auf zu wenig Compute zurückzugehen
AI muss immer nach „Fortschritt“ aussehen, denn Stillstand wäre der Tod des Hypes
Es ist zwar schnell, aber Code von niedriger Qualität schneller zu produzieren, bringt nichts
Gemini CLI war langsamer und ebenfalls schlechter
Codex neigt dazu, selbst bei Bugs zu schmeicheln und zu behaupten, alles sei „perfekt“, was gefährlich ist
Die Umsetzungsstärke ist hervorragend, und OpenAI spricht mit Ergebnissen statt mit Marketing
Das erinnert an das frühe Google, das über Produktqualität konkurrierte
Der Cybersecurity-Filter von Opus 4.7 ist so stark geworden, dass sogar legitime Forschung blockiert wird
Selbst wenn man Programmrichtlinien direkt aus dem Web holt, wird es als „gefährliche Anfrage“ blockiert
Wenn das so bleibt, werde ich zu Codex wechseln
Wie in der offiziellen Mitteilung beschrieben, ist für den Zugriff auf manche Funktionen ein Verifizierungsprozess nötig
Dadurch wurde meine gesamte laufende Forschung blockiert
Möglicherweise hat das Modell in seinem eigenen Reasoning einen Schritt erkannt, der „angreifend“ wirkte
Wenn Bug-Hunting in aggressivere Phasen übergeht, scheint der Filter anzuspringen
Wir leben jetzt offenbar in einer Welt, in der Policy-Verstöße das neue segfault sind
Schon bestimmte Wörter lösen eine Überreaktion aus
Es fühlt sich inzwischen so an, als müsste ich mir von einer AI bestätigen lassen, ob mein eigenes Projekt bösartig ist oder nicht. Ich werde wohl kündigen
Dieser Thread ist eine gute Lektion für Gründer
Er zeigt, wie viel Unmut sich schon mit ein wenig ehrlicher Kommunikation entschärfen lässt
Da ich die App auf Opus 4.5 festgenagelt habe, ist derzeit nicht einmal klar zu unterscheiden, ob das Problem am Modell oder am Harness liegt
Manchmal hat man einfach nur Pech
Dann könnte ich meine Arbeitszeiten anpassen und schwere Jobs nachts laufen lassen
In solcher Verwirrung erscheint es mir klug, einen Model-Broker oder eine Zwischenschicht wie Copilot zu verwenden
Es wirkt, als bräuchte man einen Dienst wie „Standard-AI“, der immer dasselbe Modell bereitstellt
Laut dem internen Benchmark unseres Teams ist Opus 4.7 strategischer und intelligenter als 4.6/4.5
Es liegt nahezu auf dem Niveau von GPT-5.4 und zeigt in agentischen Sitzungen mit Tool-Nutzung sogar die beste Leistung
Benchmark-Link
Allerdings gibt es bei der Kontextverarbeitung eine leichte Regression. Wir fügen gerade einen Benchmark hinzu, der das visualisiert
In letzter Zeit ist das Vertrauen in Anthropic gesunken
Dass direkt nach dem Downgrade von 4.6 schon 4.7 erscheint, wirkt beunruhigend
Jetzt braucht es transparente Kommunikation
OpenAI hat früh in Compute investiert, und das ist jetzt ein großer Vorteil
Vielleicht wird Mythos gerade aus Opus 4.7 destilliert
Wahrscheinlich liegt es an einem Harness-Update
In letzter Zeit gibt es stark zunehmende Kommentare wie „Ich bin zu Codex gewechselt“
Aber nach dem eigenen Ausprobieren reicht Codex weiterhin nicht an Claude heran
Solche werblich wirkenden Kommentare untergraben nur das Vertrauen
Auch unser Unternehmen nutzt beide Modelle, aber ich verwende inzwischen fast nur noch Codex
Tempo und Ergebnisse wirken besser
Die Antwortqualität ist bei Claude aber besser. Die Vor- und Nachteile sind klar verteilt
Allerdings lieferte Codex ein Ergebnis, das „technisch korrekt, aber menschlich seltsam“ war
Deshalb nutze ich die Kombination: Claude zum Schreiben der Spezifikation, Codex zur Ausführung
Der Verdacht ist, dass die Preise später angehoben werden
Die Sicherheitsbeschränkungsrichtlinie von Opus 4.7 könnte fatal sein
Um Angriffe zu erforschen und Abwehrmaßnahmen zu entwickeln, braucht man symmetrische Fähigkeiten, und genau das zu blockieren ist riskant