Claude Opus 4.7

(anthropic.com)

4 Punkte von GN⁺ 13 일 전 | 1 Kommentare | Auf WhatsApp teilen

Die fortschrittliche Software-Engineering-Leistung wurde verbessert, sodass komplexe und lang laufende Aufgaben mit hoher Konsistenz und Genauigkeit bearbeitet werden können
Die visuelle Erkennung und multimodale Verständnisfähigkeit wurden verbessert, sodass komplexe visuelle Informationen wie hochauflösende Bilder, technische Diagramme und chemische Strukturen analysiert werden können
Integrierte Cybersecurity-Schutzmechanismen erkennen und blockieren automatisch Hochrisikoanfragen; legitime Sicherheitsforscher können am Cyber Verification Program teilnehmen
Neue Funktionen wie Effort-Steuerung, Task Budget und der Befehl ultrareview verbessern die Effizienz bei Langzeitaufgaben und die Fähigkeit zur Überprüfung der Codequalität
Gegenüber Opus 4.6 wurde eine Leistungssteigerung von 13 % sowie hohe Zuverlässigkeit erreicht; Anthropic bereitet auf dieser Grundlage die sichere Veröffentlichung eines Modells der Mythos-Klasse vor

Überblick über Claude Opus 4.7

Claude Opus 4.7 ist ein Modell mit deutlich verbesserter fortschrittlicher Software-Engineering-Leistung gegenüber Opus 4.6 und kann komplexe und lang laufende Aufgaben mit hoher Konsistenz und Genauigkeit bearbeiten
Nutzer können dem Modell anspruchsvollere Coding-Aufgaben anvertrauen und delegieren als bisher; das Modell prüft seine Ergebnisse selbst und berichtet anschließend darüber
Die visuelle Wahrnehmungsfähigkeit wurde verbessert, wodurch bei hochauflösenden Bildern, Interfaces, Slides und Dokumenten hohe Qualität und Kreativität erzielt werden
Im Vergleich zu Anthropics Claude Mythos Preview ist die allgemeine Leistungsfähigkeit geringer, auf verschiedenen Benchmarks erzielt es jedoch bessere Ergebnisse als Opus 4.6
Verfügbar für die gesamte Claude-Produktfamilie und API sowie über Amazon Bedrock, Google Cloud Vertex AI und Microsoft Foundry; der Preis ist derselbe wie bei Opus 4.6

Maßnahmen im Bereich Cybersecurity

Anthropic legt über Project Glasswing die Cybersecurity-Risiken und -Vorteile von KI offen, beschränkt die Veröffentlichung von Mythos Preview und will Sicherheitsexperimente zunächst mit weniger leistungsstarken Modellen durchführen
Opus 4.7 ist das erste solcher Modelle und enthält Schutzmechanismen, die verbotene oder hochriskante Cybersecurity-Anfragen automatisch erkennen und blockieren
Auf Basis realer Bereitstellungsdaten wird die breitere Veröffentlichung künftiger Modelle der Mythos-Klasse vorbereitet
Legitime Sicherheitsforscher (Schwachstellenanalyse, Penetrationstests, Red Teaming usw.) können am Cyber Verification Program teilnehmen

Wichtige Leistungswerte und Nutzerfeedback

In frühen Tests wurde die Fähigkeit bestätigt, logische Fehler selbst zu erkennen und die Ausführungsgeschwindigkeit zu erhöhen
Es zeigt hervorragende Leistung bei asynchronen Workflows, CI/CD und lang laufenden Automatisierungsaufgaben und liefert nicht nur bloße Zustimmung, sondern auch tiefgehende Problemanalyse und eigene Einschätzungen
Bei fehlenden Daten vermeidet es fehlerhafte Schlussfolgerungen und tappt nicht in Fallen durch widersprüchliche Daten
Auf 93 Coding-Benchmarks 13 % Verbesserung gegenüber Opus 4.6, einschließlich der zusätzlichen Lösung von 4 zuvor unlösbaren Aufgaben
Bei der Effizienz mehrstufiger Aufgaben zeigt es Konsistenz auf Spitzenniveau; im Finanzmodul erreicht es 0,813 und übertrifft damit Opus 4.6 (0,767)
Das multimodale Verständnis wurde verbessert, wodurch die Interpretation chemischer Strukturen und komplexer technischer Diagramme besser gelingt
Die Fähigkeit zur autonomen Ausführung langfristiger Aufgaben wurde gestärkt, sodass über mehrere Stunden hinweg konsistente Problemlösung möglich ist
Mehrere Unternehmen wie Replit, Harvey, Hex, Notion, Databricks und Vercel berichten von Verbesserungen bei Codequalität, Genauigkeit von Tool-Aufrufen und Zuverlässigkeit langfristiger Workflows
Als Praxisbeispiel wurde eine Rust-basierte Sprachsynthese-Engine vollständig autonom entwickelt und die Übereinstimmung mit einem Python-Referenzmodell selbstständig verifiziert

Wichtige Verbesserungen in frühen Tests

Genauigkeit bei der Befehlsinterpretation
- Opus 4.7 interpretiert Anweisungen wörtlich und befolgt sie deutlich strikter als frühere Modelle
- Bestehende Prompts können unerwartete Ergebnisse liefern, daher ist eine Anpassung der Prompts erforderlich
Verbesserte multimodale Unterstützung
- Bilder mit einer Auflösung von bis zu 2.576 Pixeln (ca. 3,75 MP) können verarbeitet werden
- Geeignet für Aufgaben mit feingranularer visueller Information wie die Analyse komplexer Diagramme oder screenshotbasierte Datenextraktion
Leistung in realen Arbeitsabläufen
- Bei Finanzanalyse, Präsentationen und Modellierung wird höhere Fachlichkeit und Konsistenz als bei Opus 4.6 erreicht
- Auch in der externen Bewertung GDPval-AA werden in wissensintensiven Bereichen wie Finanzen und Recht Spitzenwerte erreicht
Speichernutzung
- Dateisystembasierter Speicher wird effizient genutzt, um Arbeitskontext über mehrere Sitzungen hinweg zu behalten und wiederzuverwenden

Bewertung von Sicherheit und Alignment

Insgesamt zeigt es ein ähnliches Sicherheitsprofil wie Opus 4.6, mit niedrigen Raten bei Problemen wie Täuschung, Schmeichelei und Unterstützung von Missbrauch
Ehrlichkeit und Resistenz gegen bösartige Prompt-Injektionen wurden verbessert, in einigen Bereichen (z. B. übermäßig detaillierte Ratschläge zu Drogen) gibt es jedoch leichte Rückschritte
Das Ergebnis der Bewertung lautet, dass es „größtenteils gut ausgerichtet und vertrauenswürdig, aber nicht vollständig ideal“ ist
Mythos Preview wird weiterhin als das am besten ausgerichtete Modell bewertet

Zusätzliche veröffentlichte Funktionen

Verbesserte Effort-Steuerung
- Zwischen high und max wurde die neue Stufe xhigh hinzugefügt, wodurch eine feinere Abstimmung zwischen Reasoning-Leistung und Latenzzeit möglich wird
- In Claude Code wurde die standardmäßige Effort-Stufe auf xhigh angehoben
Claude Platform(API)
- Neben der Unterstützung für hochauflösende Bilder wird die Task-Budget-Funktion als Public Beta bereitgestellt, um bei langfristigen Aufgaben die Priorisierung des Token-Verbrauchs zu steuern
Claude Code
- Mit dem neuen Befehl /ultrareview können Sessions zur Überprüfung von Codeänderungen und zum Erkennen von Bugs ausgeführt werden
- Pro- und Max-Nutzer erhalten 3 kostenlose ultrareview
- Auto Mode wird auf Max-Nutzer ausgeweitet, um bei langfristigen Aufgaben Genehmigungsschritte zu reduzieren und eine unterbrechungsfreie Ausführung zu ermöglichen

Migration von Opus 4.6 zu 4.7

Opus 4.7 kann direkt als Upgrade übernommen werden, allerdings sollte auf Änderungen beim Token-Verbrauch geachtet werden
- Durch den neuen Tokenizer kann dieselbe Eingabe in etwa 1,0- bis 1,35-mal mehr Tokens umgewandelt werden
- Bei hohen Effort-Stufen wird mehr Reasoning durchgeführt, wodurch mehr Output-Tokens anfallen können
Der Token-Verbrauch kann über den Effort-Parameter, Task Budget und ein prägnantes Prompt-Design gesteuert werden
In internen Tests wurden Effizienzverbesserungen über alle Effort-Stufen hinweg bestätigt
Detaillierte Upgrade-Methoden werden im Migration Guide beschrieben

1 Kommentare

GN⁺ 13 일 전

Hacker-News-Kommentare

Ich finde das neu eingeführte Konzept des adaptive thinking extrem verwirrend
Früher habe ich mit dem thinking budget / effort-Modus Code geschrieben, aber jetzt funktioniert es komplett anders
Selbst nach dem Lesen der offiziellen Dokumentation habe ich immer noch kein richtiges Gefühl dafür
Außerdem gibt 4.7 standardmäßig keine für Menschen lesbare Zusammenfassung des Reasonings mehr aus. Man muss die Option "display": "summarized" selbst hinzufügen
Ich teste gerade das Pelican-Projekt, aber wegen der neuen Thinking-Methodik hänge ich ständig fest
- Boris’ Antwort auf meinen Bug-Report war, dass es so aussehe, als würde adaptive thinking nicht richtig funktionieren, aber seitdem gab es keine Neuigkeiten
  Siehe auch den zugehörigen Thread
  Nachdem ich adaptive thinking ausgeschaltet und effort erhöht hatte, war das frühere Niveau wieder da
  Aber „in internen Evaluierungen funktioniert es gut“ reicht nicht aus. Viele Nutzer melden dasselbe Problem
- Es wird der Witz gemacht, dass „pelican gut herauszubekommen“ wie p-hacking klinge. Das p sei dann eben das p von pelican
- Claude Opus 4.6 hat mir wirklich viele absurde Ergebnisse geliefert
  Screenshot
- In Claude Code scheint eine inoffizielle Kommandozeilenoption --thinking-display summarized hinzugekommen zu sein
  VS-Code-Nutzer können ein Wrapper-Skript mit exec "$@" --thinking-display summarized erstellen und es in die Einstellung claudeCode.claudeProcessWrapper eintragen, um die Reasoning-Zusammenfassung wieder zu sehen
- Ich frage mich, ob Claude jetzt nicht mehr das gesamte Reasoning, sondern nur noch eine Zusammenfassung ausgibt
  Früher galt es als zentral für die Sicherheit, die CoT (Chain of Thought) von LLMs offenzulegen, aber die Richtung scheint sich geändert zu haben
Der neue Tokenizer von Opus 4.7 erhöht zwar die Effizienz der Textverarbeitung, aber Eingaben werden auf das 1,0- bis 1,35-Fache an Tokens abgebildet
Deshalb finde ich die Ausgabe des caveman-Projekts sogar lesbarer
caveman-Repository
- caveman ist faktisch eher ein Spaßprojekt
  Da der Großteil des Kontexts für Dateilesen und Reasoning draufgeht, liegt der tatsächliche Token-Spareffekt unter 1 %. Im Gegenteil könnte es das Modell sogar verwirren
- caveman ist auch interessant, aber wenn man wirklich Tokens sparen will, ist headroom besser
  mac app, CLI-Version
- Ich habe experimentiert, die 100 bis 1000 häufigsten englischen Wörter aus Prompts zu entfernen
  Ich dachte, häufige Wörter könnten Rauschen sein, aber beim Ergebnis gab es fast keinen Unterschied
  Ich würde gern einen Vergleichstest mit caveman machen
- Es wird vorgeschlagen, ob ein Ansatz wie rtk-ai/rtk etwas wäre
- In meinem internen Öl-und-Gas-Benchmark kam Opus 4.7 auf 80 % und lag damit über Opus 4.6 (64 %) und GPT-5.4 (76 %)
  Das liegt am geringeren Einsatz von Reasoning-Tokens. Es zeigt, dass es inzwischen wenig Sinn ergibt, Modellkosten nur über den Tokenpreis zu vergleichen
Nachdem ich die Ankündigung gesehen habe, dass Anthropic Opus 4.7 als cybersecurity-beschränktes Modell veröffentlicht hat, wirkt das auf mich wie eine Scheiterstrategie
Sicherheitswissen zu zensieren und gleichzeitig sichere Software entwickeln zu wollen, ist widersprüchlich
Solange nicht alle AI-Anbieter dieselbe Politik verfolgen, ist das auch praktisch wirkungslos. Am Ende wird man diesen Ansatz wohl aufgeben
- Ich bin kein Sicherheitsexperte, aber beim Bauen von Open-Source-Projekten brauche ich eine AI, die bei der Schwachstellenprüfung hilft
  Solche Beschränkungen zentralisieren Sicherheit jedoch nur, deshalb ist es schwer, das als echten Sicherheitsgewinn zu sehen
- Ich habe das Gefühl, dass übermäßige Sicherheitsvorkehrungen im Training die allgemeine Intelligenz verschlechtern
  So wie jemand vor einem Whiteboard im Bewerbungsgespräch 10 % IQ verliert, wirkt auch das Modell gehemmt
- Die aktuellen Modelle sind fürs Hacken zu schlau, für wirtschaftlich nützliche Aufgaben aber immer noch unzureichend
  Deshalb scheint man den Weg einzuschlagen, sie „selektiv dümmer“ zu machen. Offenbar läuft dieses Experiment bereits
- Kurzfristig halte ich das trotzdem für eine brauchbare Maßnahme
  Angreifer müssen nur einmal erfolgreich sein, Verteidiger aber jedes Mal, insofern kann das Zeit gewinnen
Wegen des Qualitätsabfalls von 4.6 letzte Woche bin ich am Ende zu Codex gewechselt
4.6 hat nicht einmal das Web durchsucht und 17K Tokens mit Unsinn gefüllt. Selbst ein Beispiel für Parallelverarbeitung war völlig falsch implementiert
- Ich habe aus demselben Grund auch mein Pro-Abo gekündigt
  Der Tokenverbrauch ist plötzlich explodiert, und die gleichgültige Reaktion des Supports war der entscheidende Auslöser
  Bugs kann ich akzeptieren, aber der Umgang mit Kunden ist schwer hinnehmbar
  Seit dem Wechsel zu Codex geht die Arbeit wenigstens voran, und das ist alles, was zählt
- Viele haben gesagt, OpenAI werde an zu viel Compute zugrunde gehen, aber inzwischen ist das eher ein strategischer Vorteil
  Codex hat das Nutzungslimit verdoppelt, um Claude-Kunden abzuwerben, und auch die PR ist deutlich besser
  90 % der Probleme bei Claude scheinen auf zu wenig Compute zurückzugehen
- Meine Verschwörungstheorie ist, dass die Leistung kurz vor dem Release eines neuen Modells absichtlich gesenkt wird, damit die nächste Version besser aussieht
  AI muss immer nach „Fortschritt“ aussehen, denn Stillstand wäre der Tod des Hypes
- Ich habe Codex ausprobiert, aber für meinen Anwendungsfall war es deutlich unterlegen
  Es ist zwar schnell, aber Code von niedriger Qualität schneller zu produzieren, bringt nichts
  Gemini CLI war langsamer und ebenfalls schlechter
  Codex neigt dazu, selbst bei Bugs zu schmeicheln und zu behaupten, alles sei „perfekt“, was gefährlich ist
- Trotzdem hat Codex einen Platz in meinem Werkzeugkasten gefunden
  Die Umsetzungsstärke ist hervorragend, und OpenAI spricht mit Ergebnissen statt mit Marketing
  Das erinnert an das frühe Google, das über Produktqualität konkurrierte
Der Cybersecurity-Filter von Opus 4.7 ist so stark geworden, dass sogar legitime Forschung blockiert wird
Selbst wenn man Programmrichtlinien direkt aus dem Web holt, wird es als „gefährliche Anfrage“ blockiert
Wenn das so bleibt, werde ich zu Codex wechseln
- Inzwischen könnte sogar Identity Verification verlangt werden
  Wie in der offiziellen Mitteilung beschrieben, ist für den Zugriff auf manche Funktionen ein Verifizierungsprozess nötig
- Tatsächlich erscheint in der API ein Fehler wegen „Verstoß gegen die Usage Policy“, zusammen mit einem Link zur Bewerbung für das Cyber Verification Program
  Dadurch wurde meine gesamte laufende Forschung blockiert
- Bei mir trat die Sperre mitten in einer Sitzung auf, obwohl die Eingabe unverändert blieb
  Möglicherweise hat das Modell in seinem eigenen Reasoning einen Schritt erkannt, der „angreifend“ wirkte
  Wenn Bug-Hunting in aggressivere Phasen übergeht, scheint der Filter anzuspringen
  Wir leben jetzt offenbar in einer Welt, in der Policy-Verstöße das neue segfault sind
- Noch schwerwiegender ist, dass es sogar beim Schreiben meines eigenen Codes selbst Sätze ausgibt wie „Das ist keine Malware“
  Schon bestimmte Wörter lösen eine Überreaktion aus
  Es fühlt sich inzwischen so an, als müsste ich mir von einer AI bestätigen lassen, ob mein eigenes Projekt bösartig ist oder nicht. Ich werde wohl kündigen
- Sogar die einfache Aufgabe, ein PDF an einen Drucker zu senden, wurde verweigert
Dieser Thread ist eine gute Lektion für Gründer
Er zeigt, wie viel Unmut sich schon mit ein wenig ehrlicher Kommunikation entschärfen lässt
Da ich die App auf Opus 4.5 festgenagelt habe, ist derzeit nicht einmal klar zu unterscheiden, ob das Problem am Modell oder am Harness liegt
- In solchen Threads gibt es immer den Aberglauben, Anthropic habe das Modell absichtlich abgeschwächt
  Manchmal hat man einfach nur Pech
- Falls das Modell wegen Last absichtlich gebremst wurde, wäre es wichtig, das klar zu kommunizieren
  Dann könnte ich meine Arbeitszeiten anpassen und schwere Jobs nachts laufen lassen
- Opus 4.5 war sehr konsistent, 4.6 dagegen stark schwankend
- Ich bin Anfänger als Entwickler und lerne noch die Unterschiede zwischen Modellen
  In solcher Verwirrung erscheint es mir klug, einen Model-Broker oder eine Zwischenschicht wie Copilot zu verwenden
- Wegen dieser Instabilität werden Nutzer zunehmend paranoid
  Es wirkt, als bräuchte man einen Dienst wie „Standard-AI“, der immer dasselbe Modell bereitstellt
Laut dem internen Benchmark unseres Teams ist Opus 4.7 strategischer und intelligenter als 4.6/4.5
Es liegt nahezu auf dem Niveau von GPT-5.4 und zeigt in agentischen Sitzungen mit Tool-Nutzung sogar die beste Leistung
Benchmark-Link
Allerdings gibt es bei der Kontextverarbeitung eine leichte Regression. Wir fügen gerade einen Benchmark hinzu, der das visualisiert
- Es stellt sich die Frage, warum Opus 4.7 zwar eine niedrigere Erfolgsquote als Sonnet 4.6 hat, aber einen höheren durchschnittlichen Perzentilwert
- Es kommt die Frage auf, ob 4.6 oder 4.5 nach dem ursprünglichen Release eine Leistungsregression erlebt haben
In letzter Zeit ist das Vertrauen in Anthropic gesunken
Dass direkt nach dem Downgrade von 4.6 schon 4.7 erscheint, wirkt beunruhigend
Jetzt braucht es transparente Kommunikation
- Das Kernproblem ist zu wenig Compute
  OpenAI hat früh in Compute investiert, und das ist jetzt ein großer Vorteil
- Möglicherweise ist die Leistung von Opus gesunken, weil Mythos trainiert wird
  Vielleicht wird Mythos gerade aus Opus 4.7 destilliert
- Es wird gefragt, warum auch Claude auf Bedrock-Basis gleichzeitig schwächer wird
  Wahrscheinlich liegt es an einem Harness-Update
- Die Integration der Persona-ID-Verifizierung war der endgültige Auslöser. Danach bin ich gegangen
- Es ist fraglich, ob man auf diese Weise dauerhaft durchhalten kann
In letzter Zeit gibt es stark zunehmende Kommentare wie „Ich bin zu Codex gewechselt“
Aber nach dem eigenen Ausprobieren reicht Codex weiterhin nicht an Claude heran
Solche werblich wirkenden Kommentare untergraben nur das Vertrauen
- Trotzdem bevorzugen tatsächlich viele Entwickler Codex
  Auch unser Unternehmen nutzt beide Modelle, aber ich verwende inzwischen fast nur noch Codex
  Tempo und Ergebnisse wirken besser
- Ich habe ebenfalls einen kurzen Piloten gemacht, und Codex hat Probleme mehr als viermal schneller gelöst als Claude
  Die Antwortqualität ist bei Claude aber besser. Die Vor- und Nachteile sind klar verteilt
- Bei derselben Refactoring-Aufgabe brauchte Codex 5 Minuten, Claude 20 Minuten
  Allerdings lieferte Codex ein Ergebnis, das „technisch korrekt, aber menschlich seltsam“ war
  Deshalb nutze ich die Kombination: Claude zum Schreiben der Spezifikation, Codex zur Ausführung
- Mit dem spöttischen Kommentar „Java ist das Beste“ wird gesagt, diese Debatten unterschieden sich letztlich kaum von Programmiersprachenkriegen
- OpenAI wird kritisiert, mit einer übermäßig subventionierten Strategie Marktanteile auszubauen
  Der Verdacht ist, dass die Preise später angehoben werden
Die Sicherheitsbeschränkungsrichtlinie von Opus 4.7 könnte fatal sein
Um Angriffe zu erforschen und Abwehrmaßnahmen zu entwickeln, braucht man symmetrische Fähigkeiten, und genau das zu blockieren ist riskant
- Das ist vermutlich eine Maßnahme zur Produktpositionierung von Mythos
- Inzwischen ist man offenbar in der Lage, für legitime Sicherheitsforschung das Modell täuschen zu müssen
- Falls diese Politik so weitergeht, werde ich die Plattform verlassen
- „Fatal“ sei vielleicht übertrieben, heißt es, aber es wird gefragt, woher genau die Asymmetrie komme
- Am Ende scheint eine Zeit zu kommen, in der nur noch von Anthropic oder der Regierung genehmigte Software als sicher anerkannt wird

Claude Opus 4.7

Überblick über Claude Opus 4.7

Maßnahmen im Bereich Cybersecurity

Wichtige Leistungswerte und Nutzerfeedback

Wichtige Verbesserungen in frühen Tests

Genauigkeit bei der Befehlsinterpretation

Verbesserte multimodale Unterstützung

Leistung in realen Arbeitsabläufen

Speichernutzung

Bewertung von Sicherheit und Alignment

Zusätzliche veröffentlichte Funktionen

Verbesserte Effort-Steuerung

Claude Platform(API)

Claude Code

Migration von Opus 4.6 zu 4.7

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare