4 Punkte von GN⁺ 13 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Die fortschrittliche Software-Engineering-Leistung wurde verbessert, sodass komplexe und lang laufende Aufgaben mit hoher Konsistenz und Genauigkeit bearbeitet werden können
  • Die visuelle Erkennung und multimodale Verständnisfähigkeit wurden verbessert, sodass komplexe visuelle Informationen wie hochauflösende Bilder, technische Diagramme und chemische Strukturen analysiert werden können
  • Integrierte Cybersecurity-Schutzmechanismen erkennen und blockieren automatisch Hochrisikoanfragen; legitime Sicherheitsforscher können am Cyber Verification Program teilnehmen
  • Neue Funktionen wie Effort-Steuerung, Task Budget und der Befehl ultrareview verbessern die Effizienz bei Langzeitaufgaben und die Fähigkeit zur Überprüfung der Codequalität
  • Gegenüber Opus 4.6 wurde eine Leistungssteigerung von 13 % sowie hohe Zuverlässigkeit erreicht; Anthropic bereitet auf dieser Grundlage die sichere Veröffentlichung eines Modells der Mythos-Klasse vor

Überblick über Claude Opus 4.7

  • Claude Opus 4.7 ist ein Modell mit deutlich verbesserter fortschrittlicher Software-Engineering-Leistung gegenüber Opus 4.6 und kann komplexe und lang laufende Aufgaben mit hoher Konsistenz und Genauigkeit bearbeiten
  • Nutzer können dem Modell anspruchsvollere Coding-Aufgaben anvertrauen und delegieren als bisher; das Modell prüft seine Ergebnisse selbst und berichtet anschließend darüber
  • Die visuelle Wahrnehmungsfähigkeit wurde verbessert, wodurch bei hochauflösenden Bildern, Interfaces, Slides und Dokumenten hohe Qualität und Kreativität erzielt werden
  • Im Vergleich zu Anthropics Claude Mythos Preview ist die allgemeine Leistungsfähigkeit geringer, auf verschiedenen Benchmarks erzielt es jedoch bessere Ergebnisse als Opus 4.6
  • Verfügbar für die gesamte Claude-Produktfamilie und API sowie über Amazon Bedrock, Google Cloud Vertex AI und Microsoft Foundry; der Preis ist derselbe wie bei Opus 4.6

Maßnahmen im Bereich Cybersecurity

  • Anthropic legt über Project Glasswing die Cybersecurity-Risiken und -Vorteile von KI offen, beschränkt die Veröffentlichung von Mythos Preview und will Sicherheitsexperimente zunächst mit weniger leistungsstarken Modellen durchführen
  • Opus 4.7 ist das erste solcher Modelle und enthält Schutzmechanismen, die verbotene oder hochriskante Cybersecurity-Anfragen automatisch erkennen und blockieren
  • Auf Basis realer Bereitstellungsdaten wird die breitere Veröffentlichung künftiger Modelle der Mythos-Klasse vorbereitet
  • Legitime Sicherheitsforscher (Schwachstellenanalyse, Penetrationstests, Red Teaming usw.) können am Cyber Verification Program teilnehmen

Wichtige Leistungswerte und Nutzerfeedback

  • In frühen Tests wurde die Fähigkeit bestätigt, logische Fehler selbst zu erkennen und die Ausführungsgeschwindigkeit zu erhöhen
  • Es zeigt hervorragende Leistung bei asynchronen Workflows, CI/CD und lang laufenden Automatisierungsaufgaben und liefert nicht nur bloße Zustimmung, sondern auch tiefgehende Problemanalyse und eigene Einschätzungen
  • Bei fehlenden Daten vermeidet es fehlerhafte Schlussfolgerungen und tappt nicht in Fallen durch widersprüchliche Daten
  • Auf 93 Coding-Benchmarks 13 % Verbesserung gegenüber Opus 4.6, einschließlich der zusätzlichen Lösung von 4 zuvor unlösbaren Aufgaben
  • Bei der Effizienz mehrstufiger Aufgaben zeigt es Konsistenz auf Spitzenniveau; im Finanzmodul erreicht es 0,813 und übertrifft damit Opus 4.6 (0,767)
  • Das multimodale Verständnis wurde verbessert, wodurch die Interpretation chemischer Strukturen und komplexer technischer Diagramme besser gelingt
  • Die Fähigkeit zur autonomen Ausführung langfristiger Aufgaben wurde gestärkt, sodass über mehrere Stunden hinweg konsistente Problemlösung möglich ist
  • Mehrere Unternehmen wie Replit, Harvey, Hex, Notion, Databricks und Vercel berichten von Verbesserungen bei Codequalität, Genauigkeit von Tool-Aufrufen und Zuverlässigkeit langfristiger Workflows
  • Als Praxisbeispiel wurde eine Rust-basierte Sprachsynthese-Engine vollständig autonom entwickelt und die Übereinstimmung mit einem Python-Referenzmodell selbstständig verifiziert

Wichtige Verbesserungen in frühen Tests

  • Genauigkeit bei der Befehlsinterpretation

    • Opus 4.7 interpretiert Anweisungen wörtlich und befolgt sie deutlich strikter als frühere Modelle
    • Bestehende Prompts können unerwartete Ergebnisse liefern, daher ist eine Anpassung der Prompts erforderlich
  • Verbesserte multimodale Unterstützung

    • Bilder mit einer Auflösung von bis zu 2.576 Pixeln (ca. 3,75 MP) können verarbeitet werden
    • Geeignet für Aufgaben mit feingranularer visueller Information wie die Analyse komplexer Diagramme oder screenshotbasierte Datenextraktion
  • Leistung in realen Arbeitsabläufen

    • Bei Finanzanalyse, Präsentationen und Modellierung wird höhere Fachlichkeit und Konsistenz als bei Opus 4.6 erreicht
    • Auch in der externen Bewertung GDPval-AA werden in wissensintensiven Bereichen wie Finanzen und Recht Spitzenwerte erreicht
  • Speichernutzung

    • Dateisystembasierter Speicher wird effizient genutzt, um Arbeitskontext über mehrere Sitzungen hinweg zu behalten und wiederzuverwenden

Bewertung von Sicherheit und Alignment

  • Insgesamt zeigt es ein ähnliches Sicherheitsprofil wie Opus 4.6, mit niedrigen Raten bei Problemen wie Täuschung, Schmeichelei und Unterstützung von Missbrauch
  • Ehrlichkeit und Resistenz gegen bösartige Prompt-Injektionen wurden verbessert, in einigen Bereichen (z. B. übermäßig detaillierte Ratschläge zu Drogen) gibt es jedoch leichte Rückschritte
  • Das Ergebnis der Bewertung lautet, dass es „größtenteils gut ausgerichtet und vertrauenswürdig, aber nicht vollständig ideal“ ist
  • Mythos Preview wird weiterhin als das am besten ausgerichtete Modell bewertet

Zusätzliche veröffentlichte Funktionen

  • Verbesserte Effort-Steuerung

    • Zwischen high und max wurde die neue Stufe xhigh hinzugefügt, wodurch eine feinere Abstimmung zwischen Reasoning-Leistung und Latenzzeit möglich wird
    • In Claude Code wurde die standardmäßige Effort-Stufe auf xhigh angehoben
  • Claude Platform(API)

    • Neben der Unterstützung für hochauflösende Bilder wird die Task-Budget-Funktion als Public Beta bereitgestellt, um bei langfristigen Aufgaben die Priorisierung des Token-Verbrauchs zu steuern
  • Claude Code

    • Mit dem neuen Befehl /ultrareview können Sessions zur Überprüfung von Codeänderungen und zum Erkennen von Bugs ausgeführt werden
    • Pro- und Max-Nutzer erhalten 3 kostenlose ultrareview
    • Auto Mode wird auf Max-Nutzer ausgeweitet, um bei langfristigen Aufgaben Genehmigungsschritte zu reduzieren und eine unterbrechungsfreie Ausführung zu ermöglichen

Migration von Opus 4.6 zu 4.7

  • Opus 4.7 kann direkt als Upgrade übernommen werden, allerdings sollte auf Änderungen beim Token-Verbrauch geachtet werden
    • Durch den neuen Tokenizer kann dieselbe Eingabe in etwa 1,0- bis 1,35-mal mehr Tokens umgewandelt werden
    • Bei hohen Effort-Stufen wird mehr Reasoning durchgeführt, wodurch mehr Output-Tokens anfallen können
  • Der Token-Verbrauch kann über den Effort-Parameter, Task Budget und ein prägnantes Prompt-Design gesteuert werden
  • In internen Tests wurden Effizienzverbesserungen über alle Effort-Stufen hinweg bestätigt
  • Detaillierte Upgrade-Methoden werden im Migration Guide beschrieben

1 Kommentare

 
GN⁺ 13 일 전
Hacker-News-Kommentare
  • Ich finde das neu eingeführte Konzept des adaptive thinking extrem verwirrend
    Früher habe ich mit dem thinking budget / effort-Modus Code geschrieben, aber jetzt funktioniert es komplett anders
    Selbst nach dem Lesen der offiziellen Dokumentation habe ich immer noch kein richtiges Gefühl dafür
    Außerdem gibt 4.7 standardmäßig keine für Menschen lesbare Zusammenfassung des Reasonings mehr aus. Man muss die Option "display": "summarized" selbst hinzufügen
    Ich teste gerade das Pelican-Projekt, aber wegen der neuen Thinking-Methodik hänge ich ständig fest

    • Boris’ Antwort auf meinen Bug-Report war, dass es so aussehe, als würde adaptive thinking nicht richtig funktionieren, aber seitdem gab es keine Neuigkeiten
      Siehe auch den zugehörigen Thread
      Nachdem ich adaptive thinking ausgeschaltet und effort erhöht hatte, war das frühere Niveau wieder da
      Aber „in internen Evaluierungen funktioniert es gut“ reicht nicht aus. Viele Nutzer melden dasselbe Problem
    • Es wird der Witz gemacht, dass „pelican gut herauszubekommen“ wie p-hacking klinge. Das p sei dann eben das p von pelican
    • Claude Opus 4.6 hat mir wirklich viele absurde Ergebnisse geliefert
      Screenshot
    • In Claude Code scheint eine inoffizielle Kommandozeilenoption --thinking-display summarized hinzugekommen zu sein
      VS-Code-Nutzer können ein Wrapper-Skript mit exec "$@" --thinking-display summarized erstellen und es in die Einstellung claudeCode.claudeProcessWrapper eintragen, um die Reasoning-Zusammenfassung wieder zu sehen
    • Ich frage mich, ob Claude jetzt nicht mehr das gesamte Reasoning, sondern nur noch eine Zusammenfassung ausgibt
      Früher galt es als zentral für die Sicherheit, die CoT (Chain of Thought) von LLMs offenzulegen, aber die Richtung scheint sich geändert zu haben
  • Der neue Tokenizer von Opus 4.7 erhöht zwar die Effizienz der Textverarbeitung, aber Eingaben werden auf das 1,0- bis 1,35-Fache an Tokens abgebildet
    Deshalb finde ich die Ausgabe des caveman-Projekts sogar lesbarer
    caveman-Repository

    • caveman ist faktisch eher ein Spaßprojekt
      Da der Großteil des Kontexts für Dateilesen und Reasoning draufgeht, liegt der tatsächliche Token-Spareffekt unter 1 %. Im Gegenteil könnte es das Modell sogar verwirren
    • caveman ist auch interessant, aber wenn man wirklich Tokens sparen will, ist headroom besser
      mac app, CLI-Version
    • Ich habe experimentiert, die 100 bis 1000 häufigsten englischen Wörter aus Prompts zu entfernen
      Ich dachte, häufige Wörter könnten Rauschen sein, aber beim Ergebnis gab es fast keinen Unterschied
      Ich würde gern einen Vergleichstest mit caveman machen
    • Es wird vorgeschlagen, ob ein Ansatz wie rtk-ai/rtk etwas wäre
    • In meinem internen Öl-und-Gas-Benchmark kam Opus 4.7 auf 80 % und lag damit über Opus 4.6 (64 %) und GPT-5.4 (76 %)
      Das liegt am geringeren Einsatz von Reasoning-Tokens. Es zeigt, dass es inzwischen wenig Sinn ergibt, Modellkosten nur über den Tokenpreis zu vergleichen
  • Nachdem ich die Ankündigung gesehen habe, dass Anthropic Opus 4.7 als cybersecurity-beschränktes Modell veröffentlicht hat, wirkt das auf mich wie eine Scheiterstrategie
    Sicherheitswissen zu zensieren und gleichzeitig sichere Software entwickeln zu wollen, ist widersprüchlich
    Solange nicht alle AI-Anbieter dieselbe Politik verfolgen, ist das auch praktisch wirkungslos. Am Ende wird man diesen Ansatz wohl aufgeben

    • Ich bin kein Sicherheitsexperte, aber beim Bauen von Open-Source-Projekten brauche ich eine AI, die bei der Schwachstellenprüfung hilft
      Solche Beschränkungen zentralisieren Sicherheit jedoch nur, deshalb ist es schwer, das als echten Sicherheitsgewinn zu sehen
    • Ich habe das Gefühl, dass übermäßige Sicherheitsvorkehrungen im Training die allgemeine Intelligenz verschlechtern
      So wie jemand vor einem Whiteboard im Bewerbungsgespräch 10 % IQ verliert, wirkt auch das Modell gehemmt
    • Die aktuellen Modelle sind fürs Hacken zu schlau, für wirtschaftlich nützliche Aufgaben aber immer noch unzureichend
      Deshalb scheint man den Weg einzuschlagen, sie „selektiv dümmer“ zu machen. Offenbar läuft dieses Experiment bereits
    • Kurzfristig halte ich das trotzdem für eine brauchbare Maßnahme
      Angreifer müssen nur einmal erfolgreich sein, Verteidiger aber jedes Mal, insofern kann das Zeit gewinnen
  • Wegen des Qualitätsabfalls von 4.6 letzte Woche bin ich am Ende zu Codex gewechselt
    4.6 hat nicht einmal das Web durchsucht und 17K Tokens mit Unsinn gefüllt. Selbst ein Beispiel für Parallelverarbeitung war völlig falsch implementiert

    • Ich habe aus demselben Grund auch mein Pro-Abo gekündigt
      Der Tokenverbrauch ist plötzlich explodiert, und die gleichgültige Reaktion des Supports war der entscheidende Auslöser
      Bugs kann ich akzeptieren, aber der Umgang mit Kunden ist schwer hinnehmbar
      Seit dem Wechsel zu Codex geht die Arbeit wenigstens voran, und das ist alles, was zählt
    • Viele haben gesagt, OpenAI werde an zu viel Compute zugrunde gehen, aber inzwischen ist das eher ein strategischer Vorteil
      Codex hat das Nutzungslimit verdoppelt, um Claude-Kunden abzuwerben, und auch die PR ist deutlich besser
      90 % der Probleme bei Claude scheinen auf zu wenig Compute zurückzugehen
    • Meine Verschwörungstheorie ist, dass die Leistung kurz vor dem Release eines neuen Modells absichtlich gesenkt wird, damit die nächste Version besser aussieht
      AI muss immer nach „Fortschritt“ aussehen, denn Stillstand wäre der Tod des Hypes
    • Ich habe Codex ausprobiert, aber für meinen Anwendungsfall war es deutlich unterlegen
      Es ist zwar schnell, aber Code von niedriger Qualität schneller zu produzieren, bringt nichts
      Gemini CLI war langsamer und ebenfalls schlechter
      Codex neigt dazu, selbst bei Bugs zu schmeicheln und zu behaupten, alles sei „perfekt“, was gefährlich ist
    • Trotzdem hat Codex einen Platz in meinem Werkzeugkasten gefunden
      Die Umsetzungsstärke ist hervorragend, und OpenAI spricht mit Ergebnissen statt mit Marketing
      Das erinnert an das frühe Google, das über Produktqualität konkurrierte
  • Der Cybersecurity-Filter von Opus 4.7 ist so stark geworden, dass sogar legitime Forschung blockiert wird
    Selbst wenn man Programmrichtlinien direkt aus dem Web holt, wird es als „gefährliche Anfrage“ blockiert
    Wenn das so bleibt, werde ich zu Codex wechseln

    • Inzwischen könnte sogar Identity Verification verlangt werden
      Wie in der offiziellen Mitteilung beschrieben, ist für den Zugriff auf manche Funktionen ein Verifizierungsprozess nötig
    • Tatsächlich erscheint in der API ein Fehler wegen „Verstoß gegen die Usage Policy“, zusammen mit einem Link zur Bewerbung für das Cyber Verification Program
      Dadurch wurde meine gesamte laufende Forschung blockiert
    • Bei mir trat die Sperre mitten in einer Sitzung auf, obwohl die Eingabe unverändert blieb
      Möglicherweise hat das Modell in seinem eigenen Reasoning einen Schritt erkannt, der „angreifend“ wirkte
      Wenn Bug-Hunting in aggressivere Phasen übergeht, scheint der Filter anzuspringen
      Wir leben jetzt offenbar in einer Welt, in der Policy-Verstöße das neue segfault sind
    • Noch schwerwiegender ist, dass es sogar beim Schreiben meines eigenen Codes selbst Sätze ausgibt wie „Das ist keine Malware“
      Schon bestimmte Wörter lösen eine Überreaktion aus
      Es fühlt sich inzwischen so an, als müsste ich mir von einer AI bestätigen lassen, ob mein eigenes Projekt bösartig ist oder nicht. Ich werde wohl kündigen
    • Sogar die einfache Aufgabe, ein PDF an einen Drucker zu senden, wurde verweigert
  • Dieser Thread ist eine gute Lektion für Gründer
    Er zeigt, wie viel Unmut sich schon mit ein wenig ehrlicher Kommunikation entschärfen lässt
    Da ich die App auf Opus 4.5 festgenagelt habe, ist derzeit nicht einmal klar zu unterscheiden, ob das Problem am Modell oder am Harness liegt

    • In solchen Threads gibt es immer den Aberglauben, Anthropic habe das Modell absichtlich abgeschwächt
      Manchmal hat man einfach nur Pech
    • Falls das Modell wegen Last absichtlich gebremst wurde, wäre es wichtig, das klar zu kommunizieren
      Dann könnte ich meine Arbeitszeiten anpassen und schwere Jobs nachts laufen lassen
    • Opus 4.5 war sehr konsistent, 4.6 dagegen stark schwankend
    • Ich bin Anfänger als Entwickler und lerne noch die Unterschiede zwischen Modellen
      In solcher Verwirrung erscheint es mir klug, einen Model-Broker oder eine Zwischenschicht wie Copilot zu verwenden
    • Wegen dieser Instabilität werden Nutzer zunehmend paranoid
      Es wirkt, als bräuchte man einen Dienst wie „Standard-AI“, der immer dasselbe Modell bereitstellt
  • Laut dem internen Benchmark unseres Teams ist Opus 4.7 strategischer und intelligenter als 4.6/4.5
    Es liegt nahezu auf dem Niveau von GPT-5.4 und zeigt in agentischen Sitzungen mit Tool-Nutzung sogar die beste Leistung
    Benchmark-Link
    Allerdings gibt es bei der Kontextverarbeitung eine leichte Regression. Wir fügen gerade einen Benchmark hinzu, der das visualisiert

    • Es stellt sich die Frage, warum Opus 4.7 zwar eine niedrigere Erfolgsquote als Sonnet 4.6 hat, aber einen höheren durchschnittlichen Perzentilwert
    • Es kommt die Frage auf, ob 4.6 oder 4.5 nach dem ursprünglichen Release eine Leistungsregression erlebt haben
  • In letzter Zeit ist das Vertrauen in Anthropic gesunken
    Dass direkt nach dem Downgrade von 4.6 schon 4.7 erscheint, wirkt beunruhigend
    Jetzt braucht es transparente Kommunikation

    • Das Kernproblem ist zu wenig Compute
      OpenAI hat früh in Compute investiert, und das ist jetzt ein großer Vorteil
    • Möglicherweise ist die Leistung von Opus gesunken, weil Mythos trainiert wird
      Vielleicht wird Mythos gerade aus Opus 4.7 destilliert
    • Es wird gefragt, warum auch Claude auf Bedrock-Basis gleichzeitig schwächer wird
      Wahrscheinlich liegt es an einem Harness-Update
    • Die Integration der Persona-ID-Verifizierung war der endgültige Auslöser. Danach bin ich gegangen
    • Es ist fraglich, ob man auf diese Weise dauerhaft durchhalten kann
  • In letzter Zeit gibt es stark zunehmende Kommentare wie „Ich bin zu Codex gewechselt
    Aber nach dem eigenen Ausprobieren reicht Codex weiterhin nicht an Claude heran
    Solche werblich wirkenden Kommentare untergraben nur das Vertrauen

    • Trotzdem bevorzugen tatsächlich viele Entwickler Codex
      Auch unser Unternehmen nutzt beide Modelle, aber ich verwende inzwischen fast nur noch Codex
      Tempo und Ergebnisse wirken besser
    • Ich habe ebenfalls einen kurzen Piloten gemacht, und Codex hat Probleme mehr als viermal schneller gelöst als Claude
      Die Antwortqualität ist bei Claude aber besser. Die Vor- und Nachteile sind klar verteilt
    • Bei derselben Refactoring-Aufgabe brauchte Codex 5 Minuten, Claude 20 Minuten
      Allerdings lieferte Codex ein Ergebnis, das „technisch korrekt, aber menschlich seltsam“ war
      Deshalb nutze ich die Kombination: Claude zum Schreiben der Spezifikation, Codex zur Ausführung
    • Mit dem spöttischen Kommentar „Java ist das Beste“ wird gesagt, diese Debatten unterschieden sich letztlich kaum von Programmiersprachenkriegen
    • OpenAI wird kritisiert, mit einer übermäßig subventionierten Strategie Marktanteile auszubauen
      Der Verdacht ist, dass die Preise später angehoben werden
  • Die Sicherheitsbeschränkungsrichtlinie von Opus 4.7 könnte fatal sein
    Um Angriffe zu erforschen und Abwehrmaßnahmen zu entwickeln, braucht man symmetrische Fähigkeiten, und genau das zu blockieren ist riskant

    • Das ist vermutlich eine Maßnahme zur Produktpositionierung von Mythos
    • Inzwischen ist man offenbar in der Lage, für legitime Sicherheitsforschung das Modell täuschen zu müssen
    • Falls diese Politik so weitergeht, werde ich die Plattform verlassen
    • „Fatal“ sei vielleicht übertrieben, heißt es, aber es wird gefragt, woher genau die Asymmetrie komme
    • Am Ende scheint eine Zeit zu kommen, in der nur noch von Anthropic oder der Regierung genehmigte Software als sicher anerkannt wird