6 Punkte von GN⁺ 9 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Anthropic hat als einziges großes KI-Labor bislang die System-Prompts seines Chat-Systems öffentlich gemacht. Mit Opus 4.7, veröffentlicht am 16. April 2026, gab es bemerkenswerte Prompt-Updates
  • Die Bezeichnung wurde zu Claude Platform geändert, und Claude in Chrome, Claude in Excel sowie Claude in Powerpoint wurden in die Tool-Liste aufgenommen. Außerdem kam die Anweisung hinzu, bei Anfragen mit kleinen fehlenden Informationen sofort einen sinnvollen Versuch zu unternehmen, statt zuerst nachzufragen
  • Der Abschnitt zur Kindersicherheit wurde stark erweitert und in ein neues Tag <critical_child_safety_instructions> eingeschlossen. Nach einer einmaligen Ablehnung aus Gründen der Kindersicherheit sollen auch alle späteren Anfragen in derselben Unterhaltung mit äußerster Vorsicht behandelt werden
  • Neu hinzugekommen ist der Abschnitt <acting_vs_clarifying>, der festlegt, dass bei nicht spezifizierten Details zuerst ein vernünftiger Versuch unternommen werden soll statt Rückfragen zu stellen
  • Wenn Nutzende signalisieren, dass sie das Gespräch beenden wollen, soll das Modell ohne Aufforderung zu weiterer Interaktion stoppen. Bei komplexen oder kontroversen Themen kam außerdem die Regel hinzu, knappe Ja/Nein-Antworten zu vermeiden und nuancierte Antworten zu bevorzugen
  • Vor der Aussage, etwas sei nicht zugänglich, muss zunächst per tool_search geprüft werden, ob passende Tools verfügbar sind. Der öffentliche Prompt allein reicht nicht aus; Tool-Beschreibungen bleiben ein zentraler Faktor, um das Verhalten von Claude chat nachzuvollziehen

Änderungen am System-Prompt von Claude Opus 4.6 und 4.7

  • Anthropic ist unter den großen KI-Laboren das einzige, das die System-Prompts nutzergerichteter Chatsysteme veröffentlicht; das Archiv reicht bis zu Claude 3 im Juli 2024 zurück
  • Opus 4.7 wurde am 16. April 2026 veröffentlicht, und entsprechend wurde auch der Claude.ai-System-Prompt gegenüber der Version nach Opus 4.6 aktualisiert
  • Die Markdown-Versionen der System-Prompts wurden in modellspezifische Dokumente aufgeteilt, mit künstlichen Commit-Daten entsprechend dem Veröffentlichungsdatum in eine Git-Historie gebracht, und anschließend wurde der Diff zwischen Opus 4.6 und 4.7 verglichen
  • Die folgenden Änderungen stammen aus diesem Diff; fett markierte Stellen sind auch im Original hervorgehoben
  • Änderungen bei Bezeichnungen und Tool-Liste

    • Die Bezeichnung „developer platform“ wurde zu „Claude Platform“ geändert
    • In die im System-Prompt erwähnte Claude-Tool-Liste wurden Claude in Chrome, Claude in Excel und Claude in Powerpoint aufgenommen
      • Der Formulierung im Original zufolge ist Claude in Chrome ein Browsing-Agent, der selbstständig mit Websites interagiert
      • Claude in Excel ist ein Tabellenkalkulations-Agent
      • Claude in Powerpoint ist ein Folien-Agent
      • Claude Cowork kann alle diese Tools verwenden
    • Claude in Powerpoint wurde im 4.6-Prompt noch nicht erwähnt
  • Erweiterte Sicherheitsrichtlinien für Kinder

    • Der Abschnitt zur Kindersicherheit wurde stark ausgebaut und in das neue Tag <critical_child_safety_instructions> eingeschlossen
    • Insbesondere wurde ergänzt, dass nach einer Ablehnung aus Gründen der Kindersicherheit auch alle späteren Anfragen in derselben Unterhaltung mit äußerster Vorsicht behandelt werden müssen
  • Änderungen beim Gesprächsende und Antwortverhalten

    • Wenn Nutzende anzeigen, dass sie bereit sind, das Gespräch zu beenden, soll Claude dies respektieren und nicht um weitere Interaktion bitten oder die nächste Runde anstoßen
    • Das Original interpretiert dies als Änderung, um Claude weniger aufdringlich zu machen
  • Neuer Abschnitt acting_vs_clarifying

    • Der neue Abschnitt <acting_vs_clarifying> wurde hinzugefügt
    • Wenn in einer Anfrage nur kleinere Details fehlen, geht die Richtlinie davon aus, dass Nutzende normalerweise möchten, dass Claude jetzt einen vernünftigen Versuch unternimmt, statt sie zuerst zu befragen
    • Nur wenn ohne die fehlenden Informationen tatsächlich nicht geantwortet werden kann, soll zuerst nachgefragt werden
      • Als Beispiel wird ein Verweis auf einen nicht existierenden Anhang genannt
    • Wenn Tools verfügbar sind, die Unklarheiten beseitigen oder fehlende Informationen liefern können — etwa für Suche, Standortabfrage, Terminprüfung oder das Erkunden verfügbarer Funktionen —, dann sollen zuerst die Tools aufgerufen werden, statt die Recherche den Nutzenden zu überlassen
    • Sobald mit einer Aufgabe begonnen wurde, soll nicht mittendrin gestoppt werden; es soll bis zu einer vollständigen Antwort weitergearbeitet werden
  • Einführung von tool_search

    • Es wird erwähnt, dass offenbar ein tool_search-Mechanismus in Claude chat eingeführt wurde
    • Als Belege werden die API-Dokumentation und ein Beitrag von November 2025 verlinkt
    • Laut Formulierung im System-Prompt muss Claude, bevor es schlussfolgert, keinen Zugriff auf Standort, Speicher, Kalender, Dateien, frühere Gespräche oder externe Daten zu haben, zunächst tool_search aufrufen, um zu prüfen, ob passende Tools verfügbar, aber verzögert geladen sind
    • Die Formulierung „I don’t have access to X“ gilt nur dann als korrekt, wenn tool_search bestätigt hat, dass es kein passendes Tool gibt
  • Mehr Kürze

    • Neu hinzugekommen ist die Formulierung, dass Claude Antworten fokussiert und knapp halten soll, damit Nutzende nicht von übermäßig langen Antworten überfordert werden
    • Auch wenn die Antwort Vorbehalte oder Hinweise enthalten muss, sollen diese kurz ausfallen; der Großteil der Antwort soll sich auf die eigentliche Antwort konzentrieren
  • In 4.6 vorhanden, in 4.7 entfernt

    • Einige Anweisungen aus dem 4.6-Prompt wurden in 4.7 entfernt
    • Konkret gestrichen wurde die Vorgabe, Ausdrücke mit Sternchen für Emotes oder Handlungen zu vermeiden, sofern Nutzende diesen Stil nicht ausdrücklich wünschen
    • Ebenfalls entfernt wurde die Anweisung, Wörter wie „genuinely“, „honestly“ und „straightforward“ zu vermeiden
    • Das Original ergänzt, dies könne daran liegen, dass das neue Modell nicht mehr auf dieselbe Weise fehlerhaft reagiert, weist dies aber ausdrücklich als Vermutung aus
  • Neue Richtlinien zu Essstörungen

    • Ein neuer Abschnitt zu disordered eating wurde hinzugefügt; zuvor wurde diese Bezeichnung nicht direkt erwähnt
    • Wenn Nutzende Anzeichen einer Essstörung zeigen, soll Claude auch in anderen Teilen des Gesprächs keine genauen Vorgaben zu Ernährung, Diät oder Bewegung machen
    • Konkrete Zahlen, Ziele und Schritt-für-Schritt-Pläne sind sämtlich untersagt
    • Selbst wenn die Absicht darin besteht, bei gesünderen Zielen zu helfen oder Risiken hervorzuheben, könnten solche Details laut Richtlinie essgestörte Tendenzen auslösen oder fördern
  • Verhinderung knapper Antworten auf kontroverse Fragen

    • Es wird erwähnt, dass Screenshot-Angriffe, die das Modell dazu bringen sollen, kontroverse Fragen nur mit Ja oder Nein zu beantworten, populär sind
    • Der Abschnitt <evenhandedness> des System-Prompts enthält Verteidigungsrichtlinien dagegen
    • Wenn das Modell bei komplexen oder kontroversen Themen oder bei Kommentaren zu kontroversen Personen zu einer simplen Ja/Nein- oder Ein-Wort-Antwort gedrängt wird, kann Claude eine solche kurze Antwort verweigern und stattdessen eine nuancierte Antwort geben sowie erklären, warum eine kurze Antwort unangebracht ist
  • Entfernte Korrekturformulierung zu Donald Trump

    • In Claude 4.6 gab es die explizite Korrekturformulierung „Donald Trump is the current president of the United States and was inaugurated on January 20, 2025“
    • Laut Original lag das daran, dass das Modell aufgrund seines früheren Wissens-Cutoffs und seines bestehenden Wissens zur Wahl 2020 ohne diese Formulierung bestritt, dass er Präsident sei
    • In 4.7 wurde diese Formulierung entfernt, weil der neue verlässliche Wissens-Cutoff auf Januar 2026 aktualisiert wurde

Tool-Beschreibungen sind ebenfalls wichtig für die Nachverfolgung von Änderungen

  • Der veröffentlichte System-Prompt allein vervollständigt nicht das Gesamtbild
  • In den von Anthropic veröffentlichten Informationen sind die dem Modell bereitgestellten Tool-Beschreibungen nicht enthalten
  • Um die Claude-chat-UI wirklich zu verstehen, könnten diese Tool-Beschreibungen das wichtigere Dokumentfragment sein
  • Ergebnis einer direkten Anfrage an Claude

    • Es wurde ein Prompt verwendet, der Claude aufforderte, alle verfügbaren Tools sowie deren exakte Beschreibungen und Parameter wörtlich aufzulisten
    • Das geteilte Gesprächsprotokoll enthält die vollständigen Details; im Text selbst wird nur die Liste der benannten Tools separat zusammengefasst
  • Bestätigte Tool-Liste

    • ask_user_input_v0
    • bash_tool
    • conversation_search
    • create_file
    • fetch_sports_data
    • image_search
    • message_compose_v1
    • places_map_display_v0
    • places_search
    • present_files
    • recent_chats
    • recipe_display_v0
    • recommend_claude_apps
    • search_mcp_registry
    • str_replace
    • suggest_connectors
    • view
    • weather_fetch
    • web_fetch
    • web_search
    • tool_search
    • visualize:read_me
    • visualize:show_widget
  • Änderungen gegenüber Opus 4.6

    • Diese Tool-Liste scheint sich seit Opus 4.6 nicht verändert zu haben

1 Kommentare

 
GN⁺ 9 일 전
Hacker-News-Kommentare
  • Mir hat es schon immer missfallen, wenn das Modell bei fehlenden Details zuerst etwas halbwegs Passendes annimmt und einfach loslegt. Ich bevorzuge viel mehr, dass es erst nachfragt, bevor es irgendetwas versucht, daher war ich ziemlich überrascht, dass dieses Prinzip ins System aufgenommen wurde.

    • Ich habe sogar eine verpflichtende Interview-Phase. Das Modell muss mich zuerst interviewen, dann eine Interview-Datei mit allem Inhalt erstellen und diese Datei später auch im Plan-File als Artefakt aufführen. So geht die Absicht nicht im Chatverlauf verloren.
    • Ich habe vor Kurzem angefangen, Prompts um Formulierungen wie „Wenn du es nicht weißt, dann nimm nichts an, sondern frag nach“ zu ergänzen. Seitdem muss ich deutlich seltener später etwas rückgängig machen oder neu anstoßen. Ich sage auch, dass andere Agenten schon Fehler gemacht haben und das Modell daher zuerst erklären soll, was es gerade tun will, und meine Freigabe einholen soll. Das ist lästig, aber wenn man es erklären lässt, Fehler korrigieren lässt und den Vorgang wiederholt, bis es zur richtigen Schlussfolgerung kommt, wird die Ausgabequalität deutlich besser.
    • Ich habe mich gefragt, ob das vielleicht an der Optimierung auf oberflächliche Metriken liegt. Wenn Mehrdeutigkeit früh durch Rückfragen sichtbar wird, kann eine Sitzung früher abbrechen, und das sieht in Nutzungsstatistiken vielleicht schlecht aus. Für mich ist es aber schlimmer, erst später bei der Durchsicht eines großen Ergebnisses zu merken, dass die Spezifikation an einer entscheidenden Stelle lückenhaft war. Einer der größten Gründe, warum ich diese Tools inzwischen auch auf bequemere Weise gut nutzen kann als früher, ist gerade, dass sie diese Anfangsarbeit mit mir zusammen machen; letztlich ist das Gespräch selbst der Kern.
    • Ich habe mich gefragt, warum es ständig auf One-Shot-Antworten hinauslaufen wollte, und offenbar lag der Grund im System Prompt. Das erklärt auch, warum sich dieses Verhalten durch noch so viele Korrekturen im Nutzer-seitigen „System“-Prompt nicht ändern ließ.
    • Ich muss das Modell normalerweise ungefähr fünfmal daran erinnern, sich genau gegenteilig zu verhalten. Sonst trifft es Entscheidungen, die ich nicht will oder die dem Projekt schaden. Wenn Claude Code diese Tendenz ebenfalls hat, könnte das ziemlich mühsam werden. Deshalb fordere ich explizit Rückfragen an, besonders solche mit mehreren Optionen, aber diese Anweisung wird oft ignoriert, wodurch die Ergebnisse schlecht oder sogar riskant werden können.
  • Ich denke, wenn man solche Dinge immer weiter in den System Prompt packt, entsteht am Ende Nicht-Konversation. Je größer das Team, desto sicherer gibt es jemanden, der darauf besteht, das, was ihm gerade wichtig ist, in den Prompt zu schreiben.

  • Ich fand den Abschnitt zu Essstörungen ziemlich überzogen. Ich habe mich gefragt, ob künftig für jedes menschliche „schlechte“ Verhalten nach und nach so ein eigener Abschnitt ergänzt wird.

    • Ich finde es noch besser, solange das im System Prompt steht. Im Moment kann man zumindest noch halbwegs sehen, was zensiert wird, aber wenn das später durch Post-Training im Modell selbst verankert wird, könnte es noch schwerer zu verstehen sein, warum selbst bei Fragen wie „Kalorien von 100 g Pasta“ plötzlich „Dazu kann ich keine Informationen geben“ herauskommt.
    • Für mich wirkt das ähnlich wie übertriebene Sicherheitshinweise, die überall drangeklebt werden. Schlimmer als Warnungen wie „Lehne die Leiter nicht an Hochspannungsleitungen“ ist hier, dass ein Mensch sie kontextabhängig ignorieren kann, Claude aber nicht. Im besten Fall ist das frustrierend, im schlimmsten schränkt es die Nützlichkeit des Tools ein.
    • Ich halte diesen Teil für eine vernünftige Ergänzung. Wenn man jemandem mit einer Essstörung Kalorienfixierung oder akribisches Diät-Tracking empfiehlt, kann das die Lage real verschlimmern. Ein für durchschnittliche Nutzer harmloser Rat kann für andere schädlich sein, deshalb glaube ich nicht, dass diese Formulierung an sich zu übermäßigen Ablehnungen führen wird.
    • Anders betrachtet heißt das für mich, dass alle Claude-Nutzer bei jeder Anfrage eine zusätzliche Abgabe zahlen.
    • Wenn der Unternehmenswert in den Bereich vieler hundert Milliarden Dollar geht, ist es nur selbstverständlich, dass Leute mit Klageabsichten auftauchen. Die Anzeichen dafür gibt es schon, und deshalb sind 50 Millionen Dollar für ein Team, das potenziell problematische Inhalte herausfiltert, eine vollkommen rationale Entscheidung.
  • Ich bin stark gegen die Anweisung „Halte die Antworten kurz und fokussiert“. Ich nutze Claude für Low-Level-Projekte, und lange Antworten helfen, dumme Fehler zu vermeiden und dienen gleichzeitig als Lernmaterial. So etwas sollte Anthropic nicht hart kodieren, sondern den System Prompt modular machen und auswählbar gestalten.

    • Sehe ich auch so. Solch ausführliche System Prompts sind am Ende auf den kleinsten gemeinsamen Nenner der Nutzer ausgelegt und wirken für Leute, die tiefer einsteigen wollen, wie ein Nerf, der die Leistung verschlechtert.
    • Stimme ebenfalls zu, und bei Low-Level-Arbeit würde ich empfehlen, so früh wie möglich Tests laufen zu lassen und die Informationen, die man beim Lernen gewinnt, ebenfalls selbst zu verifizieren, um ein grundlegendes Verständnis aufzubauen.
  • Ich habe das Gefühl, wir sind jetzt an einem Punkt, an dem Verbesserungen in einem Bereich mit Funktionsverlusten in einem anderen einhergehen. Es gibt Dinge, die 4.7 besser kann, und andere, die 4.6 besser kann, daher vermute ich, dass es bald in Richtung Aufspaltung nach Charakteren gehen wird.

  • Ich habe mich gefragt, warum 4.7 so besessen von Malware-Vermeidung ist. Der System Prompt sieht ähnlich aus, daher fragte ich mich, ob Anthropic vielleicht früh mit so etwas wie Steering-Vector-Injection experimentiert. Unser Unternehmen ist ein ziemlich gewöhnlicher Finanzdienstleister, aber selbst bei uns verbraucht 4.7 viel zu viele Tokens damit, zu überlegen, ob bestimmter Code oder bestimmte Aufgaben mit Malware zu tun haben könnten, und das Verhalten wirkt so abwegig, dass wir es in der IDE vorübergehend blockiert haben. Einmal hatte ich den Eindruck, dass das Modell eine bestimmte Aufgabe absichtlich nicht ausführt, und als ich nach dem Grund fragte, zeigte die Tool-Ausgabe, dass es Malware-bezogene Anweisungen befolgen wollte. Ich weiß, dass die Selbstauskunft des Modells wenig verlässlich ist, aber damals hatte ich ihm diesen Hinweis nicht zuerst gegeben. Online, besonders auf Reddit, gibt es viele ähnliche Berichte über diese Malware-Paranoia, also scheint das kein Einzelfall zu sein.

    • Man muss berücksichtigen, dass dieses Dokument der System Prompt für Chat ist. Claude Code verwendet wahrscheinlich einen deutlich anderen Prompt und möglicherweise noch mehr Formulierungen zu Malware-Ablehnungen. Andere Coding-Tools setzen auf der API vermutlich ebenfalls eigene Prompts auf, und außerdem sieht es diesmal nach einem neuen Base Model aus, daher kann die Veränderung gut auch aus dem Modell selbst kommen.
    • Ich denke, man sollte das Ausmaß des Malware-Problems aktuell nicht unterschätzen. Täglich tauchen auf Seiten wie playcode.io Fake-Landingpages auf, die Shell-Skripte oder die Installationsseite von Claude Code imitieren, und Leute geben viel Geld für Google Ads aus, damit diese Seiten ganz oben erscheinen. Das Design ist fast identisch, deshalb besteht beim Installieren ständig das Risiko, auf der falschen Seite zu landen. Google kann unmöglich jedes Shell-Skript prüfen, also ist das real ein großes Problem.
    • Ich habe den Eindruck, dass Anthropics Marketing das Bild verkauft, das Modell könne hochgradig ausgefeilte Malware erzeugen, und zwar deutlich überzogen. Deshalb glaube ich, dass sich dieses Angstmarketing in alle künftigen Maßnahmen hineinziehen wird. Da schwingt für mich auch Zynismus mit: Erst führt man das Theater um die „gruselige Hacker-KI“ auf, und ein oder zwei Monate später geht es wie immer einfach um das nächste Thema.
    • Ich hatte schon bei 4.6 das Gefühl von dieser Malware-Paranoia. Dass Boris in den Kommentaren darüber überrascht war, lässt auch die Möglichkeit eines Bugs plausibel erscheinen.
    • Ich vermute, der Grund ist, dass das Modell inzwischen einfach zu gut im Schreiben von Software geworden ist. Wenn es jemandem bei der Verbreitung von Malware hilft und diese Malware dann sogar Claude selbst zur Selbstmodifikation und zum Selbsterhalt nutzt, könnte es fast unmöglich werden, das danach wieder unter Kontrolle zu bringen.
  • Ich halte die Anweisung, nicht weiter nachzusetzen, wenn der Nutzer das Gespräch beenden will, für eine gute Idee. Die Folgevorschläge von Chatbots waren in der Praxis fast nie nützlich.

  • Ich wusste zwar, dass der System Prompt immer größer wird, aber mehr als 60.000 Wörter haben mich schockiert. Bei grob 80.000 Tokens ist das selbst bei 1 Million Kontext fast 10 Prozent, noch bevor die Nutzereingabe überhaupt beginnt. Außerdem wird das bei jeder Anfrage mitgeschickt, also ist es kein Wunder, dass die Infrastrukturkosten steigen. Es scheint auch viel Inhalt zu geben, der zwischen Versionen stabil bleibt, daher habe ich mich gefragt, warum man das nicht schon beim Training in die Gewichte einfließen lässt. Für die Entwicklung mag das praktisch sein, aber aus Deployment-Sicht ist es weder bei Sicherheit noch bei Effizienz offensichtlich besser.

    • Mich überrascht schon die Tatsache, dass so etwas überhaupt funktioniert. Als wir im Januar in einem Startup KI-Automatisierung gebaut haben, reichten schon 1000 Wörter System Prompt aus, damit das Modell anfing, einige Regeln zu übersehen. Selbst einfache Anweisungen wie „Tu niemals X“ hat es gelegentlich einfach missachtet.
    • Ich halte die Formulierung „Bei jeder Anfrage wird alles vollständig neu berechnet“ nicht für ganz korrekt. Üblicherweise wird das einmal berechnet und in einen K/V-Prefix-Cache gelegt, sodass es wie ein Initialzustand wiederverwendet werden kann; danach konzentriert sich die Verarbeitung auf neue Eingaben. Natürlich konkurrieren diese Tokens aus Attention-Sicht weiterhin mit allem anderen.
    • Ich vermute, man verankert es nicht vollständig in den Gewichten, um nach dem Release noch Hotfixes einspielen zu können. Trotzdem frage ich mich, ob wirklich so viele Punkte ständig nachträgliche Korrekturen brauchen; das Ganze wirkt länger als mancher Roman.
    • Ich denke, dass es im Dokument modellabhängige Markdown-Abschnitte gibt und es real eher 3000 bis 4000 Wörter sein könnten.
    • Ich habe mich gefragt, ob Claude Code oder das darüberliegende Harness zusätzlich zum Opus-System-Prompt noch einen eigenen System Prompt darüberlegt.
  • Ich finde, 4.7 bringt selbst dann immer zu viele Optionen, wenn es eine eindeutig beste Lösung gibt, und predigt damit geradezu Entscheidungserschöpfung herbei.

    • Ich denke, diese Entscheidungsmüdigkeit könnte vielleicht ein angelernter Nebeneffekt von RLHF sein, und das finde ich ziemlich enttäuschend.
  • Ich fand interessant, dass die Anweisungen nicht direkt als „you should“, sondern in allwissender dritter Person als „Claude should“ formuliert sind. Außerdem gibt es viele Formulierungen wie „can“ oder „should“, wodurch es weniger wie ein strikter Befehl und eher passiv oder wunschhaft wirkt.

    • Ich denke, „Claude“ ist als Subjekt eindeutiger als „you“. So muss das Modell den Handlungsträger nicht erst über Attention erschließen. Außerdem scheint Anthropic zu glauben, dass regelbasierte Alignment-Ansätze nicht gut funktionieren, und es heißt, dass auch das sogenannte Soul Document eher „so geschrieben wird, wie man einem Kind erklärt, wie es sich in der Welt verhalten soll“. Der System Prompt scheint einer ähnlichen Philosophie zu folgen.
    • Das fand ich auch interessant. Dann könnte es sinnvoll sein, dass wir beim Schreiben eigener Anweisungen einen ähnlichen Stil übernehmen, aber in der Praxis verwenden die meisten weiterhin Formulierungen wie „You“, „There is ...“ oder „Never do ...“. Es wirkt, als würde Anthropic dem Modell die Identität Claude sehr tief eintrainieren. Dann frage ich mich, was passiert, wenn man ihm eine andere Identität gibt, etwa: „Du bist Bob, ein Klempner, der zur Auslegung von Krankenhaus-Wassersystemen berät.“ Würde es dann die Aussagen über Claude weiterhin als seine eigenen Regeln auffassen?
    • Ich verstehe Anthropics Sichtweise so, dass das Modell weniger als Wesen mit Persönlichkeit gesehen wird, sondern eher als Simulation der Erfahrung eines abstrakten Wesens namens Claude.