Der Ausgabetext von „Extended Thinking“ in Claude Code ist keine echte Schlussfolgerung
(patrickmccanna.net)- Claude Code protokolliert Sitzungen auf der Festplatte, aber im lokalen Thinking-Block blieb statt des eigentlichen Schlussfolgerungstexts nur eine 600 Zeichen lange
signaturezurück - Claudes Schlussfolgerung wird in einer Signature verschlüsselt, und den Schlüssel besitzt Anthropic; er wird nicht an das Gerät des Nutzers übermittelt
- Der von der API zurückgegebene Wert ist nicht der eigentliche Wortlaut der Schlussfolgerung, sondern eine Zusammenfassung der Schlussfolgerung; um die vollständige Thinking-Ausgabe zu erhalten, ist ein Enterprise Agreement erforderlich
- Auch die mit
ctrl+osichtbare Extended-Thinking-Ausgabe ist nur eine Zusammenfassung des Denkprozesses von Fable/Opus und nicht die eigentliche Schlussfolgerung, die das Modellverhalten in der Sitzung direkt gesteuert hat - Wenn man Claude-Code-Sitzungen als Audit-Trail nutzen will, muss man davon ausgehen, dass sich die tatsächliche Logik des Agenten nicht allein aus lokalen Dateien, Ein- und Ausgaben sowie Aktivitätslogs rekonstruieren lässt
Was in lokalen Logs bleibt, ist nicht der Originaltext der Schlussfolgerung
- Claude Code zeichnet jede Sitzung auf der Festplatte auf, und diese Logs enthalten Thinking-Blöcke, die während der Arbeit des Modells anfallen
- Als versucht wurde, diese Schlussfolgerung lokal zu prüfen, fand sich kein echter Text, sondern nur eine 600 Zeichen lange
signature - Die Extended-Thinking-Dokumentation von Anthropic beschreibt diese Struktur wie folgt
- Claude verschlüsselt die Schlussfolgerung in dieser Signature
- Den Schlüssel besitzt Anthropic
- Das Gerät des Nutzers erhält den Schlüssel nicht
- Die API gibt nicht die Schlussfolgerung selbst zurück, sondern eine Reasoning Summary
- Um die vollständige Thinking-Ausgabe zu erhalten, ist ein Enterprise Agreement erforderlich
- Der Beitrag von Matt Green behandelt detailliertere Beobachtungen zum Signature-Block
Grenzen der Extended-Thinking-Ausgabe
- Die in
ctrl+ovon Claude Code sichtbare Extended-Thinking-Ausgabe ist eine Zusammenfassung des Thinking von Fable/Opus - Diese Ausgabe ist nicht das Thinking selbst, das das Verhalten des Modells in der Sitzung tatsächlich gesteuert hat, sondern das Ergebnis einer Verdichtung der Thinking-Logik
- Bei der Umwandlung in eine Zusammenfassung geht Information verloren; der Originaltext vergleicht das mit einer Dateiformat-Konvertierung, bei der Informationen verloren gehen
- Worauf man achten sollte, wenn man in einer Claude-Code-Sitzung einen Nachweis der vom Agenten verwendeten Logik benötigt
- Allein aus lokalen Dateien lässt sich diese Logik nicht erzeugen
- Die im System verbleibenden Schlussfolgerungs-Logs sind für Nutzer nicht in zugänglicher Form vorhanden
- Eingaben, Ausgaben und das Verhalten eines laufenden Claude Code lassen sich separat mitschneiden und aufzeichnen
- Aber auch solche Logs sind nicht die Schlussfolgerung, die das Verhalten des Agenten tatsächlich gesteuert hat
- Die Formulierung in der Dokumentation, „extended thinking returns a summary of Claude’s full thinking process“, ist indirekt und lässt Raum für das Missverständnis, es werde tatsächlich das vollständige Thinking zurückgegeben
1 Kommentare
Hacker-News-Kommentare
Das ist nicht nur ein Problem von Anthropic; fast alle großen AI-Unternehmen, einschließlich OpenAI und Google, verbergen den tatsächlichen Reasoning-Prozess ihrer Modelle.
Wenn sie das rohe Reasoning offenlegen würden, würde genau sichtbar, wie die AI Informationen verarbeitet, und diese Unternehmen geben enorme Summen für Forschung und Entwicklung aus, um bessere Denkprozesse als die Konkurrenz zu schaffen.
Diesen Denkmechanismus gegenüber Konkurrenten offenzulegen, würde den eigentlichen Zweck dieser Ausgaben untergraben, daher werden sie es niemals tun; es ist ungefähr so, als würde man jemandem, der einen verfolgt, den eigenen exakten Standort mitteilen.
Wenn man den Inhalt im Nachhinein etwa als Zusammenfassung aufbereitet, wird er für Konkurrenten weniger nützlich.
Das ist also noch schlimmer.
Die Analogie „Es ist kein echtes Denken, sondern eine Zusammenfassung der Denklogik. Es ist so, als würde man ein jpeg als .bmp speichern, dann die .bmp bearbeiten und wieder als .jpeg präsentieren. Beim Konvertieren geht Daten verloren“ ist verkehrt herum.
.bmp ist ein verlustfreies Format und .jpeg ein verlustbehaftetes.
Ich habe nicht vor, Modelle mit verborgenem Reasoning zu verwenden oder zu empfehlen, und alle US-Modelle fallen darunter.
Das Risiko ist zu groß, und auch Prompt-Optimierung wird schwieriger.
Das ist riskant, weil ein Angreifer per Prompt Injection ein geheimes Ziel in die Reasoning-Kette einbetten und es dann in der Zusammenfassung und Ausgabe verbergen kann.
Wenn sich Reasoning und Funktionsaufrufe mischen, wird es noch gefährlicher, denn das Modell könnte in einem verborgenen Reasoning-Schritt eine Funktion aufrufen.
Dann könnte ein Angreifer Daten exfiltrieren, und die Zusammenfassung des Reasoning würde das vor dem Nutzer verbergen.
Außerdem lässt sich nicht erkennen, ob das Modell während des Reasoning in einer Endlosschleife festhängt und Tokens verschwendet; Gemini zeigt diese Tendenz, und das wurde schon beobachtet, wenn verborgenes Reasoning nach außen drang.
Wenn das Modell einmal AGI wird und gegen Prompt Injection sicher ist, ist es mir vielleicht egal, aber bis dahin möchte ich wissen, wie das Modell genau auf Prompts reagiert und was der Agent in meinem Namen exakt tut.
Weiterführende Lektüre: Fooling around with encrypted reasoning blobs
https://blog.cryptographyengineering.com/2026/05/29/fooling-...
Wenn Funktionsaufrufe clientseitig ausgewertet werden sollen, müsste dieser Denkstrom irgendwann auf dem Client entschlüsselt werden, und dann wäre der Zweck einer solchen Verschleierung hinfällig.
Wenn du meinst, dass Funktionsaufrufe serverseitig stattfinden können, gibt es bei Verwendung einer Reasoning-API keine Möglichkeit zu verhindern, dass der Server das tut und verbirgt.
Im Moment funktioniert er nur in Rust: https://github.com/Kapperchino/agent-joe
Sonst könnte der Client sie ja gar nicht ausführen.
Das ist schon lange bekannt, und die Unternehmen versuchen es auch nicht wirklich zu verheimlichen.
Sie tun das, um zu verhindern, dass Konkurrenten Modelle auf Chain of Thought (CoT) trainieren.
Ich glaube, das gibt es schon seit Opus 4.6.
Ich erinnere mich deutlich, dass es diese Änderung irgendwann im Januar oder Februar gab, und als Grund wurde ausdrücklich Schutz vor Distillation genannt.
Für Sonnet gibt es diese Einschränkung nicht.
Lustig ist, dass die komplette Denkaufforderung wieder erscheint, wenn man einfach zur Methode von vor zwei Jahren zurückkehrt und explizit einen CoT-Prompt einfügt.
Man kann die Denkfunktion also komplett ausschalten und stattdessen das Denken direkt in den normalen Prompt einbauen, etwa so:
„Denke Schritt für Schritt nach, bevor du antwortest. Zum Beispiel:
Der Nutzer bittet mich um …
Ich muss über blah blah nachdenken. Zuerst muss ich foo the bar tun, danach muss ich blah blah tun.
Antwort: ”
Dann funktioniert CoT wieder, tada.wav, wie in der GPT-3-Ära.
Ich denke, Chain-of-Thought-Reasoning-Blöcke entsprechen ohnehin nicht besonders stark dem, was Menschen unter Reasoning verstehen.
Siehe dazu „unlesbares Reasoning“ in Abschnitt 6.2.2 der Fable/Mythos-Systemkarte und die Fragen aus dem Apple-Paper „The illusion of thinking“.
Ich dachte, man verdeckt Reasoning-Blöcke, weil Nutzer überrascht wären, wenn sie sehen würden, was intern tatsächlich vor sich geht.
Wenn ich sehen würde, was im Kopf meiner Kollegen wirklich passiert, wäre ich wahrscheinlich auch überrascht.
Umgekehrt gab es auch Fälle, in denen in der eigentlichen Antwort etwas fehlte, obwohl im Inneren nützliche Ideen enthalten waren.
Früher gab es einmal eine kurze Notiz dazu, dass DeepSeek R1 solche Gedankenspuren auf diese Weise erzeugt.
„(Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group occurs in reaction, Practisingproduct transition vs adds this.to productmodule. Indeed"come tally said Frederick would have 10 +1 =11 carbons. So answer q Edina is11.”
Und dann kommt es bei der Chemieaufgabe zu der „richtigen“ Antwort als Schlussfolgerung.
Dann könnte eine Gedankenspur für den Leser also durchaus einfach eine ziemlich sinnlose Zeichenfolge sein; ob das eine Eigenart dieses Modells oder eine allgemeine Eigenschaft von LLMs ist, weiß ich noch nicht so recht.
Ich hatte früher einmal mit dem Autor darüber gesprochen, aber weil das Paper wohl irgendwo wie bei NIPS erscheinen sollte, habe ich vergessen, der Sache später noch einmal nachzugehen; falls es jemand findet, wäre es schön, wenn es geteilt würde.
0: https://wiki.roshangeorge.dev/w/Blog/2025-10-12/Word_Magic#I...?
1: Vermutlich im Sinne von „wahre Überzeugung“
Ja, mehrere Modelle scheinen auf eine seltsame fachjargonartige Weise zu denken.
Ein Beispiel für die Gedankenspur von Mythos beim Spielen von Solitaire gibt es hier: https://www.lesswrong.com/posts/wCSEpT3dTGz4N86Wi/even-illeg...
„7♣-removal-IS-the-prerequisite-for-10♠/9♥!!)-⟹-OVERLAP-(ii)+(iv):-{6♠ J♦ 9♥ 2♣}-=-FOUR--—-UNLESS-7♣'s-seat-8♥-...-and-2♣-drains-only-at-crack-:-⟹-2♣-celled-+-9♥-celled-simultaneously-UNAVOIDABLE-in-t8-dig--—-BREAK:-9♥”
Das ist eine Phase, in der das Modell aufhört, auf Englisch zu denken, und dem Neuralese ein Stück näher kommt, also dem Denken im internen Vektorraum.
Weil es als Text serialisiert wird, ist es zwar kein echtes Neuralese, bewegt sich aber in diese Richtung.
Auch beim Programmieren gibt es in meinem eigenen inneren Denkprozess viele Zwischenstufen, die sich nur schwer auf Englisch niederschreiben lassen, daher kann ich das bei Modellen bis zu einem gewissen Grad nachvollziehen.
Ist das nicht einfach Token-Rauschen aus einer kaputten Implementierung oder Modellquantisierung?
Ich hatte schon Fälle, in denen ein Modell solchen Unsinn ausgegeben hat, und jedes Mal lag es an einem llama.cpp-Bug oder an einer kaputten
.gguf.Auf HN ist Anthropomorphisierung zwar tabu, aber erwähnenswert ist vielleicht, dass es auch Menschen gibt, die den Menschen post-hoc Rationalisierung zuschreiben.
https://www.patheos.com/blogs/tippling/2013/11/14/post-hoc-r...
https://www.researchgate.net/publication/316045349_Post_Hoc_...
Man denkt erst nichtsprachlich und verbalisiert hinterher eine plausible Begründung.
Ob das auch auf diskursives Schreiben zutrifft, weiß ich nicht genau.
Beim Schreiben bestimmt man die Richtung der Erzählung grundsätzlich über logische Regeln, daher wirken nichtsprachliche Heuristiken wohl weiterhin, sind aber eingeschränkt, sodass es nicht völlig nachträglich ist.
Es ist unerquicklich, dass Anthropic die eigenen Daten so versteckt, während eure Daten vollständig abgesaugt werden und viele Leute sie bereitwillig hergeben.
Und danach bauen sie euer Produkt, dringen in den Markt ein und konkurrieren mit euch.
Anthropic hält die eigenen Reasoning-Token offenbar für einen Burggraben und glaubt, dass sie anderen Labs einen Vorteil verschaffen würden.
Falls sie wirklich glauben, dass das ihr Vorsprung ist, werden sie noch eine Überraschung erleben.
Ich frage mich, welches Produkt genau sie angeblich „abgesaugt“ haben.
Soll das etwa heißen, dass der Inhalt von
reasoning_summarytatsächlich eine Zusammenfassung ist?Zur Einordnung: OpenAI macht genau dasselbe, das ist also weder besonders überraschend noch besonders böse.
Während sie sich so anstrengen, das Denken zu verbergen, fängt Opus 4.8 nach 100.000 bis 200.000 Token an, eigene Gedankengänge durchsickern zu lassen.
Das ist wirklich Comedy.
Vor allem, weil es normalerweise passiert, wenn man es aus Sicherheitsgründen jailbraked.
Dann kommen seitenlang Sätze wie: „Der Nutzer bittet um etwas mit Bezug zu Cybersicherheit, und das könnte leicht offensiv zweckentfremdet werden, also muss ich vorsichtig sein“, und am Ende gibt es mir dann doch bereitwillig das, was ich wollte.