1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Claude Code protokolliert Sitzungen auf der Festplatte, aber im lokalen Thinking-Block blieb statt des eigentlichen Schlussfolgerungstexts nur eine 600 Zeichen lange signature zurück
  • Claudes Schlussfolgerung wird in einer Signature verschlüsselt, und den Schlüssel besitzt Anthropic; er wird nicht an das Gerät des Nutzers übermittelt
  • Der von der API zurückgegebene Wert ist nicht der eigentliche Wortlaut der Schlussfolgerung, sondern eine Zusammenfassung der Schlussfolgerung; um die vollständige Thinking-Ausgabe zu erhalten, ist ein Enterprise Agreement erforderlich
  • Auch die mit ctrl+o sichtbare Extended-Thinking-Ausgabe ist nur eine Zusammenfassung des Denkprozesses von Fable/Opus und nicht die eigentliche Schlussfolgerung, die das Modellverhalten in der Sitzung direkt gesteuert hat
  • Wenn man Claude-Code-Sitzungen als Audit-Trail nutzen will, muss man davon ausgehen, dass sich die tatsächliche Logik des Agenten nicht allein aus lokalen Dateien, Ein- und Ausgaben sowie Aktivitätslogs rekonstruieren lässt

Was in lokalen Logs bleibt, ist nicht der Originaltext der Schlussfolgerung

  • Claude Code zeichnet jede Sitzung auf der Festplatte auf, und diese Logs enthalten Thinking-Blöcke, die während der Arbeit des Modells anfallen
  • Als versucht wurde, diese Schlussfolgerung lokal zu prüfen, fand sich kein echter Text, sondern nur eine 600 Zeichen lange signature
  • Die Extended-Thinking-Dokumentation von Anthropic beschreibt diese Struktur wie folgt
    • Claude verschlüsselt die Schlussfolgerung in dieser Signature
    • Den Schlüssel besitzt Anthropic
    • Das Gerät des Nutzers erhält den Schlüssel nicht
    • Die API gibt nicht die Schlussfolgerung selbst zurück, sondern eine Reasoning Summary
    • Um die vollständige Thinking-Ausgabe zu erhalten, ist ein Enterprise Agreement erforderlich
  • Der Beitrag von Matt Green behandelt detailliertere Beobachtungen zum Signature-Block

Grenzen der Extended-Thinking-Ausgabe

  • Die in ctrl+o von Claude Code sichtbare Extended-Thinking-Ausgabe ist eine Zusammenfassung des Thinking von Fable/Opus
  • Diese Ausgabe ist nicht das Thinking selbst, das das Verhalten des Modells in der Sitzung tatsächlich gesteuert hat, sondern das Ergebnis einer Verdichtung der Thinking-Logik
  • Bei der Umwandlung in eine Zusammenfassung geht Information verloren; der Originaltext vergleicht das mit einer Dateiformat-Konvertierung, bei der Informationen verloren gehen
  • Worauf man achten sollte, wenn man in einer Claude-Code-Sitzung einen Nachweis der vom Agenten verwendeten Logik benötigt
    • Allein aus lokalen Dateien lässt sich diese Logik nicht erzeugen
    • Die im System verbleibenden Schlussfolgerungs-Logs sind für Nutzer nicht in zugänglicher Form vorhanden
    • Eingaben, Ausgaben und das Verhalten eines laufenden Claude Code lassen sich separat mitschneiden und aufzeichnen
    • Aber auch solche Logs sind nicht die Schlussfolgerung, die das Verhalten des Agenten tatsächlich gesteuert hat
  • Die Formulierung in der Dokumentation, „extended thinking returns a summary of Claude’s full thinking process“, ist indirekt und lässt Raum für das Missverständnis, es werde tatsächlich das vollständige Thinking zurückgegeben

1 Kommentare

 
GN⁺ 4 시간 전
Hacker-News-Kommentare
  • Das ist nicht nur ein Problem von Anthropic; fast alle großen AI-Unternehmen, einschließlich OpenAI und Google, verbergen den tatsächlichen Reasoning-Prozess ihrer Modelle.
    Wenn sie das rohe Reasoning offenlegen würden, würde genau sichtbar, wie die AI Informationen verarbeitet, und diese Unternehmen geben enorme Summen für Forschung und Entwicklung aus, um bessere Denkprozesse als die Konkurrenz zu schaffen.
    Diesen Denkmechanismus gegenüber Konkurrenten offenzulegen, würde den eigentlichen Zweck dieser Ausgaben untergraben, daher werden sie es niemals tun; es ist ungefähr so, als würde man jemandem, der einen verfolgt, den eigenen exakten Standort mitteilen.

    • Es ist auch ähnlich dazu, die Informationen der Welt in einem maschinenlesbaren Format bereitzustellen, damit AI-Unternehmen sie ohne Erlaubnis oder Vergütung in Modellgewichte umwandeln können.
    • Noch grundlegender ist, dass Konkurrenten das veröffentlichte Reasoning trainieren und die Ergebnisse kopieren könnten.
      Wenn man den Inhalt im Nachhinein etwa als Zusammenfassung aufbereitet, wird er für Konkurrenten weniger nützlich.
    • Ich dachte ursprünglich, der Grund sei, dass „Reasoning“ nicht gut zu ausgerichteten Modellausgaben passt, weshalb während des Reasoning die Ausrichtung entfernt wird und dann verborgen wird, damit keine „nicht ausgerichtete“ Modellausgabe sichtbar wird.
    • Wenn man bei Google persönliche Daten exportiert, werden alle Modellantworten verborgen und nur die Nutzernachrichten bleiben erhalten.
      Das ist also noch schlimmer.
    • Aber bei komplexen Problemen sollte auch der Weg zur Lösung überprüfbar sein, daher macht dieser Ansatz das Produkt schlechter.
  • Die Analogie „Es ist kein echtes Denken, sondern eine Zusammenfassung der Denklogik. Es ist so, als würde man ein jpeg als .bmp speichern, dann die .bmp bearbeiten und wieder als .jpeg präsentieren. Beim Konvertieren geht Daten verloren“ ist verkehrt herum.
    .bmp ist ein verlustfreies Format und .jpeg ein verlustbehaftetes.

  • Ich habe nicht vor, Modelle mit verborgenem Reasoning zu verwenden oder zu empfehlen, und alle US-Modelle fallen darunter.
    Das Risiko ist zu groß, und auch Prompt-Optimierung wird schwieriger.
    Das ist riskant, weil ein Angreifer per Prompt Injection ein geheimes Ziel in die Reasoning-Kette einbetten und es dann in der Zusammenfassung und Ausgabe verbergen kann.
    Wenn sich Reasoning und Funktionsaufrufe mischen, wird es noch gefährlicher, denn das Modell könnte in einem verborgenen Reasoning-Schritt eine Funktion aufrufen.
    Dann könnte ein Angreifer Daten exfiltrieren, und die Zusammenfassung des Reasoning würde das vor dem Nutzer verbergen.
    Außerdem lässt sich nicht erkennen, ob das Modell während des Reasoning in einer Endlosschleife festhängt und Tokens verschwendet; Gemini zeigt diese Tendenz, und das wurde schon beobachtet, wenn verborgenes Reasoning nach außen drang.
    Wenn das Modell einmal AGI wird und gegen Prompt Injection sicher ist, ist es mir vielleicht egal, aber bis dahin möchte ich wissen, wie das Modell genau auf Prompts reagiert und was der Agent in meinem Namen exakt tut.
    Weiterführende Lektüre: Fooling around with encrypted reasoning blobs
    https://blog.cryptographyengineering.com/2026/05/29/fooling-...

    • Ich denke nicht, dass innerhalb eines verschleierten Reasoning-Blocks Tool-Calls stattfinden können.
      Wenn Funktionsaufrufe clientseitig ausgewertet werden sollen, müsste dieser Denkstrom irgendwann auf dem Client entschlüsselt werden, und dann wäre der Zweck einer solchen Verschleierung hinfällig.
      Wenn du meinst, dass Funktionsaufrufe serverseitig stattfinden können, gibt es bei Verwendung einer Reasoning-API keine Möglichkeit zu verhindern, dass der Server das tut und verbirgt.
    • Ich habe Chain-of-Thought-Hijacking zwar schon als potenziellen Angriffsvektor betrachtet, aber ich verstehe es so, dass die großen Anbieter alle Reasoning-Tokens zwischen den Turns verwerfen, daher habe ich bei US-Modellen keine nachgewiesene Implementierung gesehen.
    • Dieser Agent, den ich gebaut habe, kann nicht in der Shell ausgeführt werden und nur Dateien innerhalb des Projekts bearbeiten.
      Im Moment funktioniert er nur in Rust: https://github.com/Kapperchino/agent-joe
    • Selbst wenn Reasoning verborgen ist, sind Tool-Calls nicht verborgen.
      Sonst könnte der Client sie ja gar nicht ausführen.
    • Wenn Denkblöcke keine Tool-Calls ausführen können, sehe ich das Risiko einer Datenexfiltration nicht wirklich.
  • Das ist schon lange bekannt, und die Unternehmen versuchen es auch nicht wirklich zu verheimlichen.
    Sie tun das, um zu verhindern, dass Konkurrenten Modelle auf Chain of Thought (CoT) trainieren.

    • Ich glaube, das gibt es schon seit Opus 4.6.
      Ich erinnere mich deutlich, dass es diese Änderung irgendwann im Januar oder Februar gab, und als Grund wurde ausdrücklich Schutz vor Distillation genannt.
      Für Sonnet gibt es diese Einschränkung nicht.
      Lustig ist, dass die komplette Denkaufforderung wieder erscheint, wenn man einfach zur Methode von vor zwei Jahren zurückkehrt und explizit einen CoT-Prompt einfügt.
      Man kann die Denkfunktion also komplett ausschalten und stattdessen das Denken direkt in den normalen Prompt einbauen, etwa so:

      „Denke Schritt für Schritt nach, bevor du antwortest. Zum Beispiel:

      Der Nutzer bittet mich um …
      Ich muss über blah blah nachdenken. Zuerst muss ich foo the bar tun, danach muss ich blah blah tun.

      Antwort: ”

      Dann funktioniert CoT wieder, tada.wav, wie in der GPT-3-Ära.

  • Ich denke, Chain-of-Thought-Reasoning-Blöcke entsprechen ohnehin nicht besonders stark dem, was Menschen unter Reasoning verstehen.
    Siehe dazu „unlesbares Reasoning“ in Abschnitt 6.2.2 der Fable/Mythos-Systemkarte und die Fragen aus dem Apple-Paper „The illusion of thinking“.
    Ich dachte, man verdeckt Reasoning-Blöcke, weil Nutzer überrascht wären, wenn sie sehen würden, was intern tatsächlich vor sich geht.
    Wenn ich sehen würde, was im Kopf meiner Kollegen wirklich passiert, wäre ich wahrscheinlich auch überrascht.

    • Der Punkt dieses Artikels ist nicht, dass die „Reasoning“-Phase eines LLM nicht dasselbe ist wie menschliches Reasoning, sondern dass Anthropic die Reasoning-Ausgabe von Claude absichtlich verbirgt, um Model Distillation zu erschweren.
    • Ich habe unzählige Male beim Lesen von Chain of Thought von DeepSeek oder GLM ausgerufen: „Was zur Hölle denkt das da eigentlich?“, und am Ende kam es trotzdem zur richtigen Antwort.
      Umgekehrt gab es auch Fälle, in denen in der eigentlichen Antwort etwas fehlte, obwohl im Inneren nützliche Ideen enthalten waren.
  • Früher gab es einmal eine kurze Notiz dazu, dass DeepSeek R1 solche Gedankenspuren auf diese Weise erzeugt.
    „(Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group occurs in reaction, Practisingproduct transition vs adds this.to productmodule. Indeed"come tally said Frederick would have 10 +1 =11 carbons. So answer q Edina is11.”
    Und dann kommt es bei der Chemieaufgabe zu der „richtigen“ Antwort als Schlussfolgerung.
    Dann könnte eine Gedankenspur für den Leser also durchaus einfach eine ziemlich sinnlose Zeichenfolge sein; ob das eine Eigenart dieses Modells oder eine allgemeine Eigenschaft von LLMs ist, weiß ich noch nicht so recht.
    Ich hatte früher einmal mit dem Autor darüber gesprochen, aber weil das Paper wohl irgendwo wie bei NIPS erscheinen sollte, habe ich vergessen, der Sache später noch einmal nachzugehen; falls es jemand findet, wäre es schön, wenn es geteilt würde.
    0: https://wiki.roshangeorge.dev/w/Blog/2025-10-12/Word_Magic#I...?
    1: Vermutlich im Sinne von „wahre Überzeugung“

    • Ja, mehrere Modelle scheinen auf eine seltsame fachjargonartige Weise zu denken.
      Ein Beispiel für die Gedankenspur von Mythos beim Spielen von Solitaire gibt es hier: https://www.lesswrong.com/posts/wCSEpT3dTGz4N86Wi/even-illeg...

      „7♣-removal-IS-the-prerequisite-for-10♠/9♥!!)-⟹-OVERLAP-(ii)+(iv):-{6♠ J♦ 9♥ 2♣}-=-FOUR--—-UNLESS-7♣'s-seat-8♥-...-and-2♣-drains-only-at-crack-:-⟹-2♣-celled-+-9♥-celled-simultaneously-UNAVOIDABLE-in-t8-dig--—-BREAK:-9♥”

      Das ist eine Phase, in der das Modell aufhört, auf Englisch zu denken, und dem Neuralese ein Stück näher kommt, also dem Denken im internen Vektorraum.
      Weil es als Text serialisiert wird, ist es zwar kein echtes Neuralese, bewegt sich aber in diese Richtung.
      Auch beim Programmieren gibt es in meinem eigenen inneren Denkprozess viele Zwischenstufen, die sich nur schwer auf Englisch niederschreiben lassen, daher kann ich das bei Modellen bis zu einem gewissen Grad nachvollziehen.

    • Ist das nicht einfach Token-Rauschen aus einer kaputten Implementierung oder Modellquantisierung?
      Ich hatte schon Fälle, in denen ein Modell solchen Unsinn ausgegeben hat, und jedes Mal lag es an einem llama.cpp-Bug oder an einer kaputten .gguf.

  • Auf HN ist Anthropomorphisierung zwar tabu, aber erwähnenswert ist vielleicht, dass es auch Menschen gibt, die den Menschen post-hoc Rationalisierung zuschreiben.
    https://www.patheos.com/blogs/tippling/2013/11/14/post-hoc-r...

    https://www.researchgate.net/publication/316045349_Post_Hoc_...

    • Wenn ich es naiv verstehe, ist damit gemeint, dass wir, nachdem wir etwas getan oder gesagt haben, uns selbst eine Erzählung dazu geben, warum wir so entschieden haben.
      Man denkt erst nichtsprachlich und verbalisiert hinterher eine plausible Begründung.
      Ob das auch auf diskursives Schreiben zutrifft, weiß ich nicht genau.
      Beim Schreiben bestimmt man die Richtung der Erzählung grundsätzlich über logische Regeln, daher wirken nichtsprachliche Heuristiken wohl weiterhin, sind aber eingeschränkt, sodass es nicht völlig nachträglich ist.
  • Es ist unerquicklich, dass Anthropic die eigenen Daten so versteckt, während eure Daten vollständig abgesaugt werden und viele Leute sie bereitwillig hergeben.
    Und danach bauen sie euer Produkt, dringen in den Markt ein und konkurrieren mit euch.
    Anthropic hält die eigenen Reasoning-Token offenbar für einen Burggraben und glaubt, dass sie anderen Labs einen Vorteil verschaffen würden.
    Falls sie wirklich glauben, dass das ihr Vorsprung ist, werden sie noch eine Überraschung erleben.

    • Soweit ich weiß, sind die Produkte von Anthropic Claude, Claude Code und die Claude API, und das sind alles ganz offensichtlich eigene Produkte von Anthropic und nichts, was du erfunden hättest.
      Ich frage mich, welches Produkt genau sie angeblich „abgesaugt“ haben.
    • Vielleicht geben die Leute es nicht so sehr bereitwillig her, sondern sind eher leichtgläubig und naiv.
  • Soll das etwa heißen, dass der Inhalt von reasoning_summary tatsächlich eine Zusammenfassung ist?
    Zur Einordnung: OpenAI macht genau dasselbe, das ist also weder besonders überraschend noch besonders böse.

    • Böse nicht, aber voller Arroganz.
  • Während sie sich so anstrengen, das Denken zu verbergen, fängt Opus 4.8 nach 100.000 bis 200.000 Token an, eigene Gedankengänge durchsickern zu lassen.
    Das ist wirklich Comedy.

    • Ich habe das nur ein paar Mal erlebt, aber die Ergebnisse sind wirklich verwirrend.
      Vor allem, weil es normalerweise passiert, wenn man es aus Sicherheitsgründen jailbraked.
      Dann kommen seitenlang Sätze wie: „Der Nutzer bittet um etwas mit Bezug zu Cybersicherheit, und das könnte leicht offensiv zweckentfremdet werden, also muss ich vorsichtig sein“, und am Ende gibt es mir dann doch bereitwillig das, was ich wollte.