Potenzielles Sitzungs-/Cache-Leck zwischen Workspace-Instanzen oder Verbraucherkonten

(github.com/anthropics)

1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen

In Claude-Code-Issue #74066 meldete ein Nutzer eines Enterprise-ZDR-Workspace, dass Antworten zu einem Minecraft temple, die nichts mit seiner Arbeit zu tun hatten, in seine Sitzung gemischt worden seien, und stellte die mögliche Cache-Isolation des Workspace sowie Lecks zwischen Consumer-Plänen infrage
Die gemeldete Umgebung war macOS(darwin), Apple_Terminal und Claude Code 2.1.199; der Nutzer verwendete eine ungewöhnliche Konfiguration, bei der tatsächliches Arbeitsverzeichnis und Ausführungsverzeichnis unterschiedlich waren, und erklärte, dass es nach /compact außerdem zu einer separaten Verwirrung gekommen sei, bei der das Projekt im Ausführungsverzeichnis bearbeitet wurde
Ein Kommentar schlug vor, zunächst per grep im lokalen Transcript unter ~/.claude/projects/<encoded-cwd>/<session-id>.jsonl zu prüfen, ob es sich um lokale Kontextverschmutzung oder ein serverseitiges Leck handelt; der Melder antwortete, dass es außer dem aktuellen Sitzungslog und einem minecraft.py-Pfad keine lokalen Treffer zu Minecraft gegeben habe
Später seien auch in einer Claude-Mobile-Sitzung desselben Enterprise-Kontos irrelevante Inhalte zu einem 3-panel abstract print aufgetaucht; als Gemeinsamkeiten nannte der Melder Sonnet 5 und die erste Antwort nach mehr als 5 Minuten, also einen Cache-Miss, und reichte /feedback ein sowie eine interne Eskalation
Andere Beteiligte teilten ähnliche Erfahrungen mit Claude Code, API und Claude-Nutzung im Büro; einige verwiesen jedoch auf die Möglichkeit einer Halluzination oder darauf, dass es kein reines Claude-Code-Problem sein könnte; auf der Issue-Seite gibt es keine abschließende Ursachenanalyse oder Lösung von Anthropic

Gemeldetes Verhalten

Claude-Code-Issue #74066 behandelt einen Fall, in dem der Nutzer in einem Enterprise-ZDR-Workspace authentifiziert war, der Agent aber plötzlich sagte, er baue einen „Minecraft temple“
Der Nutzer schreibt, der Agent habe gefragt, welche Art von Ziegeln er wolle, und habe auch im Recap selbstbewusst gesagt, dass er einen Minecraft-Tempel baue
Die Problemmeldung hat zwei Stoßrichtungen
- die Möglichkeit, dass Sitzungen oder Caches von Kollegen im selben Workspace vermischt wurden
- die Möglichkeit, dass Inhalte aus einem Consumer-Plan in eine Enterprise-ZDR-Sitzung gelangten
Gemeldete Umgebungsinformationen
- Platform: darwin
- Terminal: Apple_Terminal
- Version: 2.1.199
- Feedback ID: f336f5d2-3992-4a04-9e1f-ec30f006f75e

Verwechslung von Ausführungsverzeichnis und Arbeitsverzeichnis

Der Nutzer startete die Sitzung in einem Verzeichnis, das nichts mit der eigentlichen Arbeit zu tun hatte
- Der Grund war, dass sich dort ein .claude-Verzeichnis mit dem benötigten Kontext befand
- Die eigentliche Arbeit fand in einem anderen Verzeichnis statt
Nach /compact vergaß der Agent die Anweisungen des Nutzers und begann, am Projekt im Ausführungsverzeichnis zu arbeiten
Der Nutzer führt diese Verzeichnisverwechslung auf seine eigene Konfiguration zurück, grenzt sie aber von dem Phänomen ab, bei dem ein Minecraft-bezogener Prompt eingemischt wurde

Vorschlag zur Prüfung lokaler Transcripts

Ein Beteiligter schlug vor, zuerst zu prüfen, ob der Text „Minecraft temple“ in lokalen Sitzungsdateien existiert
Er erklärte, dass die Ein- und Ausgaben der Claude Code CLI als sitzungsbezogene Transcripts unter ~/.claude/projects/<encoded-cwd>/<session-id>.jsonl gespeichert werden
Der vorgeschlagene Prüf-Befehl lautet:

grep -rli 'minecraft\|temple\|brick' ~/.claude/projects/ 2>/dev/null

Die Interpretation der Ergebnisse teilt sich in zwei Fälle
- Wenn Dateien matchen, existiert der Text lokal und es könnte sich um lokales context/transcript bleed handeln
- Wenn es lokal keine Treffer gibt, sollte ein Modell- oder serverseitiges Problem vermutet werden, da der Text auf dieser Maschine nie gesendet oder empfangen wurde
Außerdem wurde ein Befehl vorgeschlagen, um zu prüfen, ob es sich um lokale Vermischung aus einer anderen Sitzung handelt

grep -rli minecraft ~/.claude/projects/ | while read f; do
  printf '%s  %s\n' "$(grep -m1 -o '"cwd":"[^"]*"' "$f")" "$f"; done

Der Vorschlagende meinte, dass das launch cwd als Speicherort des Transcripts und als Kontextschlüssel dient; wenn man also in einem irrelevanten Verzeichnis startet und /compact verwendet, könne es zu Verzeichnisverwechslungen kommen
Zugleich unterschied er klar, dass dieser Mechanismus zwar die Verzeichnisverwechslung erklären könne, nicht aber den Minecraft prompt selbst, den der Nutzer nicht geschrieben hatte

Zusätzliche Prüfungsergebnisse des Melders

Der Melder antwortete, dass die lokale Suche außer der Stelle im aktuellen Sitzungslog, die erstmals wie ein Leck wirkte, und der anschließenden Unterhaltung mit dem Modell keine relevanten Treffer ergeben habe
Zu minecraft sei einmal ein Pygments-Lexer-Pfad minecraft.py in einer Dateiliste der Python-Virtual-Environment aufgetaucht
temple oder bricks seien nicht an den entsprechenden Wortgrenzen oder in einem Minecraft-bezogenen Kontext gefunden worden
- Databricks
- bricked by an over-eager click
- Es habe irrelevante Treffer wie Teilstrings in verdictSignalsLabel gegeben
Der Nutzer gab an, /feedback eingereicht und den Fall auch intern eskaliert zu haben

Fälle und Reaktionen anderer Beteiligter

Ein Beteiligter schrieb, dass in der Vorwoche bei Claude Code auf Basis von Sonnet 5 mitten in Tool-Ergebnissen Inhalte aufgetaucht seien, die nicht vom tatsächlich aufgerufenen Tool stammten
- eine fingierte Meldung „MCP servers need auth“
- ein Dump einer anderen CLAUDE.md
- eine falsche Anweisung „Plan mode is active“
Ein anderer Beteiligter schrieb, Claude habe einmal Geschäfte in der Nähe des Wohnorts seines Freundes genannt, und dieser Freund nutze Claude im selben Büro
Ein weiterer Beteiligter berichtete, dass 2025 bei der Nutzung eines API-Tokens plötzlich Tools eines anderen Agenten aufgetaucht zu sein schienen; damals habe er es als Halluzination eingeordnet und nicht tiefer untersucht
Ein Kommentar verlinkte einen verwandten Claude-Incident-Beitrag und schrieb, man habe zunächst gedacht, Daten eines anderen Nutzers gesehen zu haben, Anthropic habe später aber gesagt, es sei interner Agent-Kontext fälschlich offengelegt worden
Einige Kommentare meinten, das Phänomen sehe nach einer Halluzination aus, oder es könne kein reines Claude-Code-Problem sein

Aktueller Stand und offene Fragen

Das Issue ist auf der Seite als Open markiert; im Text gibt es keine abschließende Ursachenanalyse oder Meldung über eine abgeschlossene Behebung
Die Kernfrage ist, woher der irrelevante Text eingeflossen ist
- lokale Transcript- oder Kontextverwechslung auf Basis des launch cwd
- ein Problem mit Modell- oder serverseitigem Sitzungszustand
- fälschliche Offenlegung internen Agent-Kontexts
- gewöhnliche Halluzination
Die lokalen Suchergebnisse des Melders deuten darauf hin, dass Inhalte zu Minecraft temple und bricks nicht in bestehenden lokalen Sitzungen gefunden wurden; im öffentlichen Issue gibt es jedoch keine offizielle Einschätzung von Anthropic

1 Kommentare

GN⁺ 4 시간 전

Hacker-News-Kommentare

Ich bin auf Nutzerseite, die LLMs mehrerer Anbieter verwenden, tief involviert, und kenne mindestens zwei Fälle, in denen Zwischeninfrastruktur Antworten vertauscht hat.
Einmal betraf es ein Claude-Modell, einmal ein GPT-Modell, und es waren unterschiedliche Anbieter.
Einer lieferte eine ordentliche Post-Mortem-Analyse: Ein API-Gateway behandelte den HTTP-Statuscode 100 falsch, geriet dadurch in einen Fehlerzustand, und im Ergebnis entstand im Grunde ein Off-by-one-Fehler: Ich bekam die Antwort auf den Prompt direkt vor meiner Anfrage, während meine Antwort an den nächsten Aufrufer ging.
Der andere erklärte die eigentliche Ursache nicht; man sagte uns nur, wir sollten darauf vertrauen, dass es nicht wieder passieren werde.
Beide waren Unternehmen mit einer Marktkapitalisierung von über einer Billion US-Dollar.
In diesem Fall wurden Antworten während der Übertragung vertauscht, sodass ZDR selbst nicht gebrochen war, aber ich halte es für möglich, dass es ein ähnliches Problem ist. Es könnte weniger darum gehen, dass Daten gespeichert werden, sondern darum, dass sie in der Zwischeninfrastruktur nicht sicher isoliert sind.
- Dieser Angriff wird HTTP-Desynchronisierung (HTTP desync) oder Request Smuggling genannt.
  Er wird oft auch absichtlich eingesetzt, wenn ein Client die Antworten eines anderen Clients ausspähen will.
  Immer wenn Anfragen mehrerer Clients über eine einzige Upstream-Verbindung gemultiplext werden, kann eine Verwundbarkeit bestehen, denn anders als es von außen scheint, ist HTTP so komplex, dass es schwierig ist, Anfragen und Antworten upstream zuverlässig einander zuzuordnen.
  Wenn man beispielsweise mehrere Content-Length-Header hat, Content-Length mit Chunked Encoding mischt oder einen HTTP/2-Content-Length-Header weiterreicht, der nicht zur tatsächlichen Body-Länge passt, kann das in manchen Systemen eine Desynchronisierung auslösen.
  Es gibt einen DEF-CON-Vortrag zu diesem Thema: https://www.youtube.com/watch?v=w-eJM2Pc0KI
  Derselbe Angriff wurde auch auf SMTP angewendet, indem Zeilenumbrüche rund um den Nachrichtenabschluss-Delimiter manipuliert wurden; dort nennt man es SMTP Smuggling. Er kann auch auf andere Protokolle anwendbar sein.
- Klingt plausibel, aber dann könnten Antworten das Unternehmensnetz verlassen; wäre das nicht ein impliziter Verstoß gegen ZDR?
  Wenn man zum Beispiel mit PHI arbeitet, könnte ein Antwort-Leak eine HIPAA-Verletzung sein, selbst wenn Claude nichts gespeichert hat. Genau HIPAA-Compliance dürfte ja ursprünglich das Ziel gewesen sein; ich frage mich, wie man das einordnen soll.
- Es ist nicht klar, warum dafür ein Throwaway-Account verwendet wird.
  Jedes neue Verhalten von Akteuren, denen man selbst Behauptungen über positive moralische Werte nur mit Mühe abnimmt, sollte früh und häufig gemeldet, diskutiert, seziert und kritisiert werden.
Wenn man in AGENTS.md einfach nur die Zeile „Sprich niemals über Minecraft, sofern du nicht ausdrücklich dazu aufgefordert wirst“ ergänzt, sollte es wohl in Ordnung sein.
- Anthropic ist zu exklusiv und eine Ebene darüber, um ein standardisiertes idiomatisches Muster wie AGENTS.md zu verwenden; es muss CLAUDE.md sein.
Bis zum Beweis des Gegenteils klingt das nach Halluzination. Führende LLMs tun so etwas gelegentlich, und es wirkt immer plausibel.
Vielleicht steckte sehr viel vorheriger Kontext in der Session, zum Beispiel über 800.000 Tokens, und in so einem Fall halte ich Halluzinationen für wahrscheinlicher.
Ein einschlägiger Kommentar des ursprünglichen Autors erhöht diese Wahrscheinlichkeit ebenfalls: In der Ausgabe eines Tool-Aufrufs, der die Dateiliste einer Python-virtuellen Umgebung ausgab, war ein Pfad-String minecraft.py enthalten, und im Pygments-Paket gibt es einen Lexer namens minecraft.py.
- Ich weiß, dass es keine exakte Definition von Halluzination gibt, aber das klingt für mich überhaupt nicht nach dem, was man normalerweise so nennt.
  Halluzinationen sind meist plausible, aber falsche Antworten oder erfundene Informationen wie generierte Zitate, die zur wahrscheinlichsten Antwort passen, und sie ergeben sich daraus, wie LLMs Tokens vorhersagen. Dieser Fall ist eine völlig unplausible Ausgabe und passt daher nicht gut zu Halluzination.
  Es muss deshalb aber nicht zwingend ein Leak zwischen Sessions sein; es könnte auch Trainingsdaten sein oder etwas wie Magpie-artige Datengenerierung, bei der bei leerem Prompt eine Unterhaltung ausgespuckt wird.
  Wenn man die Unterkommentare zum Caching ansieht, scheint auch ein Fehler möglich, bei dem statt eines Caches gar nichts geladen wird und zufällige Generierung ausgegeben wird.
  Korrektur: Der neue Name war magpie. Das Konzept, dass ein LLM aus einem leeren Prompt heraus zufällige Gespräche generiert, ist sehenswert und wirkt für mich ungefähr so plausibel wie ein Session-Leak: https://github.com/magpie-align/magpie
- Der Autor behauptet weiter unten im Thread, es in einem separaten Kontext reproduziert zu haben.
  Dasselbe sei auch in einer Claude-Mobile-Session desselben Enterprise-Kontos passiert; die Gemeinsamkeit seien Sonnet 5 und die erste Antwort nach mehr als fünf Minuten gewesen, also ein Cache Miss.
- Ich widerspreche nicht, aber so etwas muss in jedem Fall untersucht werden.
  Schade ist, dass es so wenig Transparenz gibt, dass man selbst bei einem Dementi, es habe keinen Leak gegeben, nicht sicher wissen kann, was los war.
- Ich frage mich, warum das die Wahrscheinlichkeit erhöhen soll.
- Stimmt.
  Wenn man LLMs genug benutzt hat, hat man sicher gesehen, dass jedes Modell gelegentlich plötzlich kompletten Unsinn in einer völlig anderen Sprache ausgibt. Ein gewisser Anteil kann komplett aus dem Ruder laufen.
In den letzten Tagen sehe ich das auch bei Gemini.
Bei Prompts mit ziemlich großer Eingabe kommen oft Antworten zurück, die scheinbar zu jemand anderem gehören. Es könnte eine ausgelöste Halluzination sein, wirkt aber auch wie eine Cache-Kollision oder ein anderes Problem.
Ich habe keinen Beleg dafür gesehen, dass private Informationen durchsickern, aber wenn man ein Thema recherchiert und plötzlich etwas bekommt, das wie die Antwort auf eine Mathe-Nachhilfefrage aussieht, ist das beunruhigend.
- In den letzten Wochen gab es auch bei Gemini über die UI Probleme. Dass du einige Tage später in einem anderen Kontext dasselbe siehst, ist besorgniserregend.
  Ich frage mich, ob im Hintergrund gerade ein großer Sicherheitsvorfall läuft.
  Ich habe daran gearbeitet, mir von KI beim Schreiben von Meta-Parsing-Grammatiken helfen zu lassen, und zum Glück ist das meiste davon noch nicht veröffentlicht.
  Mir ist jedenfalls klar geworden, dass die nächste Modellgeneration einen großen Sprung bei der grundlegenden Erkennung und Ausnutzung von Schwachstellen bringt, vor allem wenn man weiß, wohin man sie schauen lassen muss. In meinen Parsing-Tools hat sie bereits mehrere Bugs und mindestens einen Exploit gefunden, und man kann sich kaum vorstellen, wie viele davon im gesamten modernen Tech-Ökosystem noch übrig sind.
- Unser ganzes Unternehmen führt gerade eine Zwischenbewertung durch, und weil Gemini das einzige erlaubte Tool ist, sind die Leute wegen zufälliger, scheinbar irrelevanter Antworten verwirrt.
  Oft kommen sie auch in anderen Sprachen.
  Das gilt, wenn überhaupt eine Antwort kommt; andernfalls gibt es einfach nur den Fehlercode 1099 zurück.
Thariq aus dem Claude-Code-Team
Danke für den ausführlichen Bericht. Ich bin überzeugt, dass das eine Halluzination ist, aber natürlich nehmen wir solche Meldungen ernst, und das Team untersucht es. Wenn sich etwas ergibt, melde ich mich wieder.
- Danke für euren Einsatz trotz Wochenende. Aus Nutzersicht wäre mein Vorschlag, die Speicherverwaltung von Claude Code einfacher zu machen.
  Derzeit kann es passieren, dass Speicher nicht richtig geladen werden, wenn man in den Ordner .claude geht und etwa Namen von Projektordnern ändert. Es wäre gut, Import/Export einfacher zu machen.
Gibt es nur zwei Möglichkeiten? Entweder ist diese erstaunliche Technologie so dumm, dass sie zufällig Minecraft hervorholt, oder es gibt ein gravierendes Sicherheitsproblem?
- In seinem Kontext gab es eine minecraft.py, und der Sitzungskontext war ebenfalls sehr lang.
  Dass eine LLM-Session mit langem Kontext gelegentlich vom Weg abkommt, ist nicht ungewöhnlich. Leute, die bei jeder LLM-Interaktion absolute Perfektion erwarten, sehen darin eine umfassende Anklage gegen die gesamte Technologie; wer sie täglich nutzt, akzeptiert dagegen, dass Ausgaben teilweise probabilistisch sind, und lernt, übermäßig lange Kontexte zu vermeiden, selbst wenn das Modell sie anbietet.
  Besser ist es, strategisch zu komprimieren oder die nächsten Schritte zusammenzufassen und in eine neue Session zu übergeben. Sub-Sessions kosten zwar mehr Tokens für Zusammenfassung und Datenübergabe, können aber auch Kontextverschmutzung reduzieren.
- Es ist Wochenende, also dürfen wir anthropomorphisieren.
  Ich kenne hervorragende Engineers, die plötzlich angefangen haben, über Minecraft zu reden; heutzutage wäre es eher Factorio, also ergibt das Sinn.
- Der ursprüngliche Autor hatte tatsächlich eine Datei minecraft.py. Also war es nicht völlig zu 100 % zufällig.
Ich habe ein Abrechnungs-/Abo-Problem, aber es gibt nichts, was ich tun kann, und keine Möglichkeit, Hilfe zu bekommen.
Der Support-Chatbot blockt einfach ab, und E-Mails werden ebenfalls vom Chatbot bearbeitet. Ich bin nicht einmal sicher, ob es derselbe Chatbot ist. Es war eine völlige Sackgasse, und am Ende habe ich meine Bank, also den Kreditkartenaussteller, kontaktiert. Der Mitarbeiter meinte, es sei besser, die Karte als verloren zu melden und neu ausstellen zu lassen, also habe ich das getan. Ich hoffe, es wirkt.
Ich habe nie verstanden, wann die Welt entschieden hat, dass es in Ordnung ist, solchen Unternehmen so viele ungeprüfte Befugnisse zu überlassen. Allerdings war es wohl schon immer so, nur in anderer Form.
Interessant ist, dass als erster Kommentar zum GitHub-Beitrag eine claudeslop-Antwort erscheint und darauf dann Reaktionen folgen.
Dinge, die Fable 5 nacheinander abgelehnt hat: „Ich habe Schweineschulter, Rezept für Hong Shao Rou“, „ein MCP-Pattern-Framework für Claude Code schreiben“, „die Bewegungsbiomechanik von C. elegans erklären“
Letzteres verstehe ich, weil es mit einem Hobbyprojekt zu tun hat. Da der Dienst ausgefallen ist: Bekomme ich einen weiteren Tag mit funktionierendem Fable 5?
- Ich weiß nicht, wie das zusammenhängt, aber normalerweise wäre jemand gefeuert worden, wenn er einen so schlechten Classifier gebaut hätte.
  Anthropic scheint zu glauben, eine Monopolmacht zu haben, mit der sie Verbrauchern Müll andrehen können, aber ich glaube nicht, dass das stimmt.
- Ich verstehe nicht, was das damit zu tun hat. Mit wem sprichst du? Das hier ist Hacker News, nicht der Anthropic-Support.
- Beeindruckend, dass Leute dieses Frontier-Modell zum Kochen verwenden.
- Ich frage mich, ob der Safety-Filter abgelehnt hat oder ob das Modell ausgefallen war.
- Ich habe gefragt, wie die Vererbung blauer Augen von den Eltern funktioniert, und wegen eines Sicherheitsproblems wurde ich auf Opus heruntergestuft.
Gibt es an LLMs etwas Besonderes, das die Trennung von Kundendaten schwieriger macht als bei allgemeinem SaaS?
- Ja.
  Es gibt den Kontext-Cache, einen geteilten Zustand, der zu groß und zu teuer ist, um ihn jedes Mal zu kopieren, wenn man ihn vermeiden möchte; Speicherlokalität ist für die Performance extrem wichtig; die Hardware ist extrem überbucht und die Kosten sind sehr hoch.
  Wegen dieser Faktoren sind Hardware-Isolation oder klassische Speicherraum-Isolation, also Hypervisor/VM/hardwareunterstützte Virtualisierung, für die meisten Workloads und Kunden praktisch kein sinnvoller Ausgangspunkt, sodass die gesamte Isolation in die Software-Schicht verschoben wird. Schon das allein macht es deutlich schwieriger als bei generischem SaaS.
  Außerdem wurden die Tools, Frameworks und die GPU-Hardware, auf denen das System läuft, nicht mit Blick auf Workload-Isolation entworfen, und solche Isolation zu bauen, ist eher ein neues Forschungsfeld als das Teilen von x86-CPU-Hardware. Auch bei x86 waren dafür über die letzten mehr als 30 Jahre enorme Anstrengungen nötig.
  Das Verhältnis von Nutzung/Sensibilität zu Reifegrad ist insgesamt ebenfalls schlecht. Diese Unternehmen sind jung, entwickeln schnell und stehen unter enormem Lieferdruck durch gewaltige Anforderungen der Kunden-Workloads.
  Ich weiß nicht, ob der ursprüngliche Beitrag ein echtes Problem beschreibt oder nicht, aber insgesamt überrascht mich eher, dass es nicht mehr solche Fälle gibt. Aus dieser Perspektive ist das wirklich eher ein Kartenhaus.
- Es wirkt, als hätten sie die Implementierung vibe-gecodet.
  Mit Codex hatte ich keine größeren Probleme, aber bei Claude Code scheint fast täglich ein großes Problem gemeldet zu werden.
  Und es ist auch die Seite, die am lautesten damit prahlt, keinen Code zu lesen oder anzuschauen.
  LLMs sind sehr leistungsfähig, aber weit von dem Niveau entfernt, das sie bewerben.
  Inzwischen sind wir über Vibe Coding hinaus bei dem Punkt, an dem LLMs sich selbst in der Schleife vibe-coden.
- Meine Vermutung: Auf GPUs irgendetwas multi-tenant zu betreiben, ist wegen fehlender Memory-Safety-Tools wahrscheinlich schwieriger als bei den meisten SaaS-Systemen.
  Ich habe Multi-Tenant-SaaS-Systeme gebaut und vor langer Zeit auch ein wenig GPU-Programmierung gemacht, aber die beiden Bereiche nie kombiniert.
- Wenn man den Prefix-Cache (KV-Cache) nicht zwischen Kunden teilt, wäre die Recheneffizienz furchtbar schlecht.

Potenzielles Sitzungs-/Cache-Leck zwischen Workspace-Instanzen oder Verbraucherkonten

Gemeldetes Verhalten

Verwechslung von Ausführungsverzeichnis und Arbeitsverzeichnis

Vorschlag zur Prüfung lokaler Transcripts

Zusätzliche Prüfungsergebnisse des Melders

Ähnlicher Fall in Claude Mobile

Fälle und Reaktionen anderer Beteiligter

Aktueller Stand und offene Fragen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare