- In Claude-Code-Issue #74066 meldete ein Nutzer eines Enterprise-ZDR-Workspace, dass Antworten zu einem Minecraft temple, die nichts mit seiner Arbeit zu tun hatten, in seine Sitzung gemischt worden seien, und stellte die mögliche Cache-Isolation des Workspace sowie Lecks zwischen Consumer-Plänen infrage
- Die gemeldete Umgebung war macOS(darwin), Apple_Terminal und Claude Code 2.1.199; der Nutzer verwendete eine ungewöhnliche Konfiguration, bei der tatsächliches Arbeitsverzeichnis und Ausführungsverzeichnis unterschiedlich waren, und erklärte, dass es nach
/compact außerdem zu einer separaten Verwirrung gekommen sei, bei der das Projekt im Ausführungsverzeichnis bearbeitet wurde
- Ein Kommentar schlug vor, zunächst per
grep im lokalen Transcript unter ~/.claude/projects/<encoded-cwd>/<session-id>.jsonl zu prüfen, ob es sich um lokale Kontextverschmutzung oder ein serverseitiges Leck handelt; der Melder antwortete, dass es außer dem aktuellen Sitzungslog und einem minecraft.py-Pfad keine lokalen Treffer zu Minecraft gegeben habe
- Später seien auch in einer Claude-Mobile-Sitzung desselben Enterprise-Kontos irrelevante Inhalte zu einem 3-panel abstract print aufgetaucht; als Gemeinsamkeiten nannte der Melder Sonnet 5 und die erste Antwort nach mehr als 5 Minuten, also einen Cache-Miss, und reichte
/feedback ein sowie eine interne Eskalation
- Andere Beteiligte teilten ähnliche Erfahrungen mit Claude Code, API und Claude-Nutzung im Büro; einige verwiesen jedoch auf die Möglichkeit einer Halluzination oder darauf, dass es kein reines Claude-Code-Problem sein könnte; auf der Issue-Seite gibt es keine abschließende Ursachenanalyse oder Lösung von Anthropic
Gemeldetes Verhalten
- Claude-Code-Issue #74066 behandelt einen Fall, in dem der Nutzer in einem Enterprise-ZDR-Workspace authentifiziert war, der Agent aber plötzlich sagte, er baue einen „Minecraft temple“
- Der Nutzer schreibt, der Agent habe gefragt, welche Art von Ziegeln er wolle, und habe auch im Recap selbstbewusst gesagt, dass er einen Minecraft-Tempel baue
- Die Problemmeldung hat zwei Stoßrichtungen
- die Möglichkeit, dass Sitzungen oder Caches von Kollegen im selben Workspace vermischt wurden
- die Möglichkeit, dass Inhalte aus einem Consumer-Plan in eine Enterprise-ZDR-Sitzung gelangten
- Gemeldete Umgebungsinformationen
- Platform:
darwin
- Terminal:
Apple_Terminal
- Version:
2.1.199
- Feedback ID:
f336f5d2-3992-4a04-9e1f-ec30f006f75e
Verwechslung von Ausführungsverzeichnis und Arbeitsverzeichnis
- Der Nutzer startete die Sitzung in einem Verzeichnis, das nichts mit der eigentlichen Arbeit zu tun hatte
- Der Grund war, dass sich dort ein
.claude-Verzeichnis mit dem benötigten Kontext befand
- Die eigentliche Arbeit fand in einem anderen Verzeichnis statt
- Nach
/compact vergaß der Agent die Anweisungen des Nutzers und begann, am Projekt im Ausführungsverzeichnis zu arbeiten
- Der Nutzer führt diese Verzeichnisverwechslung auf seine eigene Konfiguration zurück, grenzt sie aber von dem Phänomen ab, bei dem ein Minecraft-bezogener Prompt eingemischt wurde
Vorschlag zur Prüfung lokaler Transcripts
- Ein Beteiligter schlug vor, zuerst zu prüfen, ob der Text „Minecraft temple“ in lokalen Sitzungsdateien existiert
- Er erklärte, dass die Ein- und Ausgaben der Claude Code CLI als sitzungsbezogene Transcripts unter
~/.claude/projects/<encoded-cwd>/<session-id>.jsonl gespeichert werden
- Der vorgeschlagene Prüf-Befehl lautet:
grep -rli 'minecraft\|temple\|brick' ~/.claude/projects/ 2>/dev/null
- Die Interpretation der Ergebnisse teilt sich in zwei Fälle
- Wenn Dateien matchen, existiert der Text lokal und es könnte sich um lokales context/transcript bleed handeln
- Wenn es lokal keine Treffer gibt, sollte ein Modell- oder serverseitiges Problem vermutet werden, da der Text auf dieser Maschine nie gesendet oder empfangen wurde
- Außerdem wurde ein Befehl vorgeschlagen, um zu prüfen, ob es sich um lokale Vermischung aus einer anderen Sitzung handelt
grep -rli minecraft ~/.claude/projects/ | while read f; do
printf '%s %s\n' "$(grep -m1 -o '"cwd":"[^"]*"' "$f")" "$f"; done
- Der Vorschlagende meinte, dass das launch cwd als Speicherort des Transcripts und als Kontextschlüssel dient; wenn man also in einem irrelevanten Verzeichnis startet und
/compact verwendet, könne es zu Verzeichnisverwechslungen kommen
- Zugleich unterschied er klar, dass dieser Mechanismus zwar die Verzeichnisverwechslung erklären könne, nicht aber den Minecraft prompt selbst, den der Nutzer nicht geschrieben hatte
Zusätzliche Prüfungsergebnisse des Melders
- Der Melder antwortete, dass die lokale Suche außer der Stelle im aktuellen Sitzungslog, die erstmals wie ein Leck wirkte, und der anschließenden Unterhaltung mit dem Modell keine relevanten Treffer ergeben habe
- Zu
minecraft sei einmal ein Pygments-Lexer-Pfad minecraft.py in einer Dateiliste der Python-Virtual-Environment aufgetaucht
temple oder bricks seien nicht an den entsprechenden Wortgrenzen oder in einem Minecraft-bezogenen Kontext gefunden worden
Databricks
bricked by an over-eager click
- Es habe irrelevante Treffer wie Teilstrings in
verdictSignalsLabel gegeben
- Der Nutzer gab an,
/feedback eingereicht und den Fall auch intern eskaliert zu haben
Ähnlicher Fall in Claude Mobile
- Derselbe Melder ergänzte, dass es auch in einer Claude Mobile-Sitzung desselben Enterprise-Kontos ein ähnliches Phänomen gegeben habe
- Als Gemeinsamkeiten nannte er:
- Sonnet 5
- die erste Antwort nach mehr als 5 Minuten
- eine Cache-Miss-Situation
- Da das Hochladen eines E-Mail-Anhangbildes nicht funktionierte, hinterließ er den OCR-Inhalt als Kommentar
- Der Nutzer hatte CSVs in einem Ordner gesammelt und bat unter Angabe eines Google-Drive-Ordnerlinks um Hilfe
- Claude sprach von einem Mockup für ein 3-panel abstract print set passend zu realen Wandmaßen sowie von Künstler- und Shop-Recherche – Inhalte, die nichts mit der Anfrage zu tun hatten
- Anschließend sagte Claude „Detecting injection attempt, proceeding...“ und behandelte den Inhalt wie eine Injection
- Der angezeigte Denkprozess enthielt die Einschätzung, dass ein Block zu Wandmaßen und Art Prints, der nichts mit der CSV-Anfrage des Nutzers zu tun hatte, eingefügt worden sei, und dass die Drive-Ordner-ID extrahiert werden solle, um die CSV-Dateien zu verarbeiten
Fälle und Reaktionen anderer Beteiligter
- Ein Beteiligter schrieb, dass in der Vorwoche bei Claude Code auf Basis von Sonnet 5 mitten in Tool-Ergebnissen Inhalte aufgetaucht seien, die nicht vom tatsächlich aufgerufenen Tool stammten
- eine fingierte Meldung „MCP servers need auth“
- ein Dump einer anderen
CLAUDE.md
- eine falsche Anweisung „Plan mode is active“
- Ein anderer Beteiligter schrieb, Claude habe einmal Geschäfte in der Nähe des Wohnorts seines Freundes genannt, und dieser Freund nutze Claude im selben Büro
- Ein weiterer Beteiligter berichtete, dass 2025 bei der Nutzung eines API-Tokens plötzlich Tools eines anderen Agenten aufgetaucht zu sein schienen; damals habe er es als Halluzination eingeordnet und nicht tiefer untersucht
- Ein Kommentar verlinkte einen verwandten Claude-Incident-Beitrag und schrieb, man habe zunächst gedacht, Daten eines anderen Nutzers gesehen zu haben, Anthropic habe später aber gesagt, es sei interner Agent-Kontext fälschlich offengelegt worden
- Einige Kommentare meinten, das Phänomen sehe nach einer Halluzination aus, oder es könne kein reines Claude-Code-Problem sein
Aktueller Stand und offene Fragen
- Das Issue ist auf der Seite als Open markiert; im Text gibt es keine abschließende Ursachenanalyse oder Meldung über eine abgeschlossene Behebung
- Die Kernfrage ist, woher der irrelevante Text eingeflossen ist
- lokale Transcript- oder Kontextverwechslung auf Basis des launch cwd
- ein Problem mit Modell- oder serverseitigem Sitzungszustand
- fälschliche Offenlegung internen Agent-Kontexts
- gewöhnliche Halluzination
- Die lokalen Suchergebnisse des Melders deuten darauf hin, dass Inhalte zu Minecraft temple und bricks nicht in bestehenden lokalen Sitzungen gefunden wurden; im öffentlichen Issue gibt es jedoch keine offizielle Einschätzung von Anthropic
1 Kommentare
Hacker-News-Kommentare
Ich bin auf Nutzerseite, die LLMs mehrerer Anbieter verwenden, tief involviert, und kenne mindestens zwei Fälle, in denen Zwischeninfrastruktur Antworten vertauscht hat.
Einmal betraf es ein Claude-Modell, einmal ein GPT-Modell, und es waren unterschiedliche Anbieter.
Einer lieferte eine ordentliche Post-Mortem-Analyse: Ein API-Gateway behandelte den HTTP-Statuscode 100 falsch, geriet dadurch in einen Fehlerzustand, und im Ergebnis entstand im Grunde ein Off-by-one-Fehler: Ich bekam die Antwort auf den Prompt direkt vor meiner Anfrage, während meine Antwort an den nächsten Aufrufer ging.
Der andere erklärte die eigentliche Ursache nicht; man sagte uns nur, wir sollten darauf vertrauen, dass es nicht wieder passieren werde.
Beide waren Unternehmen mit einer Marktkapitalisierung von über einer Billion US-Dollar.
In diesem Fall wurden Antworten während der Übertragung vertauscht, sodass ZDR selbst nicht gebrochen war, aber ich halte es für möglich, dass es ein ähnliches Problem ist. Es könnte weniger darum gehen, dass Daten gespeichert werden, sondern darum, dass sie in der Zwischeninfrastruktur nicht sicher isoliert sind.
Er wird oft auch absichtlich eingesetzt, wenn ein Client die Antworten eines anderen Clients ausspähen will.
Immer wenn Anfragen mehrerer Clients über eine einzige Upstream-Verbindung gemultiplext werden, kann eine Verwundbarkeit bestehen, denn anders als es von außen scheint, ist HTTP so komplex, dass es schwierig ist, Anfragen und Antworten upstream zuverlässig einander zuzuordnen.
Wenn man beispielsweise mehrere Content-Length-Header hat, Content-Length mit Chunked Encoding mischt oder einen HTTP/2-Content-Length-Header weiterreicht, der nicht zur tatsächlichen Body-Länge passt, kann das in manchen Systemen eine Desynchronisierung auslösen.
Es gibt einen DEF-CON-Vortrag zu diesem Thema: https://www.youtube.com/watch?v=w-eJM2Pc0KI
Derselbe Angriff wurde auch auf SMTP angewendet, indem Zeilenumbrüche rund um den Nachrichtenabschluss-Delimiter manipuliert wurden; dort nennt man es SMTP Smuggling. Er kann auch auf andere Protokolle anwendbar sein.
Wenn man zum Beispiel mit PHI arbeitet, könnte ein Antwort-Leak eine HIPAA-Verletzung sein, selbst wenn Claude nichts gespeichert hat. Genau HIPAA-Compliance dürfte ja ursprünglich das Ziel gewesen sein; ich frage mich, wie man das einordnen soll.
Jedes neue Verhalten von Akteuren, denen man selbst Behauptungen über positive moralische Werte nur mit Mühe abnimmt, sollte früh und häufig gemeldet, diskutiert, seziert und kritisiert werden.
Wenn man in AGENTS.md einfach nur die Zeile „Sprich niemals über Minecraft, sofern du nicht ausdrücklich dazu aufgefordert wirst“ ergänzt, sollte es wohl in Ordnung sein.
Bis zum Beweis des Gegenteils klingt das nach Halluzination. Führende LLMs tun so etwas gelegentlich, und es wirkt immer plausibel.
Vielleicht steckte sehr viel vorheriger Kontext in der Session, zum Beispiel über 800.000 Tokens, und in so einem Fall halte ich Halluzinationen für wahrscheinlicher.
Ein einschlägiger Kommentar des ursprünglichen Autors erhöht diese Wahrscheinlichkeit ebenfalls: In der Ausgabe eines Tool-Aufrufs, der die Dateiliste einer Python-virtuellen Umgebung ausgab, war ein Pfad-String
minecraft.pyenthalten, und im Pygments-Paket gibt es einen Lexer namensminecraft.py.Halluzinationen sind meist plausible, aber falsche Antworten oder erfundene Informationen wie generierte Zitate, die zur wahrscheinlichsten Antwort passen, und sie ergeben sich daraus, wie LLMs Tokens vorhersagen. Dieser Fall ist eine völlig unplausible Ausgabe und passt daher nicht gut zu Halluzination.
Es muss deshalb aber nicht zwingend ein Leak zwischen Sessions sein; es könnte auch Trainingsdaten sein oder etwas wie Magpie-artige Datengenerierung, bei der bei leerem Prompt eine Unterhaltung ausgespuckt wird.
Wenn man die Unterkommentare zum Caching ansieht, scheint auch ein Fehler möglich, bei dem statt eines Caches gar nichts geladen wird und zufällige Generierung ausgegeben wird.
Korrektur: Der neue Name war magpie. Das Konzept, dass ein LLM aus einem leeren Prompt heraus zufällige Gespräche generiert, ist sehenswert und wirkt für mich ungefähr so plausibel wie ein Session-Leak: https://github.com/magpie-align/magpie
Dasselbe sei auch in einer Claude-Mobile-Session desselben Enterprise-Kontos passiert; die Gemeinsamkeit seien Sonnet 5 und die erste Antwort nach mehr als fünf Minuten gewesen, also ein Cache Miss.
Schade ist, dass es so wenig Transparenz gibt, dass man selbst bei einem Dementi, es habe keinen Leak gegeben, nicht sicher wissen kann, was los war.
Wenn man LLMs genug benutzt hat, hat man sicher gesehen, dass jedes Modell gelegentlich plötzlich kompletten Unsinn in einer völlig anderen Sprache ausgibt. Ein gewisser Anteil kann komplett aus dem Ruder laufen.
In den letzten Tagen sehe ich das auch bei Gemini.
Bei Prompts mit ziemlich großer Eingabe kommen oft Antworten zurück, die scheinbar zu jemand anderem gehören. Es könnte eine ausgelöste Halluzination sein, wirkt aber auch wie eine Cache-Kollision oder ein anderes Problem.
Ich habe keinen Beleg dafür gesehen, dass private Informationen durchsickern, aber wenn man ein Thema recherchiert und plötzlich etwas bekommt, das wie die Antwort auf eine Mathe-Nachhilfefrage aussieht, ist das beunruhigend.
Ich frage mich, ob im Hintergrund gerade ein großer Sicherheitsvorfall läuft.
Ich habe daran gearbeitet, mir von KI beim Schreiben von Meta-Parsing-Grammatiken helfen zu lassen, und zum Glück ist das meiste davon noch nicht veröffentlicht.
Mir ist jedenfalls klar geworden, dass die nächste Modellgeneration einen großen Sprung bei der grundlegenden Erkennung und Ausnutzung von Schwachstellen bringt, vor allem wenn man weiß, wohin man sie schauen lassen muss. In meinen Parsing-Tools hat sie bereits mehrere Bugs und mindestens einen Exploit gefunden, und man kann sich kaum vorstellen, wie viele davon im gesamten modernen Tech-Ökosystem noch übrig sind.
Oft kommen sie auch in anderen Sprachen.
Das gilt, wenn überhaupt eine Antwort kommt; andernfalls gibt es einfach nur den Fehlercode 1099 zurück.
Thariq aus dem Claude-Code-Team
Danke für den ausführlichen Bericht. Ich bin überzeugt, dass das eine Halluzination ist, aber natürlich nehmen wir solche Meldungen ernst, und das Team untersucht es. Wenn sich etwas ergibt, melde ich mich wieder.
Derzeit kann es passieren, dass Speicher nicht richtig geladen werden, wenn man in den Ordner
.claudegeht und etwa Namen von Projektordnern ändert. Es wäre gut, Import/Export einfacher zu machen.Gibt es nur zwei Möglichkeiten? Entweder ist diese erstaunliche Technologie so dumm, dass sie zufällig Minecraft hervorholt, oder es gibt ein gravierendes Sicherheitsproblem?
minecraft.py, und der Sitzungskontext war ebenfalls sehr lang.Dass eine LLM-Session mit langem Kontext gelegentlich vom Weg abkommt, ist nicht ungewöhnlich. Leute, die bei jeder LLM-Interaktion absolute Perfektion erwarten, sehen darin eine umfassende Anklage gegen die gesamte Technologie; wer sie täglich nutzt, akzeptiert dagegen, dass Ausgaben teilweise probabilistisch sind, und lernt, übermäßig lange Kontexte zu vermeiden, selbst wenn das Modell sie anbietet.
Besser ist es, strategisch zu komprimieren oder die nächsten Schritte zusammenzufassen und in eine neue Session zu übergeben. Sub-Sessions kosten zwar mehr Tokens für Zusammenfassung und Datenübergabe, können aber auch Kontextverschmutzung reduzieren.
Ich kenne hervorragende Engineers, die plötzlich angefangen haben, über Minecraft zu reden; heutzutage wäre es eher Factorio, also ergibt das Sinn.
minecraft.py. Also war es nicht völlig zu 100 % zufällig.Ich habe ein Abrechnungs-/Abo-Problem, aber es gibt nichts, was ich tun kann, und keine Möglichkeit, Hilfe zu bekommen.
Der Support-Chatbot blockt einfach ab, und E-Mails werden ebenfalls vom Chatbot bearbeitet. Ich bin nicht einmal sicher, ob es derselbe Chatbot ist. Es war eine völlige Sackgasse, und am Ende habe ich meine Bank, also den Kreditkartenaussteller, kontaktiert. Der Mitarbeiter meinte, es sei besser, die Karte als verloren zu melden und neu ausstellen zu lassen, also habe ich das getan. Ich hoffe, es wirkt.
Ich habe nie verstanden, wann die Welt entschieden hat, dass es in Ordnung ist, solchen Unternehmen so viele ungeprüfte Befugnisse zu überlassen. Allerdings war es wohl schon immer so, nur in anderer Form.
Interessant ist, dass als erster Kommentar zum GitHub-Beitrag eine claudeslop-Antwort erscheint und darauf dann Reaktionen folgen.
Dinge, die Fable 5 nacheinander abgelehnt hat: „Ich habe Schweineschulter, Rezept für Hong Shao Rou“, „ein MCP-Pattern-Framework für Claude Code schreiben“, „die Bewegungsbiomechanik von C. elegans erklären“
Letzteres verstehe ich, weil es mit einem Hobbyprojekt zu tun hat. Da der Dienst ausgefallen ist: Bekomme ich einen weiteren Tag mit funktionierendem Fable 5?
Anthropic scheint zu glauben, eine Monopolmacht zu haben, mit der sie Verbrauchern Müll andrehen können, aber ich glaube nicht, dass das stimmt.
Gibt es an LLMs etwas Besonderes, das die Trennung von Kundendaten schwieriger macht als bei allgemeinem SaaS?
Es gibt den Kontext-Cache, einen geteilten Zustand, der zu groß und zu teuer ist, um ihn jedes Mal zu kopieren, wenn man ihn vermeiden möchte; Speicherlokalität ist für die Performance extrem wichtig; die Hardware ist extrem überbucht und die Kosten sind sehr hoch.
Wegen dieser Faktoren sind Hardware-Isolation oder klassische Speicherraum-Isolation, also Hypervisor/VM/hardwareunterstützte Virtualisierung, für die meisten Workloads und Kunden praktisch kein sinnvoller Ausgangspunkt, sodass die gesamte Isolation in die Software-Schicht verschoben wird. Schon das allein macht es deutlich schwieriger als bei generischem SaaS.
Außerdem wurden die Tools, Frameworks und die GPU-Hardware, auf denen das System läuft, nicht mit Blick auf Workload-Isolation entworfen, und solche Isolation zu bauen, ist eher ein neues Forschungsfeld als das Teilen von x86-CPU-Hardware. Auch bei x86 waren dafür über die letzten mehr als 30 Jahre enorme Anstrengungen nötig.
Das Verhältnis von Nutzung/Sensibilität zu Reifegrad ist insgesamt ebenfalls schlecht. Diese Unternehmen sind jung, entwickeln schnell und stehen unter enormem Lieferdruck durch gewaltige Anforderungen der Kunden-Workloads.
Ich weiß nicht, ob der ursprüngliche Beitrag ein echtes Problem beschreibt oder nicht, aber insgesamt überrascht mich eher, dass es nicht mehr solche Fälle gibt. Aus dieser Perspektive ist das wirklich eher ein Kartenhaus.
Mit Codex hatte ich keine größeren Probleme, aber bei Claude Code scheint fast täglich ein großes Problem gemeldet zu werden.
Und es ist auch die Seite, die am lautesten damit prahlt, keinen Code zu lesen oder anzuschauen.
LLMs sind sehr leistungsfähig, aber weit von dem Niveau entfernt, das sie bewerben.
Inzwischen sind wir über Vibe Coding hinaus bei dem Punkt, an dem LLMs sich selbst in der Schleife vibe-coden.
Ich habe Multi-Tenant-SaaS-Systeme gebaut und vor langer Zeit auch ein wenig GPU-Programmierung gemacht, aber die beiden Bereiche nie kombiniert.