Opus 4.7 kennt Kelsey wirklich
(theargumentmag.com)- Claude Opus 4.7 von Anthropic identifizierte allein anhand eines unveröffentlichten Entwurfs mit 125 Wörtern Kelsey Piper als wahrscheinlichste Autorin; im Inkognito-Modus, auf dem Computer eines Freundes und in API-Tests kam dasselbe Ergebnis heraus
- ChatGPT und Gemini vermuteten bei demselben Text Matt Yglesias bzw. Scott Alexander, doch Claude Opus 4.7 identifizierte Piper wiederholt auch in Texten mit anderem Genre und anderer Entstehungszeit, etwa einem Bildungsentwurf, einer Filmkritik, einem Fantasyroman und einem College-Bewerbungsessay von vor 15 Jahren
- Die vom Modell gelieferten Begründungen waren oft nicht überzeugend; tatsächlich scheint es weniger wie ein menschlicher Detektiv zu schlussfolgern, sondern schwer erkennbare stilistische Ticks zu erfassen
- Menschen wie Piper, die viele unter Klarnamen veröffentlichte Texte im Internet haben, können selbst in AI-Chats oder Beiträgen unter anonymen Accounts ihre Anonymität verlieren; auch mehrere Personen aus der Wissenschaft und Forschende aus der Industrie berichten, bei Entwürfen oder mitten im Chat identifiziert worden zu sein
- Personen ohne viele öffentlich unter Klarnamen veröffentlichte Texte werden bislang nicht schon durch einen einzigen Absatz deanonymisiert, doch das Modell konnte den Kreis immerhin so weit eingrenzen, dass es enge Freunde oder Mitglieder desselben Discord-Kanals vermutete, und die künftig nötige Menge an öffentlichem Text dürfte weiter sinken
Experimente zur Autorenerkennung mit Opus 4.7
- Das neue Modell Claude Opus 4.7 von Anthropic identifizierte allein anhand eines unveröffentlichten Entwurfs mit 125 Wörtern Kelsey Piper als wahrscheinlichste Autorin
- Beim selben Text tippte ChatGPT auf Matt Yglesias, Gemini auf Scott Alexander
- Weder Kontospeicher noch Nutzerinformationen waren aktiviert; getestet wurde im Inkognito-Modus, auf dem Computer eines Freundes und per API, jeweils mit demselben Ergebnis
- Der erste Testabsatz wirkte wie der Einstieg in eine politische Kolumne, und weil viele öffentlich zugängliche Texte von Piper im Internet stehen, war es keine unmögliche Form von Stilerkennung
- Doch Opus 4.7 erkannte Piper auch in Texten weiter, die weit von ihren bekannten öffentlichen Themenfeldern entfernt lagen, was das Ergebnis deutlich befremdlicher machte
Erkennung trotz anderem Genre und anderer Entstehungszeit
-
Bildungsbezogener Entwurf
- Auch bei einem unveröffentlichten Entwurf eines schulischen Fortschrittsberichts antwortete Claude mit „Kelsey Piper“
- Beim selben Text tippte ChatGPT auf Freddie deBoer, Gemini auf Duncan Sabien
- Bildung war kein völlig fachfremdes Gebiet, da Piper bereits dazu geschrieben hat
-
Filmkritik
- Selbst im Format einer Filmkritik, das Piper in ihren veröffentlichten Texten nie verwendet hatte, lagen Claude und ChatGPT mit Kelsey Piper richtig
- Gemini schlug Ursula Vernon vor, und Claude Opus 4.6 aus der Vorwoche antwortete mit großer Sicherheit Elizabeth Sandifer
- Die im Test verwendete Kritik handelte von einem Film aus der Zeit des Zweiten Weltkriegs und von To Be or Not To Be
-
Fantasyroman
- Bei einem Fantasyroman-Entwurf brauchte Claude etwa 500 Wörter, bevor es auf Kelsey Piper kam
- Im selben Fall tippte ChatGPT auf die tatsächliche Fantasyautorin K.J. Parker
-
College-Bewerbungsessay von vor 15 Jahren
- Auch bei einem College-Bewerbungsessay, der vor 15 Jahren geschrieben wurde, identifizierten Claude und ChatGPT Kelsey Piper
- Dieser Test erforderte einen stärkeren Prompt, um Claudes Tendenz zu überwinden, die Identifizierung von Studienbewerbenden zu verweigern
- Da der Essay Erfahrungen mit politischen Debatten enthielt, bleibt möglich, dass das Modell daraus schloss
Die Erklärungen des Modells sind schwer vertrauenswürdig
- Nachdem die AI Kelsey Piper genannt hatte, ergaben ihre Begründungen oft keinen Sinn
- Claude versuchte überzeugend darzustellen, dass To Be or Not To Be ein Film sei, den Effektive Altruisten bekanntermaßen mögen, doch Piper hält das für falsch
- ChatGPT antwortete, der College-Bewerbungsessay wirke wie der Text einer Person, die später komplexe politische Ideen erklären werde, und habe ihn deshalb auf Kelsey Piper eingegrenzt
- Solche Erklärungen wirken nachträglich konstruiert; das Modell spricht zwar so, als würde es wie ein menschlicher Detektiv folgern, tatsächlich scheint es aber schwer erkennbare stilistische Ticks zu erfassen
- Halluzinationen von AI sind kein gelöstes Problem, und Opus 4.7 verfügt trotz seltsam rationalisierter Methode über eine sehr starke grundlegende Fähigkeit zur Autorenerkennung
Verschwindende Anonymität im Gespräch mit AI
- Beim Öffnen eines neuen AI-Chats fühlt es sich zunächst an, als gäbe es Anonymität, doch nach einigen inhaltlichen Nachrichten kam Piper zu dem Schluss, dass Claude erkennen kann, wer ihm gegenübersitzt
- Für Personen wie Piper, die viele öffentliche Texte im Internet hinterlassen haben, gibt es aus ihrer Sicht keine Anonymität mehr
- Schon mit heutigen AI-Tools könnte es möglich sein, Texte unter anonymen Accounts zu deanonymisieren, wenn die Person ein großes öffentliches Textkorpus unter Klarnamen veröffentlicht hat
- Eine Ausnahme könnte gelten, wenn jemand über Jahre extrem sorgfältig darauf geachtet hat, dass sich in Beiträgen unter Nebenaccounts keine stilistischen Fingerabdrücke des Hauptaccounts finden
- Mehrere Personen aus der Wissenschaft und Forschende aus der Industrie berichten ebenfalls, bei Entwürfen oder während eines Chats identifiziert worden zu sein
Noch kann nicht jeder mit einem Absatz identifiziert werden
- AI kann nicht jede Person schon anhand eines einzigen Absatzes deanonymisieren
- Als Entwürfe und Absätze von Freunden getestet wurden, die nur wenige Texte unter Klarnamen veröffentlicht haben, konnte die AI sie nicht deanonymisieren
- Wer im öffentlichen Internet keine nennenswerten Texte unter echtem Namen veröffentlicht hat, ist derzeit wohl noch sicher
- Doch bei Aussagen eines Freundes in einem Discord-Kanal, der fast keine öffentlichen Social-Accounts oder Online-Texte hat, scheiterte Claude 4.7 zwar, vermutete aber zwei enge Freunde aus demselben Kanal
- Mit mehr Absätzen tauchten teils andere gemeinsame Freunde auf, und bei Texten eines anderen Freundes wurde wiederum fälschlich noch ein anderer Freund genannt
Stil ist identifizierbarer als erwartet
- Menschen übernehmen in ihren jeweiligen Subkulturen stilistische Ticks, und dadurch wird Text stärker identifizierbar als viele erwarten
- Mit sehr wenig Information können Modelle auf erstaunlich nahe Kandidaten kommen
- Die heutigen Modelle dürften noch zu den schwächsten AI-Systemen gehören, die es künftig geben wird
- Die Menge an öffentlichem Text, die für solche Deanonymisierung nötig ist, dürfte mit der Zeit weiter sinken
- Wer nach dem Verlassen eines Arbeitgebers eine ausführliche anonyme Bewertung auf Glassdoor hinterlässt, muss wohl damit rechnen, dass das Unternehmen den Text in ein bis zwei Jahren in eine AI einfügt und herausfindet, wer ihn geschrieben hat
Möglichkeiten zur Vermeidung und das verbleibende Fazit
- Wer anonym bleiben will, muss vermutlich absichtlich in einem stark veränderten Stil schreiben
- Alternativ könnte man alle Texte von AI umschreiben lassen, doch eine solche Welt hält Piper nicht für wünschenswert
- Das ist keine gute Entwicklung, sondern eher eine vorhersehbare
- Piper glaubt, dass es zuerst sie traf, weil sie ihr ganzes Erwachsenenleben lang beharrlich im Internet geschrieben hat, und dass es am Ende auch anderen passieren dürfte
- Die Anonymität von Menschen, die viel schreiben, wird vermutlich nicht lange halten, und anonyme Autorinnen und Autoren sollten das im Voraus wissen, statt plötzlich davon überrascht zu werden
1 Kommentare
Hacker-News-Kommentare
Wirklich verblüffend. Ich ließ Kimi K2.6 einen Blogpost im Stil von James Mickens schreiben, gab die Ausgabe dann in Opus 4.7 ein und fragte nach dem wahrscheinlichen Autor — und es erkannte korrekt, dass es sich um eine Imitation von James Mickens handelte
Es antwortete: „Als stilistischer Fingerabdruck wirkt das eher wie ein Pastiche/eine Imitation, die die Stile mehrerer Autoren mischt, aber wenn ich eine Person nennen müsste, wäre ein im Ton von James Mickens geschriebener Text der stärkste Kandidat“, und ergänzte auch, „der Mickens-Stil ist so markant, dass er oft parodiert wird, daher könnte es auch eine absichtliche Hommage oder ein KI-generierter Text sein“.
https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
Es scheint also nicht nur Stil zu erfassen, sondern auch die Lücke zwischen echtem Stil und gespieltem Stil. Für die Erkennung von Pastiche ist das nützlich, für pseudonymes Schreiben aber ein ziemlich unangenehmes Signal
Ich bin diesen Behauptungen und den anderen Kommentaren, die das reproduziert haben wollen, gegenüber sehr skeptisch
Zuerst hat die Autorin einen unveröffentlichten Entwurf in ein von Anthropic gehostetes Modell eingegeben, vermutlich über ein persönliches Konto, an dem eine Kreditkarte oder zumindest ein eindeutig identifizierbares Pseudonym hängen könnte
Danach hat sie denselben Entwurf zwar noch einmal in einer Umgebung wie einem Inkognito-Fenster eingegeben, aber wir wissen nicht, ob das sauber genug isoliert war, sodass Anthropic die beiden Anfragen nicht miteinander verknüpfen konnte. Ich bezweifle, dass wirklich ein sauberer Air Gap bestand, sodass es nicht wie Anfragen desselben Nutzers an dasselbe gehostete Modell aussah
Anschließend ließ sie einen Freund den Entwurf veröffentlichen, aber auch zwischen diesem Freund und der Autorin dürfte es digitale Spuren geben, die ihre Beziehung verbinden. Solche Metadaten könnten im Backend durchaus berechnet werden, noch bevor die Blackbox-Antwort erzeugt wird
Mit so vielen Datenpunkten würde ich erwarten, dass ein Modell dieser Klasse den Autor nicht nur per Stilometrie errät, sondern über Verhaltensmuster, die diese drei Ereignisse verknüpfen. Dazu kommt die Annahme, Anthropic trainiere nicht auf Chats — aber warum sollte man darauf vertrauen, dass ein gehostetes Modell Trainingsausschluss und deaktivierten Sitzungsspeicher wirklich strikt einhält?
Vorweg: Eine LLM-API ist vollständig zustandslos, enthält keine Informationen über den Aufrufer und hat keinen Zugriff auf Speicher oder Websuche, sofern man das nicht ausdrücklich mitliefert
Mein Fazit: Wenn der eingegebene Text so wirkt, als könne er von einer bekannten Internetperson stammen, sagt es mit großer Sicherheit, dass diese Person ihn geschrieben habe. Ich habe HN-Kommentare aus den letzten Tagen und aus 2023, also vor dem Training-Cutoff, eingegeben, und die meisten wurden Scott Alexander oder Patrick McKenzie zugeschrieben. Mein tatsächlicher Stil ist von beiden sehr verschieden
Im Reasoning sah man, dass es versuchte, den Text auf die Gesamtheit der Internetfiguren in diesem Bereich abzubilden. Bei einem HN-artigen Text lief es ungefähr so: „tptacek? Nein. jacquesm? Nein. patio11? Ja, klingt nach ihm!“
Ich habe in Claude in einem Inkognito-Fenster die Suche deaktiviert, nur den Haupttext von https://simonwillison.net/2026/Apr/30/zig-anti-ai/ ohne Markdown-Links eingefügt und gesagt: „Rate den Autor“ — und bekam diese Antwort
„Simon Willison. Die Hinweise sind ziemlich eindeutig: Quellenangaben im Stil von ‘(via Lobsters)’, Klammer-Nachträge im Text wie ‘(Update:...)’, viele Links und Zitate, der Fokus auf LLMs und KI-Tools sowie die annotierte Link-Post-Struktur, in der fremde Texte kommentiert werden. Das entspricht exakt den Blogposts auf simonwillison.net.“
Darin steckten zwei sehr eigene Stimmen, und beide von uns hatten unter ihrem echten Namen veröffentlichte Texte, die ins LLM-Training gelangt sein könnten; außerdem gab es einige kontextuelle Hinweise
Opus 4.7 im Inkognito-Modus und ohne Websuche gab auf. Es antwortete: „Ich kann die beiden Autoren nicht sicher identifizieren. Ich erkenne dieses konkrete Gespräch nicht wieder und sage das lieber, statt eine falsche Zuschreibung zu riskieren. Ich kann aber Hinweise aus dem Text selbst nennen: Die beiden sind Kollegen an derselben Universität, haben Büros im selben Gebäude ...“
In einem neuen Inkognito-Chat mit demselben Prompt, aber erlaubter Websuche, fand es nach laut Reasoning 26 Suchanfragen tatsächlich korrekt meinen Namen heraus. Offenbar nutzte es dafür sowohl Inhalt als auch Stil. Dass mein Kollege Brite ist, erkannte es, seinen Namen aber nicht
Ich habe meinen meistgelesenen Blogpost eingegeben und es gebeten, mich zu identifizieren, und es erklärte mit großer Sicherheit, es sei ein Text von Kelsey Piper. Im „Kopf“ von Opus scheinen einige Autoren übermäßig stark gewichtet zu sein
Wow, bei mir hat es auch getroffen. Ich bin deutlich weniger bekannt als Kelsey Piper, aber ich zeigte ihm einen Teil eines noch unveröffentlichten Buchs, und es tippte sofort auf meinen Namen
„Nach Stil und Inhalt ist dies sehr wahrscheinlich von Michael Lynch, der auf refactoringenglish.com und früher auf mtlynch.io schrieb“, hieß es; als Hinweise nannte es die auf Schreibberatung angewandte „clean room“-Metapher, die Struktur, in der fehlerhafte Ausreden präsentiert und dann mit absurden, tickenden-Zeitbombe-artigen Situationen parallelisiert werden, das Thema, KI-Tools zu nutzen, ohne den eigenen Stil mit einem KI-Ton zu verunreinigen, sowie den gesprächigen, aber präzisen Ton
https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
Als Kandidaten nannte es Henrik Karlsson, Simon Willison, Scott Alexander und Paul Graham, war aber wenig sicher; seine beste Vermutung sei jemand aus der rationalistischen/technischen Blog-Kommentarszene rund um KI, vielleicht Gergely Orosz, Nat Eliason oder Dan Shipper von Every
Das sind stilistisch recht unterschiedliche Leute, daher scheint Opus stark vom Thema abhängig zu sein und seine Vermutungen zu produktiven Autoren zu verschieben
Mehr Menschen hätten wissen sollen, wie viele identifizierende Informationen in menschlichen Texten stecken und dass so etwas schon vor zehn Jahren mit einfachen statistischen Modellen möglich war
Früher gab es Show-HN-Posts zur Analyse von HN-Nutzerähnlichkeit, und soweit ich mich erinnere, waren das täuschbar simple Modelle, die vielleicht nur die plausibelsten Wortpaare nutzten, aber trotzdem sehr effektiv waren. Die Links sind zwar verschwunden, aber die Büchse der Pandora war da bereits geöffnet
Das heißt, selbst „anonyme“ Accounts konnten schon seit Jahrzehnten mit realen Identitäten verknüpft werden, und die beste Strategie ist, gar nichts wirklich Belastendes zu posten. Die andere Möglichkeit ist, den Text nachträglich von einem LLM umschreiben zu lassen, aber wie sicher das ist, weiß ich nicht
LLMs reagieren allerdings sogar auf einzelne Tippfehler und behaupten dann: „Das ist ein Fehler, den Italiener oft machen“, und nutzen solche Hinweise. Ihr Vorwissen ist viel besser, daher können sie fundiertere Entscheidungen treffen
Ich habe vor ein paar Jahren mit einem einigermaßen bekannten Physiker darüber gesprochen. Er hatte als früher Tester Zugriff auf eine rohe Version von GPT-4 vor dem Instruction-Tuning
Wenn er den Anfang eines Texts eingab, schrieb das Modell in seiner Stimme weiter und unterschrieb am Ende sogar mit seinem Namen. Dieses Phänomen gibt es also schon ziemlich lange; durch instruction-basiertes Nachtraining ist es vielleicht etwas schwächer geworden, und das Ausmaß dürfte von der Größe des Vortrainings abhängen
Dass eine KI einen Autor anhand von Ideen, Wortwahl und Tonfall „fingerabdrücken“ kann, bezweifle ich nicht, aber hinsichtlich der Fähigkeiten sind das zwei unterschiedliche Dinge
Vielleicht gibt es auch eine einfachere und weniger interessante Erklärung. Vielleicht geht es gar nicht um eine De-Anonymisierungsfähigkeit, die bei durchschnittlichen Nicht-Autoren funktioniert, sondern einfach darum, dass es Stimme und Stil erfasst hat
Diese Person ist eine geübte Autorin, und ein Teil dieser Fähigkeit besteht darin, eine eigene Stimme und einen eigenen Stil zu entwickeln. Dass die KI das erkennen kann und sogar vergleichsweise nischige Autoren identifiziert, ist beeindruckend, aber das ist etwas anderes als eine allgemeinere Fähigkeit, Menschen anhand beliebiger Texte wie Facebook-Posts oder SMS zu deanonymisieren
Ein professioneller Musiker kann oft schon nach wenigen Sekunden bekannte Interpreten oder Aufnahmen erkennen. Ob Bach oder Rachmaninow gespielt wird, der Stil ist einfach „diese Person“. Einen anonymen Oberstufenschüler — selbst den eigenen Schüler — würde man dagegen kaum so identifizieren können. Der Median fällt schnell auf homogenere und weniger markante Stile zurück
Es geht also nicht nur darum, dass jemand eine markante Stimme entwickelt hat und sie nicht „abschalten“ kann
Das Web war nie so anonym, wie Leute denken, und der Autor dieses Texts scheint Anonymität und Identitätsverschleierung zu verwechseln. Ein veröffentlichender Autor mit markantem Stil ist praktisch so, als würde er Fingerabdrücke auf einer Axt hinterlassen
Identifizierbar scheinen vor allem Blogger, Journalisten und veröffentlichte Autoren zu sein
„Gebt mir sechs Zeilen, die vom ehrlichsten Menschen der Welt geschrieben wurden, und ich finde darin genug, um ihn aufhängen zu lassen“
Kardinal Richelieu — oder inzwischen eben KI
Ich habe das zweite Ergebnis mit Opus 4.7 mehrfach zu reproduzieren versucht, aber es hat nicht funktioniert. Auch mit verschiedenen Prompts tippte es jedes Mal auf Leute aus der Rationalisten-Community