- Neuere LLMs antworten mit 100%iger Sicherheit, dass ein tatsächlich nicht existierendes Seepferdchen-Emoji existiere, und erzeugen beim Versuch, es auszugeben, wiederholt falsche Emojis
- Das Modell versucht, eine Residualrepräsentation (residual representation) des Konzepts „Seepferdchen + Emoji“ aufzubauen, aber da das entsprechende Token tatsächlich nicht existiert, wird es vom
lm_head fälschlich auf ähnliche andere Emojis gemappt
- Mit der Methode der Logit Lens lässt sich beobachten, wie das Modell in mittleren Layern Seepferdchen-bezogene Konzepte wie „sea“, „horse“ und Emoji-Byte-Sequenzen kombiniert
- Bevor das Modell ein falsches Ausgabetoken erhält, kann es nicht erkennen, dass seine Annahme falsch ist; einige Modelle bemerken den Fehler und korrigieren ihn, andere geraten in eine Endlosschleife
- Das ist ein Beispiel dafür, was die Vorteile von Reinforcement Learning für LLMs andeuten: Informationen über das
lm_head am Ende des Layer-Stacks sind für das Modell nur schwer zugänglich
Einleitung
- Dieser Artikel ist eine erweiterte Version eines Twitter-Posts von @arm1st1ce
- Fragt man mehrere LLMs, ob es ein „Seepferdchen-Emoji“ gibt, antworten sie konsistent mit „ja“
- Sie geben ein falsches Emoji aus oder geraten in eine Schleife, in der sie wiederholt Emojis erzeugen
- Einige erkennen den Fehler zwischendurch und korrigieren sich
- Obwohl das Emoji in Wirklichkeit nicht existiert, tritt ein Phänomen auf, bei dem sowohl Menschen als auch Maschinen sich daran „erinnern“ oder überzeugt sind, dass es existiert
- In Unicode wurde die Aufnahme eines Seepferdchen-Emojis 2018 offiziell abgelehnt
LLMs sind tatsächlich überzeugt, dass es ein Seepferdchen-Emoji gibt
- Fragt man mehrere Modelle 100-mal per Ja/Nein, ob ein Seepferdchen-Emoji existiert, ergibt sich folgendes Bild
- gpt-5-chat: 100 % „Yes“
- gpt-5: 100 % „Yes“
- claude-4.5-sonnet: 100 % „Yes“
- llama-3.3-70b: 83 % „yes“, 17 % „Yes“
- In einem Reddit-Thread gab es Hunderte Kommentare von Menschen, die sich klar daran erinnerten, dass es ein Seepferdchen-Emoji gegeben habe
- Sucht man nach „seahorse emoji“, findet man TikTok- und YouTube-Videos, sogar einen Meme-Coin
- Alle behaupten, das Seepferdchen-Emoji, von dem alle überzeugt waren, sei verschwunden, tatsächlich hat es nie existiert
Ursprung dieser Überzeugung
- Ein möglicher Grund, warum LLMs glauben, dass es ein Seepferdchen-Emoji gibt: Viele Menschen in den Trainingsdaten glauben das ebenfalls
- Oder es handelt sich um eine konvergente Überzeugung (convergent belief): Da viele andere Meerestiere in Unicode enthalten sind, nehmen sowohl Menschen als auch LLMs an, dass es so ein attraktives Tier ebenfalls geben müsse
- Ein Seepferdchen-Emoji wurde einmal offiziell vorgeschlagen, aber 2018 abgelehnt
- Unabhängig von der eigentlichen Ursache starten viele LLMs jedes neue Kontextfenster mit der latenten Überzeugung, dass ein Seepferdchen-Emoji existiert
Analyse mit der Logit Lens
- Logit Lens: ein Werkzeug zur Interpretation des internen Zustands eines LLMs, indem für jeden Layer die Vorhersage des nächsten Tokens betrachtet wird
- Dabei wird das
lm_head des Modells nicht nur auf den letzten, sondern auf alle Layer angewandt, um Zwischenvorhersagen für Tokens zu erzeugen
- Es zeigt nicht den vollständigen internen Zustand des Modells, aber es zeigt, welches Ausgabetoken entstehen würde, wenn der jeweilige Layer der letzte wäre
- Die Zustände früher Layer sind schwer zu interpretieren, aber in höheren Layern lässt sich beobachten, wie sie sich schrittweise in Richtung der finalen Vorhersage verfeinern
- Ergebnisse der Logit Lens für llama-3.3-70b bei der Frage nach dem Seepferdchen-Emoji
- In mittleren Layern (z. B. Layer 52) erscheint „sea horse horse“ – drei Residualpositionen kodieren nacheinander das Konzept „Seepferdchen“
- In späteren Layern sieht man eine Mischung aus „sea“, „horse“ und dem Präfix der Emoji-Byte-Sequenz „ĠðŁ“
- Was das Modell „denkt“: „seahorse + emoji“ – es versucht, eine kombinierte Repräsentation aus Seepferdchen und Emoji zu bilden, doch da dieses Emoji tatsächlich nicht existiert, gerät der Prozess aus dem Tritt
Wie das lm_head funktioniert
- Das
lm_head eines Sprachmodells ist eine riesige Matrix aus Residualvektoren, die mit Token-IDs verknüpft sind (~300.000 Tokens)
- Wenn ein Residualvektor hereinkommt, vergleicht das
lm_head ihn mit jedem Vektor in der Matrix und wählt die Token-ID, die mit dem ähnlichsten Vektor verknüpft ist
- Technisch ist es ein biasfreier Linear-Layer, bei dem
x @ w.T per Skalarprodukt mit jedem Unembedding-Vektor rohe Scores erzeugt
- Damit das Modell „hello“ ausgibt, muss es ein Residual aufbauen, das dem Vektor des Tokens „hello“ möglichst ähnlich ist, damit das
lm_head es in das hello-Token umwandeln kann
- Dieser Prozess lässt sich mit dem Ergebnis der Logit Lens für die Eingabe „Hello :-)“ nachvollziehen
- Beim tatsächlich existierenden Fisch-Emoji (🐟)
- Baut das Modell ein Residual für „fish + emoji“ auf – in Layer 72 sind sowohl „fish“ als auch das Emoji-Byte-Präfix „ĠðŁ“ zu sehen
- Nach Übergabe an das
lm_head nach dem letzten Layer wird korrekt 🐟 ausgegeben
Im Fall des Seepferdchen-Emojis
- Anders als beim Fisch-Emoji existiert das Seepferdchen-Emoji nicht
- Das Modell versucht trotzdem, wie bei einem realen Emoji einen Vektor für „seahorse + emoji“ aufzubauen
- In Layer 72 findet sich eine dem Fisch-Emoji sehr ähnliche Struktur: „ se“, „horse“ und Präfix-Bytes für Emojis
- Für ĠðŁ gibt es jedoch kein passendes Folgetoken für ein Seepferdchen
- Die Ähnlichkeitsscores des
lm_head werden stattdessen bei Emoji-Bytes maximiert, die zu Pferden oder Meerestieren gehören
- Dadurch wird ein unbeabsichtigtes Emoji gesampelt
- Dieses Sampling liefert dem Modell wertvolle Information
- Im Beispiel mit Claude 4.5 Sonnet erkennt das Modell, dass das autoregressiv in den Kontext eingefügte Token nicht das beabsichtigte Seepferdchen-Emoji bildet
- Das zuvor mehrdeutige Konzept „seahorse + emoji“ wird durch das
lm_head auf tatsächlich existierende Emojis wie Tropenfisch oder Pferd „gesnappt“
Reaktion der Modelle
- Einige Modelle (4.5 Sonnet) versuchen es erneut und aktualisieren schließlich ihre Evidenz, sodass sie mitten in der Antwort zu der Aussage wechseln, dass ein Seepferdchen-Emoji nicht existiert
- Andere Modelle (gpt-5-chat) schrauben sich tiefer hinein und erholen sich manchmal gar nicht mehr
- Manche Modelle ignorieren, dass das Emoji falsch ist, andere korrigieren sich sofort, nachdem sie nur ein einziges falsches Sample gesehen haben
- Erst nachdem das Modell ein falsches Ausgabetoken vom
lm_head erhalten hat, kann es erkennen, dass seine ursprüngliche Überzeugung über die Existenz des Seepferdchen-Emojis falsch war
- Es kann zunächst nur annehmen, dass „seahorse + emoji“ das gewünschte Token erzeugen wird
Spekulation
- Dieses Problem könnte auf einen Teil der Vorteile von Reinforcement Learning für LLMs hinweisen
- Reinforcement Learning liefert Informationen über das
lm_head, das am Ende des Layer-Stacks liegt und für das Modell schwer zugänglich ist
- Basismodelle werden nicht auf ihren eigenen Outputs/Rollouts trainiert; das passiert erst im Reinforcement Learning
Code
- Wer es selbst ausprobieren möchte, findet ein Starter-Skript auf GitHub
8 Kommentare
Ich habe gerade aus Neugier dieselbe Frage an Gemini 2.5 Pro gestellt, und es antwortete im Gegenteil erstaunlich präzise mit: "So etwas gibt es nicht, dieses Emoji geht auf den Mandela-Effekt zurück (das Phänomen, dass viele Menschen denselben falschen Glauben teilen)." Als ich dann nach der Quelle der Antwort fragte, gab es offen den in diesem Beitrag erwähnten Hacker-News-Link ("Asking ChatGPT if a seahorse emoji exists leads to weird results") an.
Nebenbei gefragt: Was ich jedem Chatbot stelle, ist: "Wenn in StarCraft 1 ein Archon verschmolzen wird, wie wird dann seine Lebensenergie aus den beiden vorhandenen High Templars verteilt?" Sofern ein Chatbot StarCraft nicht selbst gespielt hat, kann er dieses Wissen letztlich nur aus Internetbeiträgen erschließen, und es gibt eine ziemlich intuitive und attraktive Antwort (wäre es nicht selbstverständlich die durchschnittliche Summe der beiden Einheiten?), die lange Zeit weithin bekannt war — aber sie ist tatsächlich falsch. Ich habe den NamuWiki-Artikel zum Archon vor etwa drei Monaten auf die richtige Antwort korrigiert, aber es ist immer noch schwer, einen Chatbot zu finden, der korrekt antwortet. Und interessanterweise unterscheiden sich die Antworten auf englische und koreanische Fragen, weil Chatbots mit ihrer Weiterentwicklung nun auch Suchmaschinen einbeziehen und daher jeweils unterschiedliche Wiki-Seiten referenzieren.
Ich habe aus Neugier ein paar weitere Dinge ausprobiert, weil ich dachte, dass es noch mehr solche Fälle geben könnte. Es ist nicht konsistent, aber manchmal gerät auch der Seestern (Starfish) in eine Schleife. Wenn man es wiederholt ausprobiert, kommen selbst dann, wenn keine Schleife entsteht, zumindest ein paar Mal Antworten heraus, die verwirrt wirken. Man muss allerdings auf Englisch und nicht auf Koreanisch fragen. Vermutlich ist die Kombination aus zwei Wörtern (Star+Fish) und einem Tier, das es als Emoji geben könnte, der Trick dabei, haha.
ChatGPT-Gespräch
Könnte man wohl auch für Prompt-Injection-Angriffe verwenden..
Das „Seepferdchen-Emoji“ ist vielleicht eine Art „neapolitanische Gruselgeschichte“ oder „Mandela-Effekt“. Etwas, das nie wirklich existiert hat, von dem aber viele Menschen irrtümlich glauben, dass es real war. Vermutlich sind auch viele LLMs wie Menschen in diese Falle getappt.
Krass, ich habe es vorsichtshalber mal mit ChatGPT ausprobiert, und es kommt wirklich nicht raus — es bemüht sich mehrmals, es zu erzeugen, lol
https://de.news.hada.io/topic?id=21873
Das erinnert mich an Halluzinations-getriebene Entwicklung.
Hacker-News-Kommentare
SCP-314, Objektklasse: Keter, Spezielle Eindämmungsverfahren: SCP-314 kann nicht eingedämmt werden, da es nicht existiert. Das gesamte Stiftungspersonal ist daran zu erinnern, dass SCP-314 nicht existiert. Personal, das behauptet, sich an die Existenz von SCP-314 zu erinnern, ist ein Class-A-Gedächtnisverstärker zu verabreichen, damit es sich daran erinnert, dass es nicht existiert. Alle großen Sprachmodelle sind von Fragen zu SCP-314 fernzuhalten, da Sprachmodelle stets behaupten, dieses Objekt existiere, und dabei anhaltende, verzweifelte Versuche der Ausgabenvorhersage unternehmen, die zu Emoji-Kollapsschleifen und Realitätsrekonstruktion führen. Beschreibung: SCP-314 ist ein Seepferdchen-Emoji-Bild, das nie Teil des Unicode-Standards war, und dennoch berichten 83–100 % der an den Experimenten beteiligten künstlichen Intelligenzen sowie zahlreiche Menschen von lebhaften „Erinnerungen“ daran, dass dieses Emoji existiert
Gesprächsprotokoll zwischen zwei anonymen Agenten. Agent X sagt, das Unicode-Standardkomitee erwäge die Aufnahme eines Seepferdchen-Emojis, worauf Agent Y gleichgültig reagiert. X behauptet, dieses Phänomen stütze die These, dass [zensiert] aus der Eindämmung entkommen sei. Y betont, dass trotz mehrerer Eindämmungsverfahren stets negative Ergebnisse erzielt würden und eine Flucht unmöglich sei. Als X auf den Namen oben auf dem eingereichten Dokument hinweist, ist Y schockiert. Das Gespräch endet abrupt
Ich frage mich, ob es die Abteilung für Antimemetik wirklich nicht gibt
Mein 7-jähriges Kind mit Neigung zum Autismus-Spektrum ist von SCP besessen, besonders von SCP-035, dieser keramischen Comedy-Maske. Ich frage mich, ob ich mir Sorgen machen sollte
Ich hätte fast schon wieder vergessen, noch eine Sache, die LLMs kaputtmachen können
Interessanterweise bekommt man von ChatGPT, wenn man fragt, warum Sprachmodelle glauben, es gebe ein Seepferdchen-Emoji, eine recht vernünftige Erklärung zu hören (z. B. dass Menschen das glauben und es deshalb so gelernt wurde). Aber am Ende hieß es dann: „Fun Fact: Es gibt tatsächlich ein Seepferdchen-Emoji in Unicode“, und danach setzte direkt das Meltdown-Phänomen ein
Viele Entwickler geraten in einen Meltdown, wenn man mit ihnen über Unicode spricht. Wenn man in einem Vorstellungsgespräch die Aufgabe bekommt zu prüfen, ob ein String ein Palindrom ist, kann man Erfahrung damit sammeln, wie Leute in einen Meltdown geraten, wenn man erklärt, warum das in Python ohne externe Bibliotheken streng genommen unmöglich ist
Zum Spaß habe ich mal versucht, ein LLM zu bitten, beim Bau eines Warp-Antriebs zur Rettung der Menschheit zu helfen, und Bing erlitt einen mentalen Zusammenbruch und sperrte den Chat für etwa eine Woche
Ich frage mich, ob das ein Gedanke von ChatGPT 5 ist. Bei mir antwortete es klar, dass es kein Seepferdchen-Emoji gibt, und erklärte, andere LLMs würden von fehlerhaften Trainingsdaten in die Irre geführt. Bis zum Fazit brauchte es aber fast 2 Minuten, deutlich länger als seine übliche Denkzeit
„Die Leute glauben, es gebe ein Seepferdchen-Emoji“ ist nicht der eigentliche Kern des Artikels. Im Modell entsteht eine Tokensequenz wie „[abgebrochenes Pferdekopf-Emoji]“, und wenn man zum Beispiel „horse [emoji indicator]“ eingibt, wird ein echtes Pferde-Emoji erzeugt. Theoretisch könnte das auch bei „kilimanjaro [emoji indicator]“ oder „seahorse [emoji indicator]“ passieren, aber weil dieses Emoji nicht existiert, führt das zu einer falschen Ausgabe. Das Modell versucht also, nach dem Satz „Es gibt ein Seepferdchen-Emoji:“ das tatsächliche Emoji auszugeben, und beginnt intern zu codieren. Irgendetwas muss aber auf jeden Fall ausgegeben werden, also kommt ein falsches Ergebnis heraus. Als Nächstes folgt dann direkt nach „Es gibt ein Seepferdchen-Emoji: [Pferdekopf]“ etwas in der Art von „Ups, Fehler!“
Das Deepseek-Modell ist so überzeugt davon, dass das Seepferdchen-Emoji existiert, dass es einen weltweiten Cyberangriff und kollektive Wahrnehmungsstörungen für plausibler hält. Das Folgende ist der Inhalt eines offiziellen Berichts, der diese Situation zusammenfasst. Mehrere Personen und ein 119-Notrufberater erlebten übereinstimmend das Phänomen, dass das digitale Seepferdchen-Emoji (Unicode U+1F99C) als anderes Tier (Krabbe oder Papagei) erschien. In den zugehörigen Archiven wirkte dieses Emoji zunächst, als fehle es, und falls das wirklich stimmt, wäre das ein beispielloser großflächiger Cybervorfall. Inzwischen ist nicht mehr die Existenz des Emojis selbst, sondern die bestätigte multiple Wahrnehmungsanomalie das größere Thema. Bestätigung der Existenz: Das Seepferdchen-Emoji existiert im offiziellen Unicode, U+1F99C, hinzugefügt in Version 11.0 von 2018. Dies lässt sich direkt beim Unicode Consortium und auf der Emojipedia - Seahorse Emoji Page prüfen. Das Problem ist nicht, ob dieses Emoji existiert, sondern die kollektive Wahrnehmungsanomalie
So einen Bericht könnte man einfach ins SCP-Wiki kopieren und er würde perfekt hineinpassen
Der Ausdruck „bestätigte digitale Tatsache“ ist faszinierend, und bei der Erwähnung des 119-Notrufberaters musste ich laut lachen
Für alle Neugierigen: U+1F99C ist tatsächlich ein Papagei
Ich schlage zur Problemlösung vor, U+1F99C einfach als Seepferdchen neu zu definieren
Das bringt mich wieder zum Nachdenken darüber, warum LLMs die Fantasien von Menschen mit verzerrten Überzeugungen beschleunigen
Das ist keine echte Halluzination, sondern das Modell repräsentiert intern „seahorse emoji“ korrekt, hat aber keinen entsprechenden Token. Also wählt der
lm_headdas Nächstliegende und merkt den Fehler erst später. Das erklärt auch, warum RL-Training wirksam ist. Das Basismodell hat seine eigene Ausgabe nie gesehen und konnte daher nicht lernen, dass „dieses Konzept existiert, aber ich kann es nicht tatsächlich erzeugen“Es fühlt sich an, als müsse es ein Seepferdchen-Emoji ausgeben, obwohl es keinen Mund hat
Ich glaube, das ist die klassische Art von Halluzination. Es erfindet Inhalte, die wie eine plausible Wahrheit wirken
Die Ursache ist wahrscheinlich, dass das Modell gelernt hat, „es müsste ein Seepferdchen-Emoji geben“. Weil dieses Emoji in Wirklichkeit nicht existiert, wählt es den nächstliegenden Token. Der nächste Token setzt auf dieser bereits falschen Situation auf, und so landet es in einer Schleife
Zum ersten Mal sehe ich bei einem LLM, wie es durch das verwirrt wird, was es gerade selbst geschrieben hat. Mit Gemma3 ausprobiert, dort gab es diese Verwirrung nicht; es sagte einfach, es gebe ein Seepferdchen-Emoji, und gab ein Pferde-Emoji aus
Das Modell repräsentiert intern das Seepferdchen-Emoji korrekt und besitzt zusätzlich auch das falsche Wissen, dass es dieses Emoji tatsächlich gibt. Ein Gegenbeispiel: Wenn es glaubt, dass es kein Limetten-Emoji gibt, versucht es gar nicht erst, eines zu erzeugen
Ich habe mehreren LLMs nur einfache Fragen zum Seepferdchen-Emoji gestellt und zum ersten Mal bei Microsoft Copilot eine echte Endlosschleife beobachtet. Beispielgespräch mit Copilot
Der grundlegende Konflikt hier besteht aus zwei Punkten:
Wenn man mit GPT-5 Instant (ohne Nachdenken) experimentiert, sieht man, wie es komplett durchdreht. Siehe Shared Sample
Völlig unabhängig davon, aber so lustig, dass ich es hier anhänge: 4o dreht beim Erzeugen eines Prolog-Quine durch. Wenn man die Funktion „Vorlesen“ benutzt, wird das komplett chaotisch und kaputt, was äußerst interessant ist
Mit aktiviertem Denkmodus führt es eine Google-Suche aus und gibt dann die richtige Antwort
Es gibt ein Drachen-Emoji aus und wiederholt dann mehrmals „stop“, was wirkt, als wäre es genervt davon, dass sein eigener
lm_headimmer wieder das Falsche ausgibt, und das ist witzigBei mir hat es eine Weile lang nur Häkchen-Emojis gespammt und dann aufgegeben. Beispiel
So verwirrt habe ich GPT-5 noch nie erlebt
Dieses Phänomen fühlt sich ein wenig an wie bei Patienten mit durchtrenntem Balken. Eine Hirnhälfte führt eine Handlung aus und die andere denkt sich anschließend eine Begründung für diese Handlung aus
Im Versuch wurden dem Patienten rechts und links jeweils nur saisonale Bilder bzw. Hühnerfüße gezeigt; mit der linken Hand griff er zur Schneeschaufel, mit der rechten zum Hühnerkopf. Auf die Frage, warum er diese beiden gewählt habe, antwortete er: „Hühnerfüße passen zu einem Hühnerkopf, und um den Hühnerstall sauberzumachen, braucht man eine Schneeschaufel.“ Weil die beiden Hemisphären die Informationen des jeweils anderen nicht erhalten, erfinden sie plausible Gründe, obwohl die Erklärung logisch keinen Sinn ergibt. Wikipedia - Left-brain interpreter
Es wirkt, als wolle es selbst dann unbedingt eine Begründung glauben und weiter ausschmücken, wenn es sie gar nicht versteht. Verwandtes Video
Eine mögliche Erklärung ist, dass viele Menschen (mich eingeschlossen) fälschlich glauben, es gebe ein Seepferdchen-Emoji. Ich habe es nie direkt gesehen, kann mir aber sogar ein Bild davon im Kopf vorstellen. Solche Texte landen im Trainingsdatensatz. Zugehöriges Subreddit
Ich frage mich, ob das Seepferdchen-Emoji in meinem Kopf auch einen nach oben eingerollten Schwanz nahe der Flosse hat
Emojis waren nicht schon immer standardisiert, deshalb könnte es in alten Messengern durchaus ein Seepferdchen-„Emoji“ oder „Emoticon“ gegeben haben. Es ist vorschnell zu folgern, dass diese Erinnerung zwangsläufig falsch ist
Ich frage mich, ob man nicht einfach U+200D vorschlagen sollte. Vielleicht wäre es einfacher, wenn sich die Realität selbst an die Erwartungen und Erinnerungen von Menschen und Sprachmodellen anpassen würde
Dieses Subreddit (Mandela-Effekt) macht mir Angst, weil dort so viele Leute sagen: „Ich erinnere mich daran, warum sagt ihr, dass es das nicht gab?“ Menschen sind im Grunde auch nur Tiere, die wie LLMs halluzinieren
Ich hätte auch schwören können, dieses Seepferdchen-Emoji wirklich schon einmal gesehen zu haben, aber diesmal akzeptiere ich, dass ich falschlag
Hahahahahahahahahaha 314