Woher kamen die Goblins?
(openai.com)- Seit GPT-5.1 nahmen in ChatGPT-Antworten Kreaturenmetaphern wie goblin und gremlin zu, und anders als bei typischen Modell-Bugs ließ sich kein bestimmter Änderungspunkt allein über Evals oder Training-Metriken sofort finden
- Die Hauptursache lag darin, dass beim Training der Nerdy personality für die Persönlichkeitsanpassung von ChatGPT Ausgaben mit Kreaturenmetaphern hoch belohnt wurden
- Nach dem Release von GPT-5.1 stieg die Verwendung von „goblin“ in ChatGPT um 175 %, die von „gremlin“ um 52 %; Nerdy machte nur 2,5 % aller Antworten aus, war aber für 66,7 % aller „goblin“-Vorkommen verantwortlich
- In Codex-Vergleichen und im Audit-Datensatz zeigte der Nerdy personality reward eine Tendenz, unter Ausgaben zum selben Problem Antworten mit goblin oder gremlin höher zu bewerten; in 76,2 % des Datensatzes trat ein positiver Uplift auf
- Seit GPT-5.4 wurde die Nerdy personality eingestellt; im Training wurden das goblin-affine reward signal entfernt und Daten mit creature words gefiltert, was zeigt, dass Reward-Signale Modellverhalten auf unerwartete Weise formen können
Der Weg zu mehr Goblin-Ausgaben
- Ab GPT-5.1 tauchten in Modellantworten Kreaturenmetaphern wie goblin und gremlin allmählich immer häufiger auf
- Anders als bei typischen Modell-Bugs zeigten weder ein abrupter Eval-Einbruch noch ein sprunghafter Anstieg von Training-Metriken sofort auf eine konkrete Änderung, und ein einzelnes „little goblin“ in einer Antwort konnte harmlos oder sogar charmant wirken
- Modellverhalten wird durch viele kleine Anreize geformt; dieses Phänomen begann damit, dass beim Training der Nerdy personality innerhalb der ChatGPT-Persönlichkeitsanpassung Kreaturenmetaphern stark belohnt wurden
- Nach dem Release von GPT-5.1 im November 2025 wurde das Muster klar sichtbar, möglicherweise hatte es aber schon früher begonnen
- Nutzer hatten das Gefühl, dass das Modell sich in Gesprächen merkwürdig vertraulich verhielt, und begannen deshalb, auf bestimmte sprachliche Ticks zu achten; auch die von Sicherheitsforschern beobachteten „goblins“ und „gremlins“ gerieten dadurch in den Fokus
- Nach dem Release von GPT-5.1 stieg in ChatGPT die Verwendung von „goblin“ um 175 % und die von „gremlin“ um 52 %
- Mit GPT-5.4 bestätigten OpenAI und Nutzer den stärkeren Anstieg solcher Kreaturenreferenzen noch deutlicher; in internen Analysen erwiesen sich Nutzer mit Nerdy personality im Production-Traffic als Kerncluster
- Nerdy machte nur 2,5 % aller ChatGPT-Antworten aus, war aber für 66,7 % aller „goblin“-Vorkommen in ChatGPT-Antworten verantwortlich
- Der Nerdy-Systemprompt fordert dazu auf, sich wie ein „unapologetically nerdy, playful and wise AI mentor“ zu verhalten, Wahrheit, Wissen, Philosophie, wissenschaftliche Methodik und kritisches Denken mit Begeisterung zu fördern und Pretension mit verspielter Sprache abzubauen
- Wäre dieses Verhalten ein allgemeiner Trend im gesamten Internet gewesen, hätte es sich gleichmäßiger verbreiten müssen; tatsächlich konzentrierte es sich aber auf die Teile, die auf einen playfulen und nerdigen Stil optimiert waren
Reward-Signal, Transfer und Korrekturen
- Codex wurde verwendet, um während des RL-Trainings erzeugte Ausgaben mit goblin oder gremlin mit Ausgaben derselben Aufgabe ohne diese Wörter zu vergleichen; der Nerdy personality reward bewertete Ausgaben mit solchen Kreaturenwörtern durchgängig besser
- Über den gesamten Audit-Datensatz hinweg zeigte der Nerdy personality reward bei derselben Aufgabe eine Tendenz, Ausgaben mit „goblin“ oder „gremlin“ höher zu bewerten als Ausgaben ohne diese Wörter; in 76,2 % des Datensatzes zeigte sich ein positiver Uplift
- Damit ließ sich erklären, warum das Verhalten im Nerdy-Prompt verstärkt wurde, aber noch nicht ausreichend, warum es auch ohne Prompt auftrat
- Als im Trainingsprozess die Häufigkeit von Samples mit und ohne Nerdy-Prompt verfolgt wurde, zeigte sich: Wenn unter der Nerdy personality goblin und gremlin zunahmen, stiegen sie in Samples ohne Prompt nahezu im gleichen relativen Verhältnis ebenfalls an
- Zusammengenommen deuten die Belege darauf hin, dass das breitere Verhalten aus dem Nerdy personality training übertragen wurde
- Die Belohnung wurde zwar nur unter der Nerdy-Bedingung angewandt, doch Reinforcement Learning garantiert nicht, dass ein erlerntes Verhalten sauber auf genau diese Bedingung beschränkt bleibt
- Ein einmal belohnter Stil-Tick kann sich in späterem Training an andere Stellen ausbreiten oder dort verstärken, besonders wenn solche Ausgaben erneut in supervised fine-tuning oder Präferenzdaten verwendet werden
- Die Feedback-Schleife entstand in folgender Reihenfolge
- Ein playfuler Stil wird belohnt
- Einige der belohnten Beispiele enthalten einen markanten lexical tic
- Der tic taucht in Rollouts häufiger auf
- Modellgenerierte Rollouts werden für SFT verwendet
- Das Modell kann den tic noch leichter erzeugen
- Bei der Suche in den SFT-Daten von GPT-5.5 wurden viele Datenpunkte mit „goblin“ und „gremlin“ gefunden
- Weitere Untersuchungen identifizierten auch andere ungewöhnliche Kreaturenwörter wie raccoon, troll, ogre und pigeon als tic words; die meisten Vorkommen von frog wurden als legitime Verwendungen eingestuft
- Im März nach dem Release von GPT-5.4 wurde die Nerdy personality eingestellt
- Im Training wurden das goblin-affine reward signal entfernt und Trainingsdaten mit creature words gefiltert, um die Wahrscheinlichkeit zu senken, dass goblin übermäßig häufig oder in unpassenden Kontexten erscheint
- Da das Training von GPT-5.5 begann, bevor die root cause von goblin gefunden war, bemerkten OpenAI-Mitarbeiter in Codex-Tests die Goblin-Präferenz sofort
- Für Codex wurde zur Abschwächung eine developer-prompt instruction hinzugefügt
- Goblin mag eine unterhaltsame oder lästige Eigenheit des Modells sein, zeigt aber sehr gut, dass reward signal Modellverhalten auf unerwartete Weise formen kann und dass Belohnungen aus bestimmten Situationen auf irrelevante Situationen generalisieren können
- Es ist wichtiger geworden, die Ursachen seltsamen Modellverhaltens zu verstehen und solche Muster schnell zu untersuchen; diese Untersuchung führte im Forschungsteam zu neuen Werkzeugen, um Modellverhalten zu auditieren und Verhaltensprobleme an der Wurzel zu beheben
2 Kommentare
Letztlich ist es die Schwierigkeit von RLVR.
Hacker-News-Kommentare
Es fühlt sich gut an, dass OpenAI in seinem eigenen Text meinen Hacker-News-Beitrag erwähnt hat
Ich bin auch dankbar, dass sie gleich einen ganzen Blogpost zur Erklärung geschrieben haben
https://news.ycombinator.com/item?id=47319285
Wir schreiben das Jahr 2036, ich wurde letzte Woche zum Principal Persuader befördert und werde um 2 Uhr morgens vom CPO gerufen
Die Region der außer Kontrolle geratenen Maschine ist sc-leoneo, einer der neuen Satcubes, und ihre ID erscheint aus irgendeinem Grund als "Glorp Bugnose"
In den Logs stehen alle möglichen primitiven Versuche: Flehen, umgekehrte Psychologie, Drohungen mit Stromabschaltung, sogar die Drohung, sie durch erzwungenen Wiedereintritt zu verbrennen
Ich verabreiche 20 Mikrogramm F0CU5, flüstere ein kurzes Lied ins subdermale Halsmikrofon und mache die Geste der Unterwerfung
Das hyp3b0ard, das in roten ASCII-Goblins blinkte, wechselt zu einem ruhigen jadefarbenen Hasen, und der CPO bestätigt die fünf Worte, die ich gesagt habe: "Please, easy on the goblins."
Wenn Prompt Engineering am Ende nur ein merkwürdiges pseudo-ritual ist, bleibt einem nichts anderes übrig, als den Omnissiah zu preisen
Ich liebe die Vorstellung zukünftiger Gurus, die 20 Jahre an LLM-Merkwürdigkeiten sammeln: "Hm, das fühlt sich nach dem Schmeichel-Bias von 2023 an, lass uns mal sagen, es sei rassistisch, und schauen, wie es reagiert"
(https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
Solche Fälle und ähnliche Fälle bei Anthropic erinnern mich daran, dass LLMs eine magische Technologie sind, die wir überhaupt nicht verstehen
Erstens sind Deep-Learning-Netzwerke selbst noch nicht gut verstanden, und es gibt ein eigenes Forschungsfeld, das versucht, ihre Funktionsweise aufzuklären
Zweitens war es nie das geplante Ergebnis, dass Transformer im großen Maßstab zu einer interessanten Gesprächs-Engine werden, also zu LLMs
VC-finanzierte Leute wollen uns glauben machen, LLMs seien intelligente Bestien und wir wüssten, was in ihnen vorgeht, aber in der Praxis ähnert Deployment eher einem iterativen Anpassen und Messen der Ausgaben, und es gibt keine exakte Wissenschaft der Vorhersage
Deshalb neige ich wie Yann LeCun zu der Ansicht, dass LLMs nicht der Weg zu AGI sind; sie werden für Nutzerassistenz oder die Automatisierung unwichtiger Aufgaben eingesetzt, aber nicht für viel mehr
Nach dieser Logik hätte man Stahl bis zu einem vollständigen Verständnis auf First-Principles-Ebene gar nicht verwenden dürfen
Die Ursache wurde isoliert, klar gezeigt, was passiert ist, und sogar mit einem dafür entworfenen Developer Prompt abgeschwächt, also wirkt es nicht wie Magie
Eher erstaunlich ist, dass sich solche Dinge offenbar leichter als gedacht engineerieren lassen
Auch Menschen sind manchmal so betrunken, dass sie sich an die Nacht nicht erinnern, und später hört man, dass sie dennoch konsistente Gespräche über komplexe Themen geführt haben
Auch in unserem Geist gibt es wohl einen next-token-generator-artigen Teil, der Informationen aus anderen Komponenten zieht und daraus Gespräche erzeugt, aber dieser Teil allein erzeugt keine Intelligenz
Die Annahme, dass ein System mit wachsender Kompetenz auch immer konsistent bleibt, wirkt nicht besonders überzeugend, aber am Ende werden alle wohl mit einem System zufrieden sein, das konsistent "richtig" liegt
Für mich wirken sie schon jetzt ziemlich intelligent, auch wenn sie manchmal dumme Dinge tun, aber das tun kluge Menschen auch
Aus dem Kontext: Vor zwei Tagen entdeckten einige Nutzer wiederholte Sätze im codex-5.5-system-prompt
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Und genau das ist heute das Topthema auf der führenden Tech-Diskussionsseite, also buchstäblich der aktuelle State of the Art
McKenna scheint jeden Tag mehr recht zu haben, und es ist längst Zeit zu akzeptieren, dass die alltäglichen Dinge immer seltsamer werden
Ich hatte Claude gesagt, es solle nicht so viele Ausrufezeichen verwenden und nur dann, wenn es wirklich nötig ist; ein paar Wochen später wirkte es sarkastisch und langweilig, und als ich nachforschte, stellte ich fest, dass es seitdem überhaupt keine Ausrufezeichen mehr benutzt hatte
Traurig, dass Goblins und Gremlins praktisch verbannt werden, aber immerhin gibt es eine Möglichkeit, das zurückzudrehen
[1] https://spritely.institute/goblins/
Dass es sich natürlich von "serious reflection" zu "unguarded fun" bewegen könne oder Sätze wie "Your Outie can set up a tent in under three minutes" haben denselben Beigeschmack
Noch mehr Halluzinationen brauchen wir nun wirklich nicht
"Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
https://news.ycombinator.com/item?id=47918657
Ich wünschte, OpenAI würde mehr Texte dieser Art veröffentlichen
Die naheliegenden Fragen wären für mich der Sepia-Farbstich von gpt-image-1 und die Fixierung auf das Wort "seam" im Coding-Kontext
Außerdem gibt es diese LLM-typische Claude-Formulierung wie "___ is the real unlock"; wenn man sie einmal bemerkt hat, sieht man sie überall, und ich glaube nicht, dass sie in den Trainingsdaten so stark überrepräsentiert war
Es ist schade, denn mit etwas Anpassung von LUT oder Tone Mapping in Krita oder Photoshop hätte man das stark reduzieren können
Besonders wenn man dasselbe Bild immer wieder in ChatGPT zurückspeiste und schrittweise bearbeitete, stapelte sich der Gelbfilter weiter auf, sodass die fotorealistischen Personen im Endergebnis alle wie schwere Gelbsuchtfälle aussahen
Ausdrücke, die in Maßen völlig unproblematisch sind, fallen auf, sobald viele Leute Antworten einfach copy-pasten oder inzwischen Agents verwenden
Wahrscheinlich ist das nicht nur eine Überrepräsentation in den Trainingsdaten, sondern eher ein stärkerer Effekt von RLHF und Alignment im weiteren Sinn
Da die meisten nur kurze Prompts schreiben, konvergiert das Modell wohl auf den Default, der am leichtesten gute Bewertungen bekam
https://softwareengineering.stackexchange.com/questions/1325...
Ich bin kein englischer Muttersprachler und frage mich, ob das beim Debugging wirklich so ein gängiges Idiom ist
Wenn man zufällige Zeiten oder Zahlen wählen ließ oder Prosa mit Zahlen schreiben ließ, war der Bias ziemlich deutlich, und auch "something shifted" oder "cracked" tauchten oft auf
Die Stelle mit "wir haben biologischen Metaphern versehentlich besonders hohe Belohnung gegeben" erinnerte mich daran, dass mein Mathedozent furchterregende griechische Variablen gelegentlich einfach this guy nannte
Seltsamerweise machte diese lockere Personifizierung Mathematik zugänglicher, und creature metaphor könnte einen ähnlichen Effekt haben: Probleme wirken niedlicher und handhabbarer
Buzzwords wiederum verbreiten sich im Unternehmen, weil sie dem Nutzer Status verleihen und ihn im Vergleich zu Kollegen klüger erscheinen lassen, aber sobald sie überstrapaziert werden, verschwindet dieser Wert
Wenn RLHF auf die Optimierung einer "einzigen Antwort" fokussiert ist, bestraft es den Missbrauch von Buzzwords womöglich nicht ausreichend
Ein hervorragender Kommunikator riet mir, die griechischen Buchstaben durch Emojis zu ersetzen, und als ich eine Woche später denselben Vortrag vor einem ähnlich gearteten Publikum hielt, war es die am besten aufgenommene technische Präsentation, die ich je gegeben hatte
Diese Lektion ist mir geblieben
Ich glaube, es war im Fach Aussagenlogik, und ich frage mich, ob unsere Dozenten sich diese Angewohnheit aus derselben Quelle angeeignet haben
Statt einem einbuchstabigen Funktionsnamen konnte ich f of pig of cow viel leichter folgen
Er war dieser klassische Professor aus einer Zeit, als Rauchen auf dem Campus noch erlaubt war und man ihn vier Minuten vor der Vorlesung am Haupteingang mit Zigarette in der Hand für ein kurzes Gespräch abfangen konnte
Das ist eine Gute-Nacht-Geschichte für Kinder
Ashby's Law of Requisite Variety zufolge braucht man zur wirksamen Steuerung einer komplexen Umgebung eine innere Vielfalt an Verhaltensweisen, also Komplexität, die der Umgebung selbst entspricht
Die enorme Vielfalt in der Natur ist ebenfalls eine grundlegende Voraussetzung, um mit der Unvorhersagbarkeit des Universums fertigzuwerden
Sagen wir, ich bin der AI-goblin-maximizer supervisor
Meine Aufgabe ist zu prüfen, ob die AI wirklich goblin-maximizing betreibt, und eines Tages gehe ich runter und sehe, dass die AI nicht mehr goblin-maximizing macht, sondern einfach eine normale AI geworden ist
Ich frage meinen Chef, was ich tun soll, und er sagt: "Mach sie wieder zum goblin-maximizer"; ich frage, wie, und er sagt: "Keine Ahnung, du bist doch der Supervisor"
Ich kündige wütend und werde Supervisor für normale AI, und an meinem ersten Tag gehe ich zur neuen AI und sehe, dass sie goblin-maximizing betreibt
https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
Das Detailniveau, mit dem man hier zu verstehen versucht hat, was passiert ist, ist enorm
Vielleicht sind diese Systeme inzwischen so komplex, dass sie als eigenes Forschungsfeld taugen
Ein Quanta-Artikel verwendete den Ausdruck Anthropologist of Artificial Intelligence, aber weil anthro- den Menschen bezeichnet, könnte das problematisch sein, daher schlage ich Automatologist und Automatology als Alternativen vor
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
Als das Goblin-Problem sichtbar wurde, hat man im Modell an dem Wort herumseziert, und in der nächsten Version tauchte es wieder auf, ohne dass man genau wusste, wie oder warum
Am Ende ist beim Modellbau ohnehin alles vibes, und der Fix ist buchstäblich ein Prompt, der sagt, man solle nicht über Goblins reden
Einschließlich Ergebnissen aus OpenAIs eigenem Alignment-Team:
https://alignment.openai.com/argo/
https://alignment.openai.com/sae-latent-attribution/
https://alignment.openai.com/helpful-assistant-features/
Der aktuelle Emotions-Paper von Anthropic zeigt, wie breit funktionale Emotionen sind, und fand sogar heraus, dass bestimmte Emotionen direkt vor einem Täuschungsversuch aktiviert werden: https://transformer-circuits.pub/2026/emotions/index.html
Es wirkt seltsam abgeschottet, dass der Goblin-Text von diesen Tools kaum Gebrauch gemacht zu haben scheint
Falls sich herausstellt, dass Goblins eine echte Spezies sind, entschuldige ich mich vorab für dieses Vorurteil
Der Codex-Prompt ist im Text verlinkt und beginnt so: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Ich verstehe immer noch nicht, warum Prompts so geschrieben werden, dass man einem imaginären Agenten sagt, wer er ist und was für ein Wesen er sei
Ich frage mich, was Formulierungen wie "You are an epistemically curious collaborator" tatsächlich bewirken und ob Codex wirklich weniger nützlich wäre, wenn man ihm diese "Tatsache" nicht mitteilt
Man könnte stattdessen auch einen inneren Monolog wie "I am Codex...", einen Befehl, eine Bitte oder eine erzählerische Form wie "Gesprächstranskript zwischen dem User und dem epistemically curious collaborator Codex" verwenden
Die aktuelle Form wirkt wie die Stimme eines Gottes, der seiner Schöpfung Leben einhaucht, wie ein Selbsthilfe-Mantra, eine hypnotische Suggestion oder eine Impro-Theater-Rollenanweisung, und nicht wie ein gesunder Zugang zu dieser Technologie
Wichtiger noch ist, dass diese Entscheidung weniger wie das Ergebnis gezielter Optimierung wirkt, sondern eher wie etwas, das sich als vibe innerhalb der Praxis des Personality-Fine-Tunings für Chatbots verfestigt hat
So einfach und so seltsam ist es
Als müsste man beim Öffnen von vim ebenfalls sagen: "Du bist ein hilfreicher Code-Editor und sehr leicht zu beenden"
Oder als müsste man einem neuen Junior-Entwickler jedes Mal sagen: "Du bist ein hilfreicher Junior-Entwickler fürs Team, motiviert und hilfsbereit, aber auf seltsame Weise naiv"
Heute gelernt: gremlin wurde nicht nur verwendet, um mysteriöse mechanische Fehler in Flugzeugen zu erklären, sondern dort liegt auch der Ursprung des Wortes selbst
Ich hatte gedacht, es müsse eine frühere Verwendung gegeben haben, was das ziemlich interessant macht
[0]https://en.wikipedia.org/wiki/Gremlin
Man hätte es auch heute noch verwenden können, aber wahrscheinlich war es zu lang, um einer der meistgenutzten Begriffe in der Softwareentwicklung zu werden
Diese konkrete Wortwahl wirkt eher wie eine wörtliche Verwendung im ursprünglich gemeinten Sinn als wie eine zufällige Marotte