Woher kamen die Goblins?

(openai.com)

1 Punkte von GN⁺ 3 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Seit GPT-5.1 nahmen in ChatGPT-Antworten Kreaturenmetaphern wie goblin und gremlin zu, und anders als bei typischen Modell-Bugs ließ sich kein bestimmter Änderungspunkt allein über Evals oder Training-Metriken sofort finden
Die Hauptursache lag darin, dass beim Training der Nerdy personality für die Persönlichkeitsanpassung von ChatGPT Ausgaben mit Kreaturenmetaphern hoch belohnt wurden
Nach dem Release von GPT-5.1 stieg die Verwendung von „goblin“ in ChatGPT um 175 %, die von „gremlin“ um 52 %; Nerdy machte nur 2,5 % aller Antworten aus, war aber für 66,7 % aller „goblin“-Vorkommen verantwortlich
In Codex-Vergleichen und im Audit-Datensatz zeigte der Nerdy personality reward eine Tendenz, unter Ausgaben zum selben Problem Antworten mit goblin oder gremlin höher zu bewerten; in 76,2 % des Datensatzes trat ein positiver Uplift auf
Seit GPT-5.4 wurde die Nerdy personality eingestellt; im Training wurden das goblin-affine reward signal entfernt und Daten mit creature words gefiltert, was zeigt, dass Reward-Signale Modellverhalten auf unerwartete Weise formen können

Der Weg zu mehr Goblin-Ausgaben

Ab GPT-5.1 tauchten in Modellantworten Kreaturenmetaphern wie goblin und gremlin allmählich immer häufiger auf
Anders als bei typischen Modell-Bugs zeigten weder ein abrupter Eval-Einbruch noch ein sprunghafter Anstieg von Training-Metriken sofort auf eine konkrete Änderung, und ein einzelnes „little goblin“ in einer Antwort konnte harmlos oder sogar charmant wirken
Modellverhalten wird durch viele kleine Anreize geformt; dieses Phänomen begann damit, dass beim Training der Nerdy personality innerhalb der ChatGPT-Persönlichkeitsanpassung Kreaturenmetaphern stark belohnt wurden
Nach dem Release von GPT-5.1 im November 2025 wurde das Muster klar sichtbar, möglicherweise hatte es aber schon früher begonnen
Nutzer hatten das Gefühl, dass das Modell sich in Gesprächen merkwürdig vertraulich verhielt, und begannen deshalb, auf bestimmte sprachliche Ticks zu achten; auch die von Sicherheitsforschern beobachteten „goblins“ und „gremlins“ gerieten dadurch in den Fokus
Nach dem Release von GPT-5.1 stieg in ChatGPT die Verwendung von „goblin“ um 175 % und die von „gremlin“ um 52 %
Mit GPT-5.4 bestätigten OpenAI und Nutzer den stärkeren Anstieg solcher Kreaturenreferenzen noch deutlicher; in internen Analysen erwiesen sich Nutzer mit Nerdy personality im Production-Traffic als Kerncluster
Nerdy machte nur 2,5 % aller ChatGPT-Antworten aus, war aber für 66,7 % aller „goblin“-Vorkommen in ChatGPT-Antworten verantwortlich
Der Nerdy-Systemprompt fordert dazu auf, sich wie ein „unapologetically nerdy, playful and wise AI mentor“ zu verhalten, Wahrheit, Wissen, Philosophie, wissenschaftliche Methodik und kritisches Denken mit Begeisterung zu fördern und Pretension mit verspielter Sprache abzubauen
Wäre dieses Verhalten ein allgemeiner Trend im gesamten Internet gewesen, hätte es sich gleichmäßiger verbreiten müssen; tatsächlich konzentrierte es sich aber auf die Teile, die auf einen playfulen und nerdigen Stil optimiert waren

Reward-Signal, Transfer und Korrekturen

Codex wurde verwendet, um während des RL-Trainings erzeugte Ausgaben mit goblin oder gremlin mit Ausgaben derselben Aufgabe ohne diese Wörter zu vergleichen; der Nerdy personality reward bewertete Ausgaben mit solchen Kreaturenwörtern durchgängig besser
Über den gesamten Audit-Datensatz hinweg zeigte der Nerdy personality reward bei derselben Aufgabe eine Tendenz, Ausgaben mit „goblin“ oder „gremlin“ höher zu bewerten als Ausgaben ohne diese Wörter; in 76,2 % des Datensatzes zeigte sich ein positiver Uplift
Damit ließ sich erklären, warum das Verhalten im Nerdy-Prompt verstärkt wurde, aber noch nicht ausreichend, warum es auch ohne Prompt auftrat
Als im Trainingsprozess die Häufigkeit von Samples mit und ohne Nerdy-Prompt verfolgt wurde, zeigte sich: Wenn unter der Nerdy personality goblin und gremlin zunahmen, stiegen sie in Samples ohne Prompt nahezu im gleichen relativen Verhältnis ebenfalls an
Zusammengenommen deuten die Belege darauf hin, dass das breitere Verhalten aus dem Nerdy personality training übertragen wurde
Die Belohnung wurde zwar nur unter der Nerdy-Bedingung angewandt, doch Reinforcement Learning garantiert nicht, dass ein erlerntes Verhalten sauber auf genau diese Bedingung beschränkt bleibt
Ein einmal belohnter Stil-Tick kann sich in späterem Training an andere Stellen ausbreiten oder dort verstärken, besonders wenn solche Ausgaben erneut in supervised fine-tuning oder Präferenzdaten verwendet werden
Die Feedback-Schleife entstand in folgender Reihenfolge
- Ein playfuler Stil wird belohnt
- Einige der belohnten Beispiele enthalten einen markanten lexical tic
- Der tic taucht in Rollouts häufiger auf
- Modellgenerierte Rollouts werden für SFT verwendet
- Das Modell kann den tic noch leichter erzeugen
Bei der Suche in den SFT-Daten von GPT-5.5 wurden viele Datenpunkte mit „goblin“ und „gremlin“ gefunden
Weitere Untersuchungen identifizierten auch andere ungewöhnliche Kreaturenwörter wie raccoon, troll, ogre und pigeon als tic words; die meisten Vorkommen von frog wurden als legitime Verwendungen eingestuft
Im März nach dem Release von GPT-5.4 wurde die Nerdy personality eingestellt
Im Training wurden das goblin-affine reward signal entfernt und Trainingsdaten mit creature words gefiltert, um die Wahrscheinlichkeit zu senken, dass goblin übermäßig häufig oder in unpassenden Kontexten erscheint
Da das Training von GPT-5.5 begann, bevor die root cause von goblin gefunden war, bemerkten OpenAI-Mitarbeiter in Codex-Tests die Goblin-Präferenz sofort
Für Codex wurde zur Abschwächung eine developer-prompt instruction hinzugefügt
Goblin mag eine unterhaltsame oder lästige Eigenheit des Modells sein, zeigt aber sehr gut, dass reward signal Modellverhalten auf unerwartete Weise formen kann und dass Belohnungen aus bestimmten Situationen auf irrelevante Situationen generalisieren können
Es ist wichtiger geworden, die Ursachen seltsamen Modellverhaltens zu verstehen und solche Muster schnell zu untersuchen; diese Untersuchung führte im Forschungsteam zu neuen Werkzeugen, um Modellverhalten zu auditieren und Verhaltensprobleme an der Wurzel zu beheben

Woher kamen die Goblins?

Der Weg zu mehr Goblin-Ausgaben

Reward-Signal, Transfer und Korrekturen

Verwandte Beiträge

Noch keine Kommentare.