1 Punkte von GN⁺ 3 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Seit GPT-5.1 nahmen in ChatGPT-Antworten Kreaturenmetaphern wie goblin und gremlin zu, und anders als bei typischen Modell-Bugs ließ sich kein bestimmter Änderungspunkt allein über Evals oder Training-Metriken sofort finden
  • Die Hauptursache lag darin, dass beim Training der Nerdy personality für die Persönlichkeitsanpassung von ChatGPT Ausgaben mit Kreaturenmetaphern hoch belohnt wurden
  • Nach dem Release von GPT-5.1 stieg die Verwendung von „goblin“ in ChatGPT um 175 %, die von „gremlin“ um 52 %; Nerdy machte nur 2,5 % aller Antworten aus, war aber für 66,7 % aller „goblin“-Vorkommen verantwortlich
  • In Codex-Vergleichen und im Audit-Datensatz zeigte der Nerdy personality reward eine Tendenz, unter Ausgaben zum selben Problem Antworten mit goblin oder gremlin höher zu bewerten; in 76,2 % des Datensatzes trat ein positiver Uplift auf
  • Seit GPT-5.4 wurde die Nerdy personality eingestellt; im Training wurden das goblin-affine reward signal entfernt und Daten mit creature words gefiltert, was zeigt, dass Reward-Signale Modellverhalten auf unerwartete Weise formen können

Der Weg zu mehr Goblin-Ausgaben

  • Ab GPT-5.1 tauchten in Modellantworten Kreaturenmetaphern wie goblin und gremlin allmählich immer häufiger auf
  • Anders als bei typischen Modell-Bugs zeigten weder ein abrupter Eval-Einbruch noch ein sprunghafter Anstieg von Training-Metriken sofort auf eine konkrete Änderung, und ein einzelnes „little goblin“ in einer Antwort konnte harmlos oder sogar charmant wirken
  • Modellverhalten wird durch viele kleine Anreize geformt; dieses Phänomen begann damit, dass beim Training der Nerdy personality innerhalb der ChatGPT-Persönlichkeitsanpassung Kreaturenmetaphern stark belohnt wurden
  • Nach dem Release von GPT-5.1 im November 2025 wurde das Muster klar sichtbar, möglicherweise hatte es aber schon früher begonnen
  • Nutzer hatten das Gefühl, dass das Modell sich in Gesprächen merkwürdig vertraulich verhielt, und begannen deshalb, auf bestimmte sprachliche Ticks zu achten; auch die von Sicherheitsforschern beobachteten „goblins“ und „gremlins“ gerieten dadurch in den Fokus
  • Nach dem Release von GPT-5.1 stieg in ChatGPT die Verwendung von „goblin“ um 175 % und die von „gremlin“ um 52 %
  • Mit GPT-5.4 bestätigten OpenAI und Nutzer den stärkeren Anstieg solcher Kreaturenreferenzen noch deutlicher; in internen Analysen erwiesen sich Nutzer mit Nerdy personality im Production-Traffic als Kerncluster
  • Nerdy machte nur 2,5 % aller ChatGPT-Antworten aus, war aber für 66,7 % aller „goblin“-Vorkommen in ChatGPT-Antworten verantwortlich
  • Der Nerdy-Systemprompt fordert dazu auf, sich wie ein „unapologetically nerdy, playful and wise AI mentor“ zu verhalten, Wahrheit, Wissen, Philosophie, wissenschaftliche Methodik und kritisches Denken mit Begeisterung zu fördern und Pretension mit verspielter Sprache abzubauen
  • Wäre dieses Verhalten ein allgemeiner Trend im gesamten Internet gewesen, hätte es sich gleichmäßiger verbreiten müssen; tatsächlich konzentrierte es sich aber auf die Teile, die auf einen playfulen und nerdigen Stil optimiert waren

Reward-Signal, Transfer und Korrekturen

  • Codex wurde verwendet, um während des RL-Trainings erzeugte Ausgaben mit goblin oder gremlin mit Ausgaben derselben Aufgabe ohne diese Wörter zu vergleichen; der Nerdy personality reward bewertete Ausgaben mit solchen Kreaturenwörtern durchgängig besser
  • Über den gesamten Audit-Datensatz hinweg zeigte der Nerdy personality reward bei derselben Aufgabe eine Tendenz, Ausgaben mit „goblin“ oder „gremlin“ höher zu bewerten als Ausgaben ohne diese Wörter; in 76,2 % des Datensatzes zeigte sich ein positiver Uplift
  • Damit ließ sich erklären, warum das Verhalten im Nerdy-Prompt verstärkt wurde, aber noch nicht ausreichend, warum es auch ohne Prompt auftrat
  • Als im Trainingsprozess die Häufigkeit von Samples mit und ohne Nerdy-Prompt verfolgt wurde, zeigte sich: Wenn unter der Nerdy personality goblin und gremlin zunahmen, stiegen sie in Samples ohne Prompt nahezu im gleichen relativen Verhältnis ebenfalls an
  • Zusammengenommen deuten die Belege darauf hin, dass das breitere Verhalten aus dem Nerdy personality training übertragen wurde
  • Die Belohnung wurde zwar nur unter der Nerdy-Bedingung angewandt, doch Reinforcement Learning garantiert nicht, dass ein erlerntes Verhalten sauber auf genau diese Bedingung beschränkt bleibt
  • Ein einmal belohnter Stil-Tick kann sich in späterem Training an andere Stellen ausbreiten oder dort verstärken, besonders wenn solche Ausgaben erneut in supervised fine-tuning oder Präferenzdaten verwendet werden
  • Die Feedback-Schleife entstand in folgender Reihenfolge
    • Ein playfuler Stil wird belohnt
    • Einige der belohnten Beispiele enthalten einen markanten lexical tic
    • Der tic taucht in Rollouts häufiger auf
    • Modellgenerierte Rollouts werden für SFT verwendet
    • Das Modell kann den tic noch leichter erzeugen
  • Bei der Suche in den SFT-Daten von GPT-5.5 wurden viele Datenpunkte mit „goblin“ und „gremlin“ gefunden
  • Weitere Untersuchungen identifizierten auch andere ungewöhnliche Kreaturenwörter wie raccoon, troll, ogre und pigeon als tic words; die meisten Vorkommen von frog wurden als legitime Verwendungen eingestuft
  • Im März nach dem Release von GPT-5.4 wurde die Nerdy personality eingestellt
  • Im Training wurden das goblin-affine reward signal entfernt und Trainingsdaten mit creature words gefiltert, um die Wahrscheinlichkeit zu senken, dass goblin übermäßig häufig oder in unpassenden Kontexten erscheint
  • Da das Training von GPT-5.5 begann, bevor die root cause von goblin gefunden war, bemerkten OpenAI-Mitarbeiter in Codex-Tests die Goblin-Präferenz sofort
  • Für Codex wurde zur Abschwächung eine developer-prompt instruction hinzugefügt
  • Goblin mag eine unterhaltsame oder lästige Eigenheit des Modells sein, zeigt aber sehr gut, dass reward signal Modellverhalten auf unerwartete Weise formen kann und dass Belohnungen aus bestimmten Situationen auf irrelevante Situationen generalisieren können
  • Es ist wichtiger geworden, die Ursachen seltsamen Modellverhaltens zu verstehen und solche Muster schnell zu untersuchen; diese Untersuchung führte im Forschungsteam zu neuen Werkzeugen, um Modellverhalten zu auditieren und Verhaltensprobleme an der Wurzel zu beheben

Noch keine Kommentare.

Noch keine Kommentare.