Das Geheimnis von OpenAIs Trainingsdaten, das GPT-OSS offenlegt

(fi-le.net)

4 Punkte von GN⁺ 2025-10-06 | 2 Kommentare | Auf WhatsApp teilen

Durch das von OpenAI kürzlich veröffentlichte Open-Weight-Modell wird ein teilweiser Einblick in die Geheimnisse der Trainingsdaten möglich
Bei der GPT-5-Analyse wurden Belege gefunden, dass Formulierungen von Erwachsenen-Websites in den Trainingsdaten enthalten sind
Durch die Analyse bestimmter Glitch Tokens lassen sich Eigenschaften der Trainingsdaten von Modellen der GPT-Familie ableiten
Auch auf Github gesammelte Spam-/unangemessene Inhalte spiegeln sich teilweise in einigen Tokens wider
Die Veröffentlichung offener Gewichte könnte zur Ausweitung von Trainingsdaten-Inferenz und Angriffsvektoren führen

Überblick

Da OpenAI kürzlich die Gewichte von GPT-oss veröffentlicht hat, ist eine teilweise Schätzung dessen möglich geworden, was genau in den Trainingsdaten enthalten ist
Offiziell ist nur von einem „Textdatensatz mit Billionen von Tokens mit Schwerpunkt auf STEM, Coding und Allgemeinwissen“ die Rede; eine detaillierte Offenlegung der tatsächlichen Datenquellen erfolgt nicht
Durch eine strukturelle Analyse der veröffentlichten Modellparameter lassen sich jedoch implizite Informationen gewinnen

Experimente und Identifizierung von Glitch Tokens

Wenn man das Modell GPT-5 (GPT-5-2025-08-07) auffordert, ungewöhnliche Unicode-Eingaben wie abchasische Wörter zu wiederholen, antwortet es unerwartet mit Malayalam-Wörtern
Experimente zeigten, dass diese Eingabe nicht zufällig ist, sondern ein Glitch Token, das Modellschwachstellen hervorruft
GPT-5 und aktuelle OpenAI-Modelle verwenden den o200k-Tokenizer; durch die Analyse der L2-Norm-Verteilung der einzelnen Token-Embeddings zeigte sich:
- Etwa 936 Tokens mit sehr niedriger L2-Norm sind Tokens, die im Training kaum vorkamen, Spezial-Tokens oder bestimmte Unicode-Bytes
- Tokens mit hoher L2-Norm sind dagegen meist englischer Code sowie Wörter, die häufig in Erklärungen und beim Schlussfolgern verwendet werden

Was hinter nicht-ASCII-Tokens mit hoher Norm steckt

Viele nicht-ASCII-Tokens mit hoher L2-Norm bestehen aus Chinesisch, Abchasisch, Armenisch, Thai und regionalen indischen Sprachen
Besonders unter den chinesischen Tokens befinden sich mehrere Bezeichnungen für Erwachsenen-Websites, Glücksspiel-Websites und politische Website-Namen (z. B. .tieba, 凤凰大参考)
Es wird darauf hingewiesen, dass solche Wörter im Tokenizer von Modellen der GPT-Familie überrepräsentiert sind
Einige Tokens scheinen durch Spam oder automatisierte Datensammlung aus dem Internet in die Daten gelangt zu sein, etwa bestimmte Städtenamen oder fußballbezogene Formulierungen

Nutzung von Glitch Tokens

In GPT-5- und GPT-oss-Modellen wurde geprüft, ob das Modell Bedeutung oder Sprache eines Glitch Tokens erkennt, wenn man ihn eingibt
In tatsächlichen Eingabeexperimenten wurde beobachtet, dass das Modell bei einigen sensiblen Tokens die Bedeutung erkennt oder Antworten dazu erzeugt
Das ist eine Art Membership Inference und stützt die Annahme, dass der betreffende Token in den Trainingsdaten enthalten war
Auf diese Weise lässt sich grob erschließen, welche Daten für das Modelltraining verwendet wurden

Analyse der Quellen der Trainingsdaten und Implikationen

Da Glitch Tokens oft häufig auf Github gesucht werden, wurde auch die Möglichkeit aufgeworfen, dass ein Teil der Trainingsdaten von Github gesammelt wurde
- Zwischen den Github-Suchergebnissen je Token und der Erkennungsrate des Modells besteht eine Korrelation (Spearman ρ=0.448)
Die Verbreitung von Open-Weight-Modellen trägt allerdings nicht nur zu ungewöhnlicher Trainingsdaten-Inferenz bei, sondern erweitert auch sicherheitsrelevante Angriffsvektoren
Frontier-AI-Labore benötigen zusätzliche Sicherheitsmaßnahmen, etwa um die Registrierung ungewöhnlicher oder seltener Zeichenfolgen im Tokenizer zu verhindern

Anhang: Erweiterung der Forschung zu Glitch Tokens

Glitch Tokens können vielfältig genutzt werden, etwa zur Modellidentifikation (Rückschluss darauf, welches Modell ein bestimmter API-/Service verwendet)
Das Thema wird zu tiefergehenden Forschungsfragen erweitert, darunter Trainingshäufigkeit, Sample-Effizienz sowie weitere Verteilungsanalysen über Embeddings und vordere Schichten
Es wird auch erwähnt, dass Glitch Tokens in der GPT-4o-Familie eine unendliche Wiederholungsausgabe auslösen können, was ein Risiko für Denial-of-Service-Angriffe (DoS) darstellt
Für detaillierte Beispiele und Tabellen wird auf das begleitende Github-Repository verwiesen

Hinweise und Fazit

Als repräsentative empirische Studien werden unter anderem MIT Technology Review und chinesische Tech-Blogs genannt
Letztlich eröffnet die Verbreitung von Open-Weight-Modellen eine neue Methode, Details der in Modellen enthaltenen Trainingsdaten zu erschließen, mit erheblichen Implikationen für Datensicherheit und Datenschutz
Modellentwickler sollten aktive Blockierungsstrategien ausarbeiten, damit sensible oder anomale Daten nicht in Tokenizer und Trainingsdaten aufgenommen werden

2 Kommentare

aer0700 2025-10-07

Aus wissenschaftlicher Sicht, wenn die Absicht darin besteht, einer KI allgemeines Wissen über die Welt beizubringen, scheint es nicht unbedingt nötig zu sein, Erotikseiten gezielt auszufiltern.
Wenn es dagegen darum geht, ein Produkt zu bauen und Kunden einen vertrauenswürdigen Chatbot zu bieten, dann ist es wohl richtig, minderwertige Communitys oder Erotikseiten herauszufiltern.
Ich frage mich, welche Entscheidung der PM von OpenAI getroffen hat und was die Hintergründe dabei waren.

GN⁺ 2025-10-06

Hacker-News-Kommentare

In dem Artikel heißt es, "GPT-5 wurde mit Formulierungen von Erwachsenen-Websites trainiert", tatsächlich geht es aber eher darum, dass GPT-5 mit Formulierungen trainiert wurde, die auch auf Erwachsenen-Websites auftauchen, und es gibt lediglich die Vermutung, dass die Quelle der Daten mit solchen Formulierungen GitHub gewesen sein könnte
- Werbung auf chinesischen Erwachsenen-Websites ist in weit verbreiteten, neu verpackten Gratisinhalten oder raubkopierten Inhalten präsent, und diese Materialien werden über Orte wie GitHub, Shadow Libraries und YouTube verbreitet; aus demselben Grund gibt das Whisper-Modell solche Werbephrasen aus, wenn man leeres Audio eingibt
- Darauf wird am Ende des Blogs eingegangen
Ich frage mich, ob die Formulierung „GPT-5 wurde mit Formulierungen von Erwachsenen-Websites trainiert“ wirklich bedeutet, dass sie direkt von Erwachsenen-Websites stammen, oder nur, dass solche Formulierungen in den Trainingsdaten häufig vorkamen; Blogspam, Linkfarmen und Affiliate-Marketing sind auf Erwachsenen-/Glücksspielseiten verbreitet, daher ist es naheliegend, dass viele entsprechende Formulierungen hineingeraten
- Klingt ein bisschen so, als würde diese Person sich ziemlich gut mit Erwachsenen-Websites auskennen
Zu der Behauptung „Es gibt etwa 936 Token mit sehr kleinen L2-Norm-Werten, was bedeutet, dass diese Token im Training von GPT-oss nicht verwendet wurden und durch Weight Decay unterdrückt wurden“: Üblicherweise werden Embedding- und Norm-Parameter von Weight Decay ausgenommen, daher frage ich mich, ob das heute noch so ist; im minGPT-Beispielcode wird tatsächlich erklärt, dass es so ist minGPT-Code ansehen
- Vielleicht wurden solche Token mit dem Mittelwert+Rauschen des Datensatzes initialisiert und haben sich nicht verändert, weil sie im Training nie vorkamen; ich weiß nicht, ob das noch eine aktuelle Technik ist, aber in Karpathys Videos wird so ein Trick manchmal verwendet, damit der Loss in der frühen Phase des Gradient Descent nicht abrupt fällt
- Ich hatte den Eindruck, dass im Artikel zu wenig erklärt wird, wie dieses Muster in den Trainingsdaten gefunden wurde; es werden nur die Ergebnisse behandelt, was inhaltlich etwas unbefriedigend war
Ein interessanter Punkt im Artikel ist, dass man mit „Glitch Tokens“ herausfinden kann, welches Sprachmodell verwendet wird; wenn man Glitch Tokens in den Prompt einbaut und die Reaktion beobachtet, zeigt sich die Identität des Modells
- Ich kann mir vorstellen, dass daraus künftig auch im Pentesting ein Ablauf entsteht, um LLM-Fingerprints zu identifizieren und damit Modelltyp und Sicherheitslücken zu bestimmen
- Ich hatte einen ähnlichen Gedanken; ich frage mich, ob das künftig aufdecken könnte, welche Modelle in verschiedenen agentischen Flows verwendet werden; wenn ein Modell andere Untermodelle aufruft, könnte man vielleicht über die Glitch-Reaktionen in jedem Schritt die gesamte Aufrufstruktur rückwärts rekonstruieren
- Andererseits frage ich mich, ob dieses Reverse Engineering nur deshalb möglich ist, weil wir den Tokenizer direkt sehen können; sind die Tokenizer für Claude oder Gemini öffentlich? Falls nicht, könnte man solche Angriffstechniken vielleicht auch blockieren
Ich frage mich, ob es Forschung dazu gibt, LLMs – insbesondere geschlossene Modelle, die nur per API angeboten werden – rückzuentwickeln oder ihre Trainingsdatenzusammensetzung zu erschließen; zum Beispiel, wie man die Trainingsdaten von Claude Sonnet 4.5 abschätzen könnte, und ob es auch Forschung dazu gibt, die Tendenzen eines vortrainierten Modells selbst nach RLHF noch offenzulegen; ich möchte auch wissen, ob bei Modellen wie GPT-4o Bias wirklich vollständig verschwindet oder nur tiefer im Modell verborgen bleibt
- Dazu gibt es einschlägige Arbeiten arXiv:2403.06634, arXiv:2311.17035; ich erinnere mich auch daran, einmal ein Interview mit Nicholas Carlini gesehen zu haben
- Bias ist ein sehr menschlich aufgeladener Begriff, und wenn man so diskutiert, endet die Debatte nie; wenn es damals bei der Veröffentlichung von systemd schon LLMs gegeben hätte, hätten sie wegen der geringen verfügbaren Informationsmenge wohl auf Basis alter Informationen geantwortet; LLMs reproduzieren letztlich nur die Daten, die sie bekommen, und das Löschen von Informationen aus den Daten ist oft günstiger als eine aufwendige Bereinigung der Trainingsdaten
Das Token „xadder“ wirkte seltsam, ist in Wirklichkeit aber ein Tippfehler von „xpadder“ (ein Gamepad-Tool), der Name mehrerer Tools, ein XLib-Call-Parameter, eine Full-Adder-Implementierung in Xilinx Vivado und wird in vielen verschiedenen Kontexten verwendet, unter anderem auch als Foren-Nickname
Die im Artikel vorgestellte Übersetzung der chinesischen Formulierung ist so ungenau, dass ihre Bedeutung schwer zu erfassen ist, und deshalb wirkt auch die daraus abgeleitete Datenmatrix selbst unzuverlässig; der Autor sollte das mit einem erfahrenen chinesischen Muttersprachler gegenprüfen
- Rückmeldung dazu war, dass man ein Update machen werde, wenn jemand eine bessere Übersetzung beisteuert
Der Bereich scheint so breit zu sein, dass sogar für „niedrigwertige“ Ad-Token Token-Speicherplatz verschwendet wird; ich frage mich, ob es Versuche gab, den Token-Space zu verkleinern, um die Leistung quantisierter Modelle zu verbessern; der Gedanke kam mir beim Anblick der Ad-Token
- Ich frage mich, ob manche 30b-Parameter-Modelle, bei denen effektiv jeweils nur etwa 3b gleichzeitig aktiviert werden, nicht genau auf so einer Idee beruhen
Vielleicht habe ich es falsch verstanden, aber der Artikel scheint anzudeuten, dass es ein Skandal wäre, wenn OpenAI Daten von Erwachsenen-Websites fürs Training verwendet hätte; dabei indexiert auch Google Erwachsenen-Websites und lässt sie in die Suche einfließen, daher ist mir nicht ganz klar, worin sich LLMs hier grundsätzlich unterscheiden
- Eigentlich ist das nichts Neues; siehe das gpt-tokens-Repository, dort wurden schon vor etwa einem Jahr chinesische Formulierungen mit Bezug zu Erwachsenen-Websites in GPT-4o gefunden; das Thema ist also schon länger bekannt
- Der Kernpunkt ist, dass, wenn eine bestimmte Formulierung, die auf GitHub hochgeladen wurde, im Modell wieder sichtbar wird, die Wahrscheinlichkeit hoch ist, dass GitHub Teil der Trainingsdaten war
- Ich persönlich habe diesen Unterton im Artikel nicht herausgelesen
- Aus Unternehmenssicht wäre es wahrscheinlich sinnvoll, solche Daten, insbesondere Formulierungen im Zusammenhang mit Erwachseneninhalten, vorab aus den Trainingsdaten zu entfernen, um Zensur- oder Compliance-Vorgaben einzuhalten
Ich habe die Fälle aus dem Artikel mit Gemini 2.5 pro getestet, und fast alles wurde problemlos verarbeitet; ich vermute, dass Googles Modelle nur gegenüber ganz anderen Glitch Tokens anfällig sein könnten, und die technische Diskussion im Artikel wirkt etwas schwer zugänglich
- Glitch Tokens funktionieren je nach Tokenizer unterschiedlich; Gemini verwendet einen anderen Tokenizer als OpenAI-Modelle; auch der Ursprung der OpenAI-Glitch-Tokens ist interessant: Beim Training früher Tokenizer wurden populäre Strings aus den verwendeten Daten als Ganzzahlen zugewiesen, etwa aktive Reddit-Benutzernamen, und ein zufällig herausgegriffenes Beispiel darunter ist „davidjl“, mehr Erklärung