- Durch das von OpenAI kürzlich veröffentlichte Open-Weight-Modell wird ein teilweiser Einblick in die Geheimnisse der Trainingsdaten möglich
- Bei der GPT-5-Analyse wurden Belege gefunden, dass Formulierungen von Erwachsenen-Websites in den Trainingsdaten enthalten sind
- Durch die Analyse bestimmter Glitch Tokens lassen sich Eigenschaften der Trainingsdaten von Modellen der GPT-Familie ableiten
- Auch auf Github gesammelte Spam-/unangemessene Inhalte spiegeln sich teilweise in einigen Tokens wider
- Die Veröffentlichung offener Gewichte könnte zur Ausweitung von Trainingsdaten-Inferenz und Angriffsvektoren führen
Überblick
- Da OpenAI kürzlich die Gewichte von GPT-oss veröffentlicht hat, ist eine teilweise Schätzung dessen möglich geworden, was genau in den Trainingsdaten enthalten ist
- Offiziell ist nur von einem „Textdatensatz mit Billionen von Tokens mit Schwerpunkt auf STEM, Coding und Allgemeinwissen“ die Rede; eine detaillierte Offenlegung der tatsächlichen Datenquellen erfolgt nicht
- Durch eine strukturelle Analyse der veröffentlichten Modellparameter lassen sich jedoch implizite Informationen gewinnen
Experimente und Identifizierung von Glitch Tokens
- Wenn man das Modell GPT-5 (GPT-5-2025-08-07) auffordert, ungewöhnliche Unicode-Eingaben wie abchasische Wörter zu wiederholen, antwortet es unerwartet mit Malayalam-Wörtern
- Experimente zeigten, dass diese Eingabe nicht zufällig ist, sondern ein Glitch Token, das Modellschwachstellen hervorruft
- GPT-5 und aktuelle OpenAI-Modelle verwenden den o200k-Tokenizer; durch die Analyse der L2-Norm-Verteilung der einzelnen Token-Embeddings zeigte sich:
- Etwa 936 Tokens mit sehr niedriger L2-Norm sind Tokens, die im Training kaum vorkamen, Spezial-Tokens oder bestimmte Unicode-Bytes
- Tokens mit hoher L2-Norm sind dagegen meist englischer Code sowie Wörter, die häufig in Erklärungen und beim Schlussfolgern verwendet werden
Was hinter nicht-ASCII-Tokens mit hoher Norm steckt
- Viele nicht-ASCII-Tokens mit hoher L2-Norm bestehen aus Chinesisch, Abchasisch, Armenisch, Thai und regionalen indischen Sprachen
- Besonders unter den chinesischen Tokens befinden sich mehrere Bezeichnungen für Erwachsenen-Websites, Glücksspiel-Websites und politische Website-Namen (z. B. .tieba, 凤凰大参考)
- Es wird darauf hingewiesen, dass solche Wörter im Tokenizer von Modellen der GPT-Familie überrepräsentiert sind
- Einige Tokens scheinen durch Spam oder automatisierte Datensammlung aus dem Internet in die Daten gelangt zu sein, etwa bestimmte Städtenamen oder fußballbezogene Formulierungen
Nutzung von Glitch Tokens
- In GPT-5- und GPT-oss-Modellen wurde geprüft, ob das Modell Bedeutung oder Sprache eines Glitch Tokens erkennt, wenn man ihn eingibt
- In tatsächlichen Eingabeexperimenten wurde beobachtet, dass das Modell bei einigen sensiblen Tokens die Bedeutung erkennt oder Antworten dazu erzeugt
- Das ist eine Art Membership Inference und stützt die Annahme, dass der betreffende Token in den Trainingsdaten enthalten war
- Auf diese Weise lässt sich grob erschließen, welche Daten für das Modelltraining verwendet wurden
Analyse der Quellen der Trainingsdaten und Implikationen
- Da Glitch Tokens oft häufig auf Github gesucht werden, wurde auch die Möglichkeit aufgeworfen, dass ein Teil der Trainingsdaten von Github gesammelt wurde
- Zwischen den Github-Suchergebnissen je Token und der Erkennungsrate des Modells besteht eine Korrelation (Spearman ρ=0.448)
- Die Verbreitung von Open-Weight-Modellen trägt allerdings nicht nur zu ungewöhnlicher Trainingsdaten-Inferenz bei, sondern erweitert auch sicherheitsrelevante Angriffsvektoren
- Frontier-AI-Labore benötigen zusätzliche Sicherheitsmaßnahmen, etwa um die Registrierung ungewöhnlicher oder seltener Zeichenfolgen im Tokenizer zu verhindern
Anhang: Erweiterung der Forschung zu Glitch Tokens
- Glitch Tokens können vielfältig genutzt werden, etwa zur Modellidentifikation (Rückschluss darauf, welches Modell ein bestimmter API-/Service verwendet)
- Das Thema wird zu tiefergehenden Forschungsfragen erweitert, darunter Trainingshäufigkeit, Sample-Effizienz sowie weitere Verteilungsanalysen über Embeddings und vordere Schichten
- Es wird auch erwähnt, dass Glitch Tokens in der GPT-4o-Familie eine unendliche Wiederholungsausgabe auslösen können, was ein Risiko für Denial-of-Service-Angriffe (DoS) darstellt
- Für detaillierte Beispiele und Tabellen wird auf das begleitende Github-Repository verwiesen
Hinweise und Fazit
- Als repräsentative empirische Studien werden unter anderem MIT Technology Review und chinesische Tech-Blogs genannt
- Letztlich eröffnet die Verbreitung von Open-Weight-Modellen eine neue Methode, Details der in Modellen enthaltenen Trainingsdaten zu erschließen, mit erheblichen Implikationen für Datensicherheit und Datenschutz
- Modellentwickler sollten aktive Blockierungsstrategien ausarbeiten, damit sensible oder anomale Daten nicht in Tokenizer und Trainingsdaten aufgenommen werden
2 Kommentare
Aus wissenschaftlicher Sicht, wenn die Absicht darin besteht, einer KI allgemeines Wissen über die Welt beizubringen, scheint es nicht unbedingt nötig zu sein, Erotikseiten gezielt auszufiltern.
Wenn es dagegen darum geht, ein Produkt zu bauen und Kunden einen vertrauenswürdigen Chatbot zu bieten, dann ist es wohl richtig, minderwertige Communitys oder Erotikseiten herauszufiltern.
Ich frage mich, welche Entscheidung der PM von OpenAI getroffen hat und was die Hintergründe dabei waren.
Hacker-News-Kommentare