BERT ist nur ein einzelner Schritt in der Text-Diffusion

(nathan.rs)

3 Punkte von GN⁺ 2025-10-21 | Noch keine Kommentare. | Auf WhatsApp teilen

Maskierte Sprachmodelle wie BERT und RoBERTa können als Konzept der Text-Diffusionsmodelle interpretiert werden.
Anders als bei klassischen Auto-regressive-Modellen (z. B. GPT) wurde die Möglichkeit einer blockweisen Generierung und eines graduellen Wiederherstellungsverfahrens gezeigt.
Durch das schrittweise Anpassen der Maskierungsrate im Training wurde experimentell bestätigt, dass RoBERTa auch natürliche Textgenerierung leisten kann.
Selbst ohne Veränderung der bestehenden Architektur kann Generationsfähigkeit allein durch die Anpassung des Trainingsziels erreicht werden.
Im Vergleich zu GPT-2 liefert ein auf RoBERTa basierendes Diffusionsmodell ebenfalls konsistente Textausgaben auf einem gewissen Niveau.

Überblick

Google DeepMind hat mit Gemini Diffusion ein Diffusions-basiertes Sprachmodell vorgestellt, das im Unterschied zur GPT-Familie Text in Blockblöcken auf einmal generiert. Dieser Ansatz erzeugt Text, indem er sukzessive zufälliges Rauschen raffiniert und bereinigt.

Beim Durchsehen der zugehörigen Veröffentlichung (Large Language Diffusion Models) wurde bestätigt, dass die diskrete Sprach-Diffusion eine Verallgemeinerung von Masked Language Modeling (MLM) ist. Auf Basis dieser Idee wurde experimentell untersucht, ob BERT-Modelle ebenfalls zur Textgenerierung genutzt werden können.

Hinweis: Die spätere DiffusionBERT-Arbeit prüft ähnliche Ideen strenger.

Kurze Geschichte der Transformer

Der 2017 erstmals vorgeschlagene Transformer hatte eine Encoder-Decoder-Struktur. 2018 entstanden getrennte, spezialisierte Modellfamilien: ein Encoder (BERT: bidirektional, auf maskierte Wiederherstellung fokussiert) und ein Decoder (GPT: autoregressiv, auf sequentielle Vorhersage fokussiert).

Nur Encoder (BERT-Familie)
- Erhält den gesamten Kontext als Eingabe und maskiert bestimmte Teile mit <MASK>, um diese mit dem Rest wiederherzustellen
- Zeigt Leistungsstärken bei Satzrepräsentationen, Klassifikation usw.
Nur Decoder (GPT-Familie)
- Sagt das nächste Token aus der vorgegebenen Reihenfolge voraus
- Schneidet sich besonders bei Generierung, Zusammenfassung und Übersetzung hervor

BERT wurde direkt für Klassifikation genutzt, doch die GPT-Familie sicherte sich durch verbesserte Generationsfähigkeiten zunehmend mehr Anwendungsfälle.

Diskrete Sprach-Diffusionsmodelle

Diffusionsmodelle wurden ursprünglich in der Bildgenerierung populär.

Bei Bildern:

Vorwärtsprozess: Füge einem sauberen Bild schrittweise Gaußsches Rauschen hinzu, bis ein reiner Rauschzustand erreicht ist
Rückwärtsprozess: Rekonstruiere die Ursprungsdaten durch wiederholte Denoising-Schritte mit einem Deep-Learning-Modell

Für Texte ist der einfachste Weg ein maskierungsbasierter Rauschprozess.

Vorwärtsprozess (Maskierung)
- Bei t=0 liegt der Originaltext vor, mit zunehmendem Schritt wird ein Teil der Tokens zufällig durch <MASK> ersetzt
- Im Endschritt ist alles mit <MASK> gefüllt
Rückwärtsprozess (Denoising)
- Der Transformer-Encoder lernt, die Original-Tokens aus einer gegebenen Maskierungssituation wiederherzustellen
- Bei niedriger Maskierungsrate ist das Wiederherstellen einfacher, bei hoher Maskierungsrate schwieriger
- Durch wiederholtes Vorgehen von hoher zu niedriger Maskierungsrate kann die komplette Sequenz erzeugt werden

In diesem Diffusionsrahmen summiert das Modell den Denoising-Loss über alle einzelnen Maskierungsratenstufen. Das Maskierungswiederherstellungsziel von BERT ist praktisch ein Teil der Text-Diffusion. Durch die Kombination einer Maskierungsratenplanung mit wiederholtem Denoising lässt sich das BERT-Ziel zu einem Verfahren für Sprachgenerierung ausbauen.

RoBERTa-Diffusions-Experiment

RoBERTa wurde 2019 vorgestellt und zeichnet sich durch erweiterte Hyperparameter, mehr Daten und ein einfacheres Trainingsziel (MLM Only) im Vergleich zu BERT aus. In den Experimenten wurden die Baseline-Gewichte von RoBERTa, der Tokenizer und der Trainer aus den HuggingFace-Libraries transformers und datasets genutzt. Auf dem WikiText-Datensatz erfolgte das Fine-Tuning in folgendem Ablauf:

Pro Batch wird aus einem 10-stufigen Diffusions-Schedule (mask_probs: 1.0~0.1) eine Stufe gezogen und für das Maskieren verwendet
Mit dem benutzerdefinierten diffusion_collator wird zuerst eine Maskierungswahrscheinlichkeit bestimmt und dann für jedes Token probabilistisch <MASK> gesetzt
Die ersten 16 Tokens werden stets beibehalten, um den Prompt-Kontext zu bewahren

Datenmaskierung (benutzerdefinierter Collator):

Nach dem Padding jeder Tokengruppe eines Beispiels wird zufällig eine Maskierungswahrscheinlichkeit gewählt
Alle Tokens außer den ersten 16 erhalten mit dieser Wahrscheinlichkeit das Maskierungszeichen <MASK>
Maschinierte Daten und zugehörige Label-Sets werden zurückgegeben

Generierung (Inference):

Eingabesequenz mit 256 Tokens: die ersten 16 sind Prompt, der Rest ist <MASK>
In jedem Schritt werden die vom Modell vorhergesagten Tokens gesampelt und eingefügt, anschließend wird ein Teil erneut maskiert
Die Maskierungsrate wird schrittweise reduziert und der Prozess wiederholt, bis am Ende alles wiederhergestellt ist

Beispielhafte Generierung:

Mit Prompt und natürlichem Folge-Text wurden tatsächlich recht konsistente Texte erzeugt
Manche Auffälligkeiten resultieren aus dem Vorverarbeitungsformat des WikiText-Datensatzes (z. B. @-@-Bindestrich)

Vergleich mit GPT-2

GPT-2 ist etwas schneller und liefert konsistenteren Text, dennoch zeigt RoBERTa Diffusion eine überraschend gute Leistung (mit hohem Potenzial für schrittweise Verbesserungen)
Neue Verfahren wie AR-Diffusion und Skip-Step Diffusion sowie weitere Optimierungen könnten Qualität und Geschwindigkeit weiter steigern

Fazit

Maskierte Sprachmodelle wie RoBERTa können durch Training mit angepasster Maskierungsrate zu natürlichen Sprachgenerierungs-Engines werden.
Schon das Lernen mit der schrittweisen Schädigung und Wiederherstellung von Text über <MASK>-Tokens reicht aus, um die vollständige Umwandlung in ein generatives Modell zu belegen.
Auch ohne Änderung der Modellstruktur ist es möglich, Generationsfähigkeit allein durch die Modifikation des Trainingsziels zu gewinnen.
Letztlich stimmen Modelle der BERT-Familie im Kern mit einem Text-Diffusionsmodell überein.