Die Lernmethode von BERT, die seit 2018 verwendet wird, basiert tatsächlich auf demselben Prinzip wie moderne Diffusionsmodelle. Das zeigt nicht nur eine wissenschaftliche Entdeckung, sondern auch die praktische Möglichkeit, ein bestehendes BERT-Modell in ein Textgenerierungsmodell wie GPT umzubauen.
Kernpunkte:
- BERTs Masked Language Modeling (MLM) ist ein Diffusionsprozess mit fixer Maskierungsrate: Die seit sieben Jahren verwendete Trainingsmethode von BERT folgt tatsächlich demselben Prinzip wie ein auf Rauschunterdrückung basierendes Diffusionsverfahren. Durch eine variable Anpassung der Maskierungsrate kann das Modell zu einem vollständigen Generierungsmodell umgewandelt werden.
- Textgenerierung auf dem Niveau von GPT-2 nach nur 30 Minuten Training: Ein bestehendes RoBERTa-Modell wurde mit etwas Fine-Tuning in ein Textgenerierungsmodell umgewandelt. Anders als der GPT-Ansatz, der Wort für Wort vorhersagt, arbeitet es, indem es komplette Sätze schrittweise rekonstruiert.
- Neue Möglichkeiten für die Textgenerierung: Neben GPTs autoregressivem Ansatz wird ein alternativer diffusionsbasierter Erzeugungsansatz vorgestellt. Das markiert den Beginn einer neuen Entwicklungslinie wie bei DeepMind’s Gemini Diffusion.
Noch keine Kommentare.