Google veröffentlicht das KI-NLP-Modell Switch Transformer mit 1,6 Billionen Parametern als Open Source
(infoq.com)-
Gegenüber dem bestehenden T5-Modell (Text-to-Text Transfer Transformer) eine 7x höhere Trainingsgeschwindigkeit
-
Verwendet einen modifizierten MoE-Algorithmus (Mixture-of-Experts) namens Switch Routing, der je nach Eingabewert unterschiedliche Parameter anwendet
-
Für das Modelltraining wird Mesh-Tensorflow verwendet (Model Parallelism)
Noch keine Kommentare.