3 Punkte von xguru 2021-02-19 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Gegenüber dem bestehenden T5-Modell (Text-to-Text Transfer Transformer) eine 7x höhere Trainingsgeschwindigkeit

  • Verwendet einen modifizierten MoE-Algorithmus (Mixture-of-Experts) namens Switch Routing, der je nach Eingabewert unterschiedliche Parameter anwendet

  • Für das Modelltraining wird Mesh-Tensorflow verwendet (Model Parallelism)

Noch keine Kommentare.

Noch keine Kommentare.