DeepSpeed Ulysses: Systemoptimierung für das Training von Transformer-Modellen mit langen Sequenzen

xguru · 2023-08-31T11:03:01+09:00

Bietet 4-mal längere Sequenzlängen als bestehende Systeme und ermöglicht das Training mit Sequenzen, die mehr als eine Million Token enthalten Die Kommunikation wird um mehr als das 10-Fache reduziert, wodurch sich der Durchsatz um bis zu 2,5-Fach verbessert. Der Durchsatz bleibt bei über 175 TFlops/GPU Vollständig allgemeines und implementierungsagnostisches Attention (funktioniert auch mit Implementierungen wie FlashAttention 2) Unterstützung für das Training großer Modelle: Funktioniert zusammen mit ZeRO-3 und unterstützt große Sequenz-/Modellgrößen Einfach zu verwenden und hoch portabel, mit minimalen Änderungen an bestehenden Frameworks

(github.com/microsoft)

5 Punkte von xguru 2023-08-31 | Noch keine Kommentare. | Auf WhatsApp teilen

Bietet 4-mal längere Sequenzlängen als bestehende Systeme und ermöglicht das Training mit Sequenzen, die mehr als eine Million Token enthalten
Die Kommunikation wird um mehr als das 10-Fache reduziert, wodurch sich der Durchsatz um bis zu 2,5-Fach verbessert. Der Durchsatz bleibt bei über 175 TFlops/GPU
Vollständig allgemeines und implementierungsagnostisches Attention (funktioniert auch mit Implementierungen wie FlashAttention 2)
Unterstützung für das Training großer Modelle: Funktioniert zusammen mit ZeRO-3 und unterstützt große Sequenz-/Modellgrößen
Einfach zu verwenden und hoch portabel, mit minimalen Änderungen an bestehenden Frameworks

DeepSpeed Ulysses: Systemoptimierung für das Training von Transformer-Modellen mit langen Sequenzen

Verwandte Beiträge

Noch keine Kommentare.