DeepSpeed ZeRO++: Durchbruch bei der Trainingsgeschwindigkeit von LLMs und Chat-Modellen mit 4x weniger Kommunikation

xguru · 2023-06-28T10:03:01+09:00

LLMs benötigen erhebliche Mengen an Speicher und Rechenressourcen Die ZeRO-Familie von DeepSpeed bietet eine Lösung für dieses Problem und wird unter anderem bei TNLG-17B, Bloom-176B, MPT-7B und Jurassic-1 eingesetzt In großen Szenarien mit sehr vielen GPUs entsteht jedoch Overhead, etwa durch die häufig notwendige Kommunikation zwischen den GPUs ZeRO++ reduziert in solchen Fällen das gesamte Kommunikationsvolumen um das Vierfache, ohne die Modellqualität zu beeinträchtigen Beschleunigt das Pretraining und Fine-Tuning großer Modelle Kleine Batch-Größe pro GPU: 2,2-facher Durchsatz im Vergleich zu ZeRO Auch in Clustern mit geringer Bandbreite ein Durchsatz ähnlich wie mit 4x Bandbreite Beschleunigt auch Modelle wie ChatGPT, die mit RLHF trainiert werden

(microsoft.com)

10 Punkte von xguru 2023-06-28 | Noch keine Kommentare. | Auf WhatsApp teilen

LLMs benötigen erhebliche Mengen an Speicher und Rechenressourcen
Die ZeRO-Familie von DeepSpeed bietet eine Lösung für dieses Problem und wird unter anderem bei TNLG-17B, Bloom-176B, MPT-7B und Jurassic-1 eingesetzt
In großen Szenarien mit sehr vielen GPUs entsteht jedoch Overhead, etwa durch die häufig notwendige Kommunikation zwischen den GPUs
ZeRO++ reduziert in solchen Fällen das gesamte Kommunikationsvolumen um das Vierfache, ohne die Modellqualität zu beeinträchtigen
- Beschleunigt das Pretraining und Fine-Tuning großer Modelle
  - Kleine Batch-Größe pro GPU: 2,2-facher Durchsatz im Vergleich zu ZeRO
  - Auch in Clustern mit geringer Bandbreite ein Durchsatz ähnlich wie mit 4x Bandbreite
- Beschleunigt auch Modelle wie ChatGPT, die mit RLHF trainiert werden

DeepSpeed ZeRO++: Durchbruch bei der Trainingsgeschwindigkeit von LLMs und Chat-Modellen mit 4x weniger Kommunikation

Verwandte Beiträge

Noch keine Kommentare.