- LLMs benötigen erhebliche Mengen an Speicher und Rechenressourcen
- Die ZeRO-Familie von DeepSpeed bietet eine Lösung für dieses Problem und wird unter anderem bei TNLG-17B, Bloom-176B, MPT-7B und Jurassic-1 eingesetzt
- In großen Szenarien mit sehr vielen GPUs entsteht jedoch Overhead, etwa durch die häufig notwendige Kommunikation zwischen den GPUs
- ZeRO++ reduziert in solchen Fällen das gesamte Kommunikationsvolumen um das Vierfache, ohne die Modellqualität zu beeinträchtigen
- Beschleunigt das Pretraining und Fine-Tuning großer Modelle
- Kleine Batch-Größe pro GPU: 2,2-facher Durchsatz im Vergleich zu ZeRO
- Auch in Clustern mit geringer Bandbreite ein Durchsatz ähnlich wie mit 4x Bandbreite
- Beschleunigt auch Modelle wie ChatGPT, die mit RLHF trainiert werden
Noch keine Kommentare.