10 Punkte von xguru 2023-06-28 | Noch keine Kommentare. | Auf WhatsApp teilen
  • LLMs benötigen erhebliche Mengen an Speicher und Rechenressourcen
  • Die ZeRO-Familie von DeepSpeed bietet eine Lösung für dieses Problem und wird unter anderem bei TNLG-17B, Bloom-176B, MPT-7B und Jurassic-1 eingesetzt
  • In großen Szenarien mit sehr vielen GPUs entsteht jedoch Overhead, etwa durch die häufig notwendige Kommunikation zwischen den GPUs
  • ZeRO++ reduziert in solchen Fällen das gesamte Kommunikationsvolumen um das Vierfache, ohne die Modellqualität zu beeinträchtigen
    • Beschleunigt das Pretraining und Fine-Tuning großer Modelle
      • Kleine Batch-Größe pro GPU: 2,2-facher Durchsatz im Vergleich zu ZeRO
      • Auch in Clustern mit geringer Bandbreite ein Durchsatz ähnlich wie mit 4x Bandbreite
    • Beschleunigt auch Modelle wie ChatGPT, die mit RLHF trainiert werden

Noch keine Kommentare.

Noch keine Kommentare.