DeepSpeed Chat – Framework zum Trainieren ChatGPT-ähnlicher Modelle mit RLHF

xguru · 2023-04-17T10:26:01+09:00

Schnelles, kostengünstiges und skalierbares offenes System-Framework Ermöglicht die Erstellung hochwertiger Modelle im ChatGPT-Stil jeder Größenordnung durch End-to-End-RLHF (Reinforcement Learning from Human Feedback) Mit 1 Klick können ein ChatGPT-Modell mit 1,3B Parametern auf einer einzelnen NVIDIA-A6000-GPU mit 48 GB Speicher in 1,36 Stunden trainiert, erzeugt und bereitgestellt werden Wird unter anderem von Databricks Dolly, CarperAI-TRLX und Huggingface-PEFT genutzt

(github.com/microsoft)

12 Punkte von xguru 2023-04-17 | 1 Kommentare | Auf WhatsApp teilen

Schnelles, kostengünstiges und skalierbares offenes System-Framework
Ermöglicht die Erstellung hochwertiger Modelle im ChatGPT-Stil jeder Größenordnung durch End-to-End-RLHF (Reinforcement Learning from Human Feedback)
Mit 1 Klick können ein ChatGPT-Modell mit 1,3B Parametern auf einer einzelnen NVIDIA-A6000-GPU mit 48 GB Speicher in 1,36 Stunden trainiert, erzeugt und bereitgestellt werden
Wird unter anderem von Databricks Dolly, CarperAI-TRLX und Huggingface-PEFT genutzt

1 Kommentare

xguru 2023-04-17

DeepSpeed – die von Microsoft veröffentlichte Bibliothek zur Optimierung von Deep Learning
Databricks veröffentlicht mit Dolly 2.0 ein ChatGPT-ähnliches Modell als Open Source

DeepSpeed Chat – Framework zum Trainieren ChatGPT-ähnlicher Modelle mit RLHF

Verwandte Beiträge

1 Kommentare