ColossalChat – Open-Source-Lösung mit RLHF-Pipeline zum Nachbau von ChatGPT

xguru · 2023-03-31T11:32:02+09:00

Basierend auf dem LLaMA-Modell Sammlung überwachter Daten Überwachtes Fine-Tuning Training des Reward-Modells Fine-Tuning mit Reinforcement Learning Enthaltene Inhalte Interaktive Demo, die online ausgeführt wird Open Source des vollständigen RLHF-Trainingscodes einschließlich 7B/13B-Modellen 104k bilinguales Dataset in Chinesisch/Englisch 4-Bit-Quantisierung des 7B-Modells, benötigt nur 4 GB GPU-Speicher Einschließlich Modellgewichten, auf einem einzelnen Server einfach reproduzierbar Große Modelle/Datasets/Optimierungen usw. sollen fortlaufend ergänzt werden

(medium.com/@yangyou_berkeley)

10 Punkte von xguru 2023-03-31 | Noch keine Kommentare. | Auf WhatsApp teilen

Basierend auf dem LLaMA-Modell
- Sammlung überwachter Daten
- Überwachtes Fine-Tuning
- Training des Reward-Modells
- Fine-Tuning mit Reinforcement Learning
Enthaltene Inhalte
- Interaktive Demo, die online ausgeführt wird
- Open Source des vollständigen RLHF-Trainingscodes einschließlich 7B/13B-Modellen
- 104k bilinguales Dataset in Chinesisch/Englisch
- 4-Bit-Quantisierung des 7B-Modells, benötigt nur 4 GB GPU-Speicher
- Einschließlich Modellgewichten, auf einem einzelnen Server einfach reproduzierbar
- Große Modelle/Datasets/Optimierungen usw. sollen fortlaufend ergänzt werden

ColossalChat – Open-Source-Lösung mit RLHF-Pipeline zum Nachbau von ChatGPT

Verwandte Beiträge

Noch keine Kommentare.