- Basierend auf dem LLaMA-Modell
- Sammlung überwachter Daten
- Überwachtes Fine-Tuning
- Training des Reward-Modells
- Fine-Tuning mit Reinforcement Learning
- Enthaltene Inhalte
- Interaktive Demo, die online ausgeführt wird
- Open Source des vollständigen RLHF-Trainingscodes einschließlich 7B/13B-Modellen
- 104k bilinguales Dataset in Chinesisch/Englisch
- 4-Bit-Quantisierung des 7B-Modells, benötigt nur 4 GB GPU-Speicher
- Einschließlich Modellgewichten, auf einem einzelnen Server einfach reproduzierbar
- Große Modelle/Datasets/Optimierungen usw. sollen fortlaufend ergänzt werden
Noch keine Kommentare.