10 Punkte von xguru 2023-03-31 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Basierend auf dem LLaMA-Modell
    • Sammlung überwachter Daten
    • Überwachtes Fine-Tuning
    • Training des Reward-Modells
    • Fine-Tuning mit Reinforcement Learning
  • Enthaltene Inhalte
    • Interaktive Demo, die online ausgeführt wird
    • Open Source des vollständigen RLHF-Trainingscodes einschließlich 7B/13B-Modellen
    • 104k bilinguales Dataset in Chinesisch/Englisch
    • 4-Bit-Quantisierung des 7B-Modells, benötigt nur 4 GB GPU-Speicher
    • Einschließlich Modellgewichten, auf einem einzelnen Server einfach reproduzierbar
    • Große Modelle/Datasets/Optimierungen usw. sollen fortlaufend ergänzt werden

Noch keine Kommentare.

Noch keine Kommentare.