Wie wurde ChatGPT trainiert – RLHF

xguru · 2023-02-08T10:42:16+09:00

Der am besten geeignete Maßstab, um die der vom Modell erzeugten Ergebnisse zu beurteilen, ist der menschliche Präferenzwert RLHF (Reinforcement Learning from Human Feedback) bedeutet, von Menschen bewertetes Feedback zu den Ergebnissen des Modells als Qualitätsmaß für den erzeugten Text zu verwenden und darüber hinaus eine Loss-Funktion zu entwerfen, die dieses Feedback berücksichtigt, um das Modell zu optimieren RLHF: Schritt für Schritt #1 Ein Language Model trainieren (Pre-Training) #2 Daten für das Training des Reward Models sammeln und das Modell trainieren #3 Das Language Model durch Reinforcement Learning feinabstimmen RLHF, worüber man nachdenken sollte Aktuelle Grenzen

(littlefoxdiary.tistory.com)

15 Punkte von xguru 2023-02-08 | Noch keine Kommentare. | Auf WhatsApp teilen

Der am besten geeignete Maßstab, um die <Güte> der vom Modell erzeugten Ergebnisse zu beurteilen, ist der menschliche Präferenzwert
RLHF (Reinforcement Learning from Human Feedback) bedeutet, von Menschen bewertetes Feedback zu den Ergebnissen des Modells als Qualitätsmaß für den erzeugten Text zu verwenden und darüber hinaus eine Loss-Funktion zu entwerfen, die dieses Feedback berücksichtigt, um das Modell zu optimieren
RLHF: Schritt für Schritt
- #1 Ein Language Model trainieren (Pre-Training)
- #2 Daten für das Training des Reward Models sammeln und das Modell trainieren
- #3 Das Language Model durch Reinforcement Learning feinabstimmen
RLHF, worüber man nachdenken sollte
- Aktuelle Grenzen

Wie wurde ChatGPT trainiert – RLHF

Verwandte Beiträge

Noch keine Kommentare.