- Der am besten geeignete Maßstab, um die <Güte> der vom Modell erzeugten Ergebnisse zu beurteilen, ist der menschliche Präferenzwert
- RLHF (Reinforcement Learning from Human Feedback) bedeutet, von Menschen bewertetes Feedback zu den Ergebnissen des Modells als Qualitätsmaß für den erzeugten Text zu verwenden und darüber hinaus eine Loss-Funktion zu entwerfen, die dieses Feedback berücksichtigt, um das Modell zu optimieren
- RLHF: Schritt für Schritt
- #1 Ein Language Model trainieren (Pre-Training)
- #2 Daten für das Training des Reward Models sammeln und das Modell trainieren
- #3 Das Language Model durch Reinforcement Learning feinabstimmen
- RLHF, worüber man nachdenken sollte
Noch keine Kommentare.