15 Punkte von xguru 2023-02-08 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Der am besten geeignete Maßstab, um die <Güte> der vom Modell erzeugten Ergebnisse zu beurteilen, ist der menschliche Präferenzwert
  • RLHF (Reinforcement Learning from Human Feedback) bedeutet, von Menschen bewertetes Feedback zu den Ergebnissen des Modells als Qualitätsmaß für den erzeugten Text zu verwenden und darüber hinaus eine Loss-Funktion zu entwerfen, die dieses Feedback berücksichtigt, um das Modell zu optimieren
  • RLHF: Schritt für Schritt
    • #1 Ein Language Model trainieren (Pre-Training)
    • #2 Daten für das Training des Reward Models sammeln und das Modell trainieren
    • #3 Das Language Model durch Reinforcement Learning feinabstimmen
  • RLHF, worüber man nachdenken sollte
    • Aktuelle Grenzen

Noch keine Kommentare.

Noch keine Kommentare.