- Vereinfacht die Feinabstimmung von LLM-basierten Agenten mittels Reinforcement Learning (RL)
- Derzeit bietet LlamaGym eine einzelne abstrakte Klasse
Agent, mit der sich Agent-Prompting und Hyperparameter in einer Gym-Umgebung schnell iterieren und experimentell anpassen lassen
- Nutzer können ihren eigenen LLM-basierten Agenten definieren, indem sie drei abstrakte Methoden in der Klasse
Agent implementieren
Verwendung
- Nach der Installation von LlamaGym wird durch die Implementierung von drei abstrakten Methoden in der Klasse
Agent ein Blackjack-Spieler-Agent erstellt.
- Definieren Sie das zugrunde liegende LLM, instanziieren Sie den Agenten und schreiben Sie dann eine RL-Schleife, damit der Agent Aktionen ausführt, Belohnungen erhält und Episoden beendet.
- Online-Lernen mittels Reinforcement Learning ist der schwierige Teil, daher ist eine Abstimmung der Hyperparameter erforderlich; ein Schritt der überwachten Feinabstimmung kann hilfreich sein.
Noch keine Kommentare.