Microsoft Agent Lightning: Framework für das Reinforcement-Learning-Training von KI-Agenten ohne Codeänderungen
(aisparkup.com)Agent Lightning von Microsoft Research ist ein innovatives Framework, mit dem sich bestehende KI-Agenten mit Reinforcement Learning (RL) trainieren lassen, ohne den vorhandenen Agenten-Code nahezu verändern zu müssen. Es ist mit verschiedenen Agenten-Frameworks wie LangChain und AutoGen kompatibel und zeigte bereits nachweisbare Ergebnisse, etwa eine Steigerung der Genauigkeit bei SQL-Agenten-Tests von 73,2 % auf 80,4 %.
Hauptmerkmale
- Training-Agent-Disaggregation-Architektur: Trennt Agentenausführung und RL-Training vollständig. Ein Sidecar-Design ermöglicht nichtinvasive Datenerfassung (Prompts, Tool-Aufrufe, Reward-Signale) und damit Änderungen am Code auf null.
- Framework-Unabhängigkeit: Über eine OpenAI-kompatible API lässt sich jeder Agent sofort anbinden, darunter LangChain, OpenAI Agent SDK und CrewAI.
- GRPO-Algorithmus: Eine Variante von PPO, die über den relativen Leistungsvergleich innerhalb von Gruppen speichereffizient lernt. LightningRL zerlegt komplexe Multi-Turn-Interaktionen in Transitions und übernimmt so das Credit Assignment.
Praxisbeispiel: SQL-Agent
Training eines SQL-Agenten auf Basis von LangGraph (wandelt natürlichsprachige Fragen in SQL-Abfragen um, führt sie aus und durchläuft eine Fehlerkorrektur-Schleife):
- Trainingsablauf: Startet nach dem Ausführen des Servers allein durch die Verbindung des Clients. Beispiel: Einsatz des Modells Qwen2.5-Coder-3B.
- Ergebnisse: Auf dem Spider-Datensatz stieg die Genauigkeit von 73,2 % auf 80,4 %, während die durchschnittliche Zahl der Transitions von 3,30 auf 2,60 sank, also höhere Effizienz. Das 7B-Modell erreichte 84,4 %.
Installation und Nutzung
pip install agentlightning(zusätzlich mit den Optionen[apo]oder[verl]).- In den GitHub-Beispielen gibt es Anwendungsfälle wie Text-to-SQL und RAG. Auch in Multi-Agenten-Systemen ist selektive Optimierung möglich.
- Unterstützte Algorithmen: GRPO/PPO, Supervised Fine-tuning, APO (Prompt-Optimierung).
Ausblick
Als Open-Source-Projekt belebt es bereits die Community (unter anderem DeepWerewolf). Künftig sind Erweiterungen wie reichhaltigere Reward-Mechanismen, Off-policy RL und Curriculum Learning geplant. Die Trennung von Agentenentwicklung und Optimierung dürfte den Weg in das Zeitalter adaptiver Agenten ebnen.
Noch keine Kommentare.