Microsoft Agent Lightning: Framework für das Reinforcement-Learning-Training von KI-Agenten ohne Codeänderungen

(aisparkup.com)

13 Punkte von davespark 2025-10-27 | Noch keine Kommentare. | Auf WhatsApp teilen

Agent Lightning von Microsoft Research ist ein innovatives Framework, mit dem sich bestehende KI-Agenten mit Reinforcement Learning (RL) trainieren lassen, ohne den vorhandenen Agenten-Code nahezu verändern zu müssen. Es ist mit verschiedenen Agenten-Frameworks wie LangChain und AutoGen kompatibel und zeigte bereits nachweisbare Ergebnisse, etwa eine Steigerung der Genauigkeit bei SQL-Agenten-Tests von 73,2 % auf 80,4 %.

Hauptmerkmale

Training-Agent-Disaggregation-Architektur: Trennt Agentenausführung und RL-Training vollständig. Ein Sidecar-Design ermöglicht nichtinvasive Datenerfassung (Prompts, Tool-Aufrufe, Reward-Signale) und damit Änderungen am Code auf null.
Framework-Unabhängigkeit: Über eine OpenAI-kompatible API lässt sich jeder Agent sofort anbinden, darunter LangChain, OpenAI Agent SDK und CrewAI.
GRPO-Algorithmus: Eine Variante von PPO, die über den relativen Leistungsvergleich innerhalb von Gruppen speichereffizient lernt. LightningRL zerlegt komplexe Multi-Turn-Interaktionen in Transitions und übernimmt so das Credit Assignment.

Praxisbeispiel: SQL-Agent

Training eines SQL-Agenten auf Basis von LangGraph (wandelt natürlichsprachige Fragen in SQL-Abfragen um, führt sie aus und durchläuft eine Fehlerkorrektur-Schleife):

Trainingsablauf: Startet nach dem Ausführen des Servers allein durch die Verbindung des Clients. Beispiel: Einsatz des Modells Qwen2.5-Coder-3B.
Ergebnisse: Auf dem Spider-Datensatz stieg die Genauigkeit von 73,2 % auf 80,4 %, während die durchschnittliche Zahl der Transitions von 3,30 auf 2,60 sank, also höhere Effizienz. Das 7B-Modell erreichte 84,4 %.

Installation und Nutzung

pip install agentlightning (zusätzlich mit den Optionen [apo] oder [verl]).
In den GitHub-Beispielen gibt es Anwendungsfälle wie Text-to-SQL und RAG. Auch in Multi-Agenten-Systemen ist selektive Optimierung möglich.
Unterstützte Algorithmen: GRPO/PPO, Supervised Fine-tuning, APO (Prompt-Optimierung).

Ausblick

Als Open-Source-Projekt belebt es bereits die Community (unter anderem DeepWerewolf). Künftig sind Erweiterungen wie reichhaltigere Reward-Mechanismen, Off-policy RL und Curriculum Learning geplant. Die Trennung von Agentenentwicklung und Optimierung dürfte den Weg in das Zeitalter adaptiver Agenten ebnen.