13 Punkte von davespark 2025-10-27 | Noch keine Kommentare. | Auf WhatsApp teilen

Agent Lightning von Microsoft Research ist ein innovatives Framework, mit dem sich bestehende KI-Agenten mit Reinforcement Learning (RL) trainieren lassen, ohne den vorhandenen Agenten-Code nahezu verändern zu müssen. Es ist mit verschiedenen Agenten-Frameworks wie LangChain und AutoGen kompatibel und zeigte bereits nachweisbare Ergebnisse, etwa eine Steigerung der Genauigkeit bei SQL-Agenten-Tests von 73,2 % auf 80,4 %.

Hauptmerkmale
  • Training-Agent-Disaggregation-Architektur: Trennt Agentenausführung und RL-Training vollständig. Ein Sidecar-Design ermöglicht nichtinvasive Datenerfassung (Prompts, Tool-Aufrufe, Reward-Signale) und damit Änderungen am Code auf null.
  • Framework-Unabhängigkeit: Über eine OpenAI-kompatible API lässt sich jeder Agent sofort anbinden, darunter LangChain, OpenAI Agent SDK und CrewAI.
  • GRPO-Algorithmus: Eine Variante von PPO, die über den relativen Leistungsvergleich innerhalb von Gruppen speichereffizient lernt. LightningRL zerlegt komplexe Multi-Turn-Interaktionen in Transitions und übernimmt so das Credit Assignment.
Praxisbeispiel: SQL-Agent

Training eines SQL-Agenten auf Basis von LangGraph (wandelt natürlichsprachige Fragen in SQL-Abfragen um, führt sie aus und durchläuft eine Fehlerkorrektur-Schleife):

  • Trainingsablauf: Startet nach dem Ausführen des Servers allein durch die Verbindung des Clients. Beispiel: Einsatz des Modells Qwen2.5-Coder-3B.
  • Ergebnisse: Auf dem Spider-Datensatz stieg die Genauigkeit von 73,2 % auf 80,4 %, während die durchschnittliche Zahl der Transitions von 3,30 auf 2,60 sank, also höhere Effizienz. Das 7B-Modell erreichte 84,4 %.
Installation und Nutzung
  • pip install agentlightning (zusätzlich mit den Optionen [apo] oder [verl]).
  • In den GitHub-Beispielen gibt es Anwendungsfälle wie Text-to-SQL und RAG. Auch in Multi-Agenten-Systemen ist selektive Optimierung möglich.
  • Unterstützte Algorithmen: GRPO/PPO, Supervised Fine-tuning, APO (Prompt-Optimierung).
Ausblick

Als Open-Source-Projekt belebt es bereits die Community (unter anderem DeepWerewolf). Künftig sind Erweiterungen wie reichhaltigere Reward-Mechanismen, Off-policy RL und Curriculum Learning geplant. Die Trennung von Agentenentwicklung und Optimierung dürfte den Weg in das Zeitalter adaptiver Agenten ebnen.

Noch keine Kommentare.

Noch keine Kommentare.