LangChain veröffentlicht Skills: So stieg die Erfolgsquote von Claude Code von 25 % auf 95 %
(aisparkup.com)LangChain hat ein Set von „Skills“ vorgestellt, das die Leistung von Coding-Agenten deutlich verbessert.
Insbesondere bei Aufgaben rund um LangChain, LangGraph und LangSmith stieg die Erfolgsquote von Modellen wie Claude Code von nur etwa 25 % ohne Skills auf 95 % mit Skills. Bei LangSmith-bezogenen Tasks verbesserte sie sich stark von 17 % auf 92 %.
Veröffentlichte Skill-Arten
- 11 LangChain-Skills: grundlegender Agenten-Loop, Human-in-the-Loop in LangGraph, Deep Agents usw.
- 3 LangSmith-Skills: Tracing, Aufbau von Datensätzen, Evaluierung von Agenten
→ Zusätzlich wurde die LangSmith CLI veröffentlicht, mit der sich im Terminal Traces einsehen, Datensätze verwalten und Experimente ausführen lassen.
Evaluierungsergebnisse & Erkenntnisse
- Mit Skills lag die Abschlussrate von Claude Code bei 82 %, ohne Skills bei 9 %
- Genauigkeit beim Aufrufen von Skills: Sind es zu viele (20), steigt die Fehlerrate; reduziert man sie auf etwa 12, steigt die Genauigkeit
- In
AGENTS.mdoderCLAUDE.mdsollte klar beschrieben sein, „wann welcher Skill zu verwenden ist“, damit die Wirkung maximal ist
Ausblick
- Mit den LangSmith-Skills können Agenten einen Selbstverbesserungs-Loop durchlaufen: eigene Ausführungslogs analysieren → Probleme zusammenfassen → Test-Datensätze + Evaluatoren automatisch erzeugen.
- Künftig könnten terminalbasierte Zyklen, in denen „Agenten Agenten verbessern“, zum Mainstream werden.
Noch keine Kommentare.