AI-Agenten-Skills liefern in der Praxis nicht einmal die Hälfte der Benchmark-Leistung

(arxiv.org)

3 Punkte von davespark 14 일 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Dies ist ein Forschungsergebnis des Teams von UC Santa Barbara, MIT CSAIL und dem MIT-IBM Watson AI Lab, das die Fähigkeit von AI-Agenten zur Nutzung von Skills realistisch bewertet hat.

Das Forschungsteam sammelte und testete 34.198 Skills aus Open-Source-Quellen, also strukturiertes Wissen wie Workflows, API-Nutzungsweisen und Best Practices. Beim bisherigen Benchmark (SKILLSBENCH) wurden die Agenten unter idealen Bedingungen bewertet, bei denen ihnen vorab genau der passende Skill bereitgestellt wurde, wodurch die Leistung tendenziell überschätzt wurde.

Um das zu verbessern, entwarf das Team 6-stufige realistische Szenarien:

Skill direkt bereitstellen
Agent wählt den Skill selbst aus
Irrelevante Skills untermischen
Suche in einem großen Skill-Pool
Es gibt überhaupt keinen maßgeschneiderten Skill

Beim Test mit aktuellen Modellen wie Claude Opus 4.6, Kimi K2.5 und Qwen3.5-397B zeigte sich:

Basierend auf Claude Opus 4.6
- Bei direkter Bereitstellung des Skills: 55,4 % Erfolgsquote
- Unter realen Bedingungen (groß angelegte Suche + Auswahl): 40,1 %
- Wenn kein maßgeschneiderter Skill vorhanden ist: 38,4 % (nur 3 Prozentpunkte Unterschied zur Baseline ohne Skill-Nutzung von 35,4 %)
Bei schwächeren Modellen (Kimi, Qwen) zeigte sich sogar ein gegenteiliger Effekt: Durch die Nutzung von Skills fiel die Leistung unter die Baseline.

Hauptursachen für den Leistungsabfall

Fehler bei der Skill-Auswahl: Selbst wenn ein passender Skill vorhanden war, rief Claude ihn nur in 49 % der Fälle korrekt ab
Grenzen der Suchgenauigkeit: Die Trefferquote relevanter Skills unter den Top 5 (Recall@5) lag bei maximal 65,5 %
Mangelnde Anpassungsfähigkeit: Ähnliche Skills konnten nicht gut situationsgerecht angewendet werden

Verbesserungsversuche und Ergebnisse

Wenn Skills aufgabenbezogen bereinigt oder erzeugt wurden, stieg die Leistung von Claude von 40,1 % → 48,2 %, allerdings nur dann wirksam, wenn die anfangs gefundenen Skills bis zu einem gewissen Grad relevant waren.
Wie in der Vercel-Forschung wurde auch die Ansicht geäußert, dass ein einfacher Ansatz, bei dem eine Markdown-Datei wie AGENTS.md in den Kontext aufgenommen wird, stabiler sein könnte.

Fazit und Empfehlungen

Aktuell zeigen Skills für AI-Agenten nur in Benchmarks überzeichnete Leistung, während ihre Wirkung in realen Einsatzumgebungen stark begrenzt ist. Besonders bei schwächeren Modellen können Skills sogar hinderlich sein.

Das Forschungsteam betonte die Notwendigkeit von besseren Suchverfahren, effektiven Strategien zur Offline-Bereinigung von Skills und dem Entwurf eines Skill-Ökosystems, das zur Modellfähigkeit passt. Das Paper und der Code sind auf GitHub veröffentlicht.

Verwandter Hinweis: https://aisparkup.com/posts/11097

AI-Agenten-Skills liefern in der Praxis nicht einmal die Hälfte der Benchmark-Leistung

Hauptursachen für den Leistungsabfall

Verbesserungsversuche und Ergebnisse

Fazit und Empfehlungen

Verwandte Beiträge

Noch keine Kommentare.