36 Punkte von ragingwind 7 일 전 | 2 Kommentare | Auf WhatsApp teilen

Ein Beitrag über die von Y-Combinator-Präsident Garry Tan vorgeschlagene Methodik zur Qualitätskontrolle von Agenten namens „Skillify“, basierend auf seinen eigenen Erfahrungen im Betrieb von AI-Agenten. Ausgangspunkt ist die Problemerkennung, dass Frameworks wie LangChain, die 160 Millionen US-Dollar eingesammelt haben, zwar Testwerkzeuge bereitstellen, aber kein Workflow dafür existiert, „was in welcher Reihenfolge getestet werden soll“. Tan präsentiert eine 10-stufige Checkliste, mit der Fehler von Agenten nicht durch einmalige Prompt-Anpassungen behoben, sondern in dauerhafte Strukturen aus Markdown-Skill-Dateien, deterministischen Skripten und automatisierten Tests überführt werden.

Kernkonzepte

  • Was ist Skillify: Wenn ein Fehler eines Agenten auftritt, bedeutet es, diesen Fehler in einen „Skill“ zu verwandeln, der denselben Fehler nicht mehr reproduzierbar macht (Markdown-Prozessdokument + deterministisches Skript + Tests). Wenn man während eines Gesprächs „skillify it“ sagt, führt der Agent den 10-stufigen Prozess automatisch aus.
  • Unterscheidung zwischen Latent und Deterministic: Aufgaben, die Urteilsvermögen erfordern (latent, Bereich der LLM-Inferenz), und Aufgaben, die Präzision erfordern (deterministic, Bereich der Codeausführung), werden klar getrennt. Als zentralen Bug betrachtet Tan, dass das LLM Dinge „im Kopf“ erledigt und dabei Fehler macht, obwohl Code bei Aufgaben wie Zeitzonenberechnungen oder Kalendersuchen sofort die richtige Antwort liefern könnte.
  • 10-stufige Checkliste: Erst wenn alles bestanden ist — Schreiben von SKILL.md, Schreiben eines deterministischen Skripts, Unit-Tests (vitest), Integrationstests, LLM-Evaluierung (LLM-as-judge), Registrierung des Resolver-Triggers, Resolver-Evaluierung, Audit zu Erreichbarkeit/Duplikaten, E2E-Smoke-Tests und Brain-Filing-Regeln — wird es als „Skill“ anerkannt.

Praxisbeispiele

  • Ein Fall, in dem nach einer Geschäftsreise nach Singapur vor 10 Jahren gefragt wurde und der Agent 5 Minuten lang Live-APIs aufrief, bevor er erst verspätet entdeckte, dass die Daten bereits direkt in 3.146 lokal indexierten Kalenderdateien zu finden gewesen wären
  • Ein Fall, in dem mit „das nächste Meeting ist in 28 Minuten“ geantwortet wurde, obwohl es tatsächlich erst in 88 Minuten stattfand — das LLM verrechnete sich bei der Umrechnung der Zeitzone von UTC nach PT um genau 1 Stunde
  • In beiden Fällen lag die richtige Antwort bereits in vorhandenen Skripten vor (Ausführung in unter 100 ms), aber die Ursache war, dass der Agent statt der Skriptausführung auf Inferenz setzte

Unterscheidungsmerkmale

  • Während LangChain nur ein „Set von Testwerkzeugen“ bereitstellt, schlägt Skillify selbst einen meinungsstarken Workflow vor: „Fehler → Skill → Test → dauerhafte Korrektur“. Die Metapher dazu: Wenn das Framework nur eine Fitnessstudio-Mitgliedschaft bereitstellt, ist Skillify der Trainingsplan.
  • Es wird angemerkt, dass der Hermes Agent von Nous Research Skills zwar gut automatisch generiert, diese aber ohne Tests mit der Zeit veralten; betont wird daher, dass sowohl „Generierung + Verifizierung“ notwendig sind.

Implikationen

  • Es erinnert daran, dass in der Softwareentwicklung das Prinzip „jeden Bug mit einem Regressionstest absichern“ bereits 2005 etabliert war, der Bereich der AI-Agenten dieses Niveau aber noch nicht erreicht hat. Die Sichtweise, dass Agenten-Skills genauso wie ein Codebase ohne Tests verfallen, ist als branchenweite Warnung relevant.
  • Das Beispiel aus dem Betrieb von mehr als 40 Skills, bei dem 15 % nicht im Resolver registriert waren und dadurch zu „Funktionen im Dunkeln“ wurden, zeigt, dass mit wachsender Größe von Agentensystemen das Management der Auffindbarkeit (discoverability) zu einer unverzichtbaren Aufgabe wird.

2 Kommentare

 
tested 7 일 전

Wo bekommt man das Skill her, das Folgendes ausführt?

Wenn man während eines Gesprächs „skillify it“ sagt, führt der Agent automatisch einen 10-stufigen Prozess aus.

 
heyjude 7 일 전

Die skillify-Skill ist eine in gbrain enthaltene Funktion.
https://github.com/garrytan/gbrain/…