5 Fallstricke beim Engineering von AI-Agenten
(aisparkup.com)Die Gewohnheiten des traditionellen Software Engineerings (deterministisch, streng kontrolliert) behindern laut diesem Beitrag bei der Entwicklung von AI-Agenten (probabilistisch, auf Flexibilität ausgerichtet) eher, als dass sie helfen.
- Wie Philipp Schmid von Hugging Face betont, werden gerade Senior-Entwickler oft langsamer als Junioren, weil sie versuchen, die Unsicherheit von LLMs „wegzucoden“.
- Analogie: Es braucht einen Rollenwechsel vom Fluglotsen (traditionell) zum Dispatcher (Agenten).
-
Text ist der neue Zustand (State)
• Fallstrick: Wenn natürlichsprachliche Eingaben in strukturierte Daten (z. B. true/false) gezwungen werden, geht Kontext verloren.
• Lösung: Feedback (z. B. „Genehmigt, Fokus auf den US-Markt“) als Text bewahren, damit dynamische Anpassungen möglich bleiben. -
Gib die Kontrolle ab
• Fallstrick: Wird der Ablauf hart kodiert (z. B. bei einem Kündigungs-Flow für Abos), scheitert das System an nichtlinearen Interaktionen.
• Lösung: Dem Agenten (LLM) vertrauen, Absichten anhand des Kontexts zu erkennen. -
Fehler sind einfach nur Eingaben
• Fallstrick: Das Programm bei Fehlern zu stoppen (klassischer Ansatz) verschwendet teure Ausführungen.
• Lösung: Fehler als Feedback bereitstellen, damit der Agent selbstständig Wiederherstellungsversuche unternehmen kann. -
Von Unit-Tests zu Eval
• Fallstrick: Binäre Tests (TDD) sind bei probabilistischen Systemen wenig sinnvoll, weil es unendlich viele gültige Antworten geben kann.
• Lösung: Variabilität über Zuverlässigkeit (Pass@k), Qualität (LLM Judge) und Nachverfolgung (Eval) steuern. -
Agenten entwickeln sich weiter, APIs nicht
• Fallstrick: Werden menschenzentrierte APIs (impliziter Kontext) verwendet, entstehen bei Agenten Halluzinationen.
• Lösung: Mit detaillierter semantischer Typisierung (z. B.user_email_address) und Docstrings mehr Klarheit schaffen. Agenten können sich an Änderungen von Tools anpassen.
Fazit
Probabilistik akzeptieren und sie mit Eval und Selbstkorrektur beherrschbar machen. „Vertrauen, aber prüfen“ – entscheidend ist nicht starre Strenge, sondern der Aufbau robuster, elastischer Systeme. (Quelle des Originals: Philipp Schmids „Why (Senior) Engineers Struggle to Build AI Agents“)
Noch keine Kommentare.