AI-Agenten: Es braucht eher „höhere Zuverlässigkeit“ als „mehr Funktionen“

Warum sind Flugbuchungen zum „Hello World“ von AI-Agenten-Demos geworden?
- Nutzer bevorzugen eine bereits ausgereifte UX (z. B. Google Flights) gegenüber einer AI, die Flüge bucht
- Schon ein einziger Fehler kann eine komplexe Kundenservice-Hölle auslösen
- Intuitive und vorhersehbare Systeme sind oft innovativer
AI befindet sich noch in einem frühen Stadium, und normale Nutzer erwarten Konsistenz und Vorhersehbarkeit
- Beispiel: Auch 80 % Genauigkeit können akzeptabel sein, wenn die Ergebnisse konsistent sind
  Dagegen untergräbt eine unregelmäßige Genauigkeit von 90 % das Vertrauen
- Viele AI-Projekte übersehen das und streben nach spektakulären Demos und überzogenen Funktionen → am Ende geht Vertrauen verloren
Immer mehr IDEs verlieren an Transparenz
- Nutzer können nicht erkennen, was die AI gerade tut
- Beispiel: der auf Reddit viel diskutierte Vorfall, bei dem Cursor die gesamte Arbeit gelöscht hat
  - Teilweise lag es auch an mangelnder Versionsverwaltung durch den Nutzer, aber die eigentliche Ursache war das UI/UX-Design
  - Gutes Design sollte Fehler verhindern, klar erklären, was die AI tut, und eine Rückgängig-Funktion bereitstellen
Cursor war anfangs:
- eine transparente, leichtgewichtige Interaktion mit Tab-Completion-Interface
- wurde populär durch einen Ansatz, der schrittweise Vertrauen beim Nutzer aufbaute
- einfaches und reversibles Design war wirksam, um Misstrauen gegenüber AI zu verringern
Devin, das 200 Millionen Dollar an Finanzierung erhalten hat, strebt einen „vollständig autonomen Agenten“ an
- komplexes System, langsame Reaktionen, unvorhersehbare Ergebnisse führten zu einem Vertrauensbruch
- ein zu ehrgeiziger Ansatz sorgte eher für Verwirrung bei den Nutzern

Schnelligkeit vs. Zuverlässigkeit: Das Dilemma von AI-Entwicklungsteams

AI-Entwicklungsteams müssen sich zwischen Folgendem entscheiden:
- sich schnell bewegen und Fehler in Kauf nehmen
- Zuverlässigkeit und Stabilität priorisieren
Die Antwort ist, sich auf Funktionen zu konzentrieren, die in einem kleinen Bereich hervorragende Ergebnisse liefern, und sie kontinuierlich iterativ zu verbessern

Kernprinzip: Vorhersehbarkeit statt Komplexität

Man sollte sich eher auf gut verstandene Aufgaben als auf komplexe Systeme konzentrieren
AI-Agenten bleiben weiterhin transformativ, aber diese drei Punkte sollten im Zentrum stehen:
- Zuverlässigkeit
- Transparenz
- Vorhersehbarkeit

Workflow vs. Agenten

Anthropics Framing: „Wenn sich eine Aufgabe als Workflow ausdrücken lässt, sollte man einen Workflow bauen und keinen Agenten“
- Workflows sind vorhersehbar, kontrollierbar und einfach
- Agenten sind komplex und schwer zu kontrollieren und sollten deshalb nur in wirklich dynamischen Situationen eingesetzt werden

1 Kommentare

GN⁺ 2025-04-01

Hacker-News-Kommentare

Der Agent für "Flugbuchungen" ist inzwischen zum Running Gag geworden. Er wurde auch in der jüngsten Keynote von Swyx auf einem AI-Engineering-Event erwähnt.
- Ich denke, dieser Artikel unterschätzt die Schwierigkeit dieses Problems.
- Bei UIs, in die Menschen etwas eingeben oder mit denen sie dialogisch interagieren, gibt es unendlich viele Fehlermöglichkeiten.
- Menschen drücken sich nur schlecht eindeutig aus, und es fällt ihnen auch schwer, die Funktionen von Software genau zu verstehen.
Forscher von Google DeepMind arbeiten an Forschung, um die Zuverlässigkeit von Agenten zu erhöhen.
- Eine strenge Evaluation, die das Nutzerverhalten repräsentiert, ist wichtig.
- Sie haben eine Demo mit fortgeschrittenem Reasoning eines Agenten zu den 80.000 Seiten der JFK-Aktenveröffentlichung veröffentlicht.
- Selbst bei einer kleinen Menge an Dateien gibt es große Unterschiede bei Zuverlässigkeit/Genauigkeit gegenüber den großen AI-Playern.
Flugbuchungen sind eine Aufgabe, die man AI nicht überlassen kann.
- Bei Familienreisen oder persönlichen Reisen braucht es viele Kniffe.
- Es gibt viele Faktoren, darunter offizielle Websites, Preisvergleich, Datumsprüfung und die Berücksichtigung von Kreditkartenpunkten.
In vielen Fällen neigen Menschen dazu, AI in bestehende Workflows einzupassen.
- Bestehende Workflows haben bereits optimierte UX/UI.
- Der Einsatz von AI muss keine Lösung zur Problemlösung sein.
Aus meinen Erfahrungen mit Cursor bin ich zu dem Schluss gekommen, dass Zuverlässigkeit wichtig ist.
- Die Ausgaben schneller Modelle brauchen mehr Korrekturen.
- Es ist wichtig, bestimmte Bibliotheken klar zu verwenden.
Bei den technologischen Fortschritten der letzten 20 Jahre halte ich Zuverlässigkeit für wichtiger.
- Wir brauchen nur ein paar neue Funktionen wie Smartphones, Fahrtrouten und Cloud-Speicher.
- Jetzt sind Akkulaufzeit und Kindersicherungsfunktionen auf den Geräten der Kinder wichtig.
Ein Kommentar in einem Reddit-Thread über den aktuellen Stand von AI-Programmierung fasst mein Gefühl zusammen.
- Neue Ingenieure, die durch AI ins Programmieren einsteigen, übersehen grundlegende Essentials.
- Aber es beruhigt mich, dass es für mich immer noch einen Platz gibt.
Ich halte mich an den Grundsatz, dass man den Code zumindest verstehen können muss, wenn AI ihn schreibt.
- Ich kann der Art der "Vibe Coder" nicht folgen, die den von AI geschriebenen Code nicht verstehen.
Ich denke, Workflows sind wichtiger als Agenten.
- Man kann Workflows nutzen, wenn Agenten bereit sind, Aufgaben mit hoher Genauigkeit auszuführen.
- Ich werde Wege finden, effektive, präzise und leicht diagnostizierbare Workflows zu schaffen.
Google Flights bietet bereits eine perfekte UX.
- Ich denke, Websuche ist bei der Nutzung von AI-Agenten zuverlässiger und schneller.
- Ich bin nicht sicher, ob AI nützlich wird, und ich frage mich, ob überhaupt richtig getestet wurde.

AI-Agenten: Es braucht eher „höhere Zuverlässigkeit“ als „mehr Funktionen“

Schnelligkeit vs. Zuverlässigkeit: Das Dilemma von AI-Entwicklungsteams

Kernprinzip: Vorhersehbarkeit statt Komplexität

Workflow vs. Agenten

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare