- Warum sind Flugbuchungen zum „Hello World“ von AI-Agenten-Demos geworden?
- Nutzer bevorzugen eine bereits ausgereifte UX (z. B. Google Flights) gegenüber einer AI, die Flüge bucht
- Schon ein einziger Fehler kann eine komplexe Kundenservice-Hölle auslösen
- Intuitive und vorhersehbare Systeme sind oft innovativer
- AI befindet sich noch in einem frühen Stadium, und normale Nutzer erwarten Konsistenz und Vorhersehbarkeit
- Beispiel: Auch 80 % Genauigkeit können akzeptabel sein, wenn die Ergebnisse konsistent sind
Dagegen untergräbt eine unregelmäßige Genauigkeit von 90 % das Vertrauen
- Viele AI-Projekte übersehen das und streben nach spektakulären Demos und überzogenen Funktionen → am Ende geht Vertrauen verloren
- Immer mehr IDEs verlieren an Transparenz
- Nutzer können nicht erkennen, was die AI gerade tut
- Beispiel: der auf Reddit viel diskutierte Vorfall, bei dem Cursor die gesamte Arbeit gelöscht hat
- Teilweise lag es auch an mangelnder Versionsverwaltung durch den Nutzer, aber die eigentliche Ursache war das UI/UX-Design
- Gutes Design sollte Fehler verhindern, klar erklären, was die AI tut, und eine Rückgängig-Funktion bereitstellen
- Cursor war anfangs:
- eine transparente, leichtgewichtige Interaktion mit Tab-Completion-Interface
- wurde populär durch einen Ansatz, der schrittweise Vertrauen beim Nutzer aufbaute
- einfaches und reversibles Design war wirksam, um Misstrauen gegenüber AI zu verringern
- Devin, das 200 Millionen Dollar an Finanzierung erhalten hat, strebt einen „vollständig autonomen Agenten“ an
- komplexes System, langsame Reaktionen, unvorhersehbare Ergebnisse führten zu einem Vertrauensbruch
- ein zu ehrgeiziger Ansatz sorgte eher für Verwirrung bei den Nutzern
Schnelligkeit vs. Zuverlässigkeit: Das Dilemma von AI-Entwicklungsteams
- AI-Entwicklungsteams müssen sich zwischen Folgendem entscheiden:
- sich schnell bewegen und Fehler in Kauf nehmen
- Zuverlässigkeit und Stabilität priorisieren
- Die Antwort ist, sich auf Funktionen zu konzentrieren, die in einem kleinen Bereich hervorragende Ergebnisse liefern, und sie kontinuierlich iterativ zu verbessern
Kernprinzip: Vorhersehbarkeit statt Komplexität
- Man sollte sich eher auf gut verstandene Aufgaben als auf komplexe Systeme konzentrieren
- AI-Agenten bleiben weiterhin transformativ, aber diese drei Punkte sollten im Zentrum stehen:
- Zuverlässigkeit
- Transparenz
- Vorhersehbarkeit
Workflow vs. Agenten
- Anthropics Framing: „Wenn sich eine Aufgabe als Workflow ausdrücken lässt, sollte man einen Workflow bauen und keinen Agenten“
- Workflows sind vorhersehbar, kontrollierbar und einfach
- Agenten sind komplex und schwer zu kontrollieren und sollten deshalb nur in wirklich dynamischen Situationen eingesetzt werden
1 Kommentare
Hacker-News-Kommentare
Der Agent für "Flugbuchungen" ist inzwischen zum Running Gag geworden. Er wurde auch in der jüngsten Keynote von Swyx auf einem AI-Engineering-Event erwähnt.
Forscher von Google DeepMind arbeiten an Forschung, um die Zuverlässigkeit von Agenten zu erhöhen.
Flugbuchungen sind eine Aufgabe, die man AI nicht überlassen kann.
In vielen Fällen neigen Menschen dazu, AI in bestehende Workflows einzupassen.
Aus meinen Erfahrungen mit Cursor bin ich zu dem Schluss gekommen, dass Zuverlässigkeit wichtig ist.
Bei den technologischen Fortschritten der letzten 20 Jahre halte ich Zuverlässigkeit für wichtiger.
Ein Kommentar in einem Reddit-Thread über den aktuellen Stand von AI-Programmierung fasst mein Gefühl zusammen.
Ich halte mich an den Grundsatz, dass man den Code zumindest verstehen können muss, wenn AI ihn schreibt.
Ich denke, Workflows sind wichtiger als Agenten.
Google Flights bietet bereits eine perfekte UX.