5 Punkte von GN⁺ 2025-04-01 | 1 Kommentare | Auf WhatsApp teilen
  • Warum sind Flugbuchungen zum „Hello World“ von AI-Agenten-Demos geworden?
    • Nutzer bevorzugen eine bereits ausgereifte UX (z. B. Google Flights) gegenüber einer AI, die Flüge bucht
    • Schon ein einziger Fehler kann eine komplexe Kundenservice-Hölle auslösen
    • Intuitive und vorhersehbare Systeme sind oft innovativer
  • AI befindet sich noch in einem frühen Stadium, und normale Nutzer erwarten Konsistenz und Vorhersehbarkeit
    • Beispiel: Auch 80 % Genauigkeit können akzeptabel sein, wenn die Ergebnisse konsistent sind
      Dagegen untergräbt eine unregelmäßige Genauigkeit von 90 % das Vertrauen
    • Viele AI-Projekte übersehen das und streben nach spektakulären Demos und überzogenen Funktionen → am Ende geht Vertrauen verloren
  • Immer mehr IDEs verlieren an Transparenz
    • Nutzer können nicht erkennen, was die AI gerade tut
    • Beispiel: der auf Reddit viel diskutierte Vorfall, bei dem Cursor die gesamte Arbeit gelöscht hat
      • Teilweise lag es auch an mangelnder Versionsverwaltung durch den Nutzer, aber die eigentliche Ursache war das UI/UX-Design
      • Gutes Design sollte Fehler verhindern, klar erklären, was die AI tut, und eine Rückgängig-Funktion bereitstellen
  • Cursor war anfangs:
    • eine transparente, leichtgewichtige Interaktion mit Tab-Completion-Interface
    • wurde populär durch einen Ansatz, der schrittweise Vertrauen beim Nutzer aufbaute
    • einfaches und reversibles Design war wirksam, um Misstrauen gegenüber AI zu verringern
  • Devin, das 200 Millionen Dollar an Finanzierung erhalten hat, strebt einen „vollständig autonomen Agenten“ an
    • komplexes System, langsame Reaktionen, unvorhersehbare Ergebnisse führten zu einem Vertrauensbruch
    • ein zu ehrgeiziger Ansatz sorgte eher für Verwirrung bei den Nutzern

Schnelligkeit vs. Zuverlässigkeit: Das Dilemma von AI-Entwicklungsteams

  • AI-Entwicklungsteams müssen sich zwischen Folgendem entscheiden:
    • sich schnell bewegen und Fehler in Kauf nehmen
    • Zuverlässigkeit und Stabilität priorisieren
  • Die Antwort ist, sich auf Funktionen zu konzentrieren, die in einem kleinen Bereich hervorragende Ergebnisse liefern, und sie kontinuierlich iterativ zu verbessern

Kernprinzip: Vorhersehbarkeit statt Komplexität

  • Man sollte sich eher auf gut verstandene Aufgaben als auf komplexe Systeme konzentrieren
  • AI-Agenten bleiben weiterhin transformativ, aber diese drei Punkte sollten im Zentrum stehen:
    • Zuverlässigkeit
    • Transparenz
    • Vorhersehbarkeit

Workflow vs. Agenten

  • Anthropics Framing: „Wenn sich eine Aufgabe als Workflow ausdrücken lässt, sollte man einen Workflow bauen und keinen Agenten“
    • Workflows sind vorhersehbar, kontrollierbar und einfach
    • Agenten sind komplex und schwer zu kontrollieren und sollten deshalb nur in wirklich dynamischen Situationen eingesetzt werden

1 Kommentare

 
GN⁺ 2025-04-01
Hacker-News-Kommentare
  • Der Agent für "Flugbuchungen" ist inzwischen zum Running Gag geworden. Er wurde auch in der jüngsten Keynote von Swyx auf einem AI-Engineering-Event erwähnt.

    • Ich denke, dieser Artikel unterschätzt die Schwierigkeit dieses Problems.
    • Bei UIs, in die Menschen etwas eingeben oder mit denen sie dialogisch interagieren, gibt es unendlich viele Fehlermöglichkeiten.
    • Menschen drücken sich nur schlecht eindeutig aus, und es fällt ihnen auch schwer, die Funktionen von Software genau zu verstehen.
  • Forscher von Google DeepMind arbeiten an Forschung, um die Zuverlässigkeit von Agenten zu erhöhen.

    • Eine strenge Evaluation, die das Nutzerverhalten repräsentiert, ist wichtig.
    • Sie haben eine Demo mit fortgeschrittenem Reasoning eines Agenten zu den 80.000 Seiten der JFK-Aktenveröffentlichung veröffentlicht.
    • Selbst bei einer kleinen Menge an Dateien gibt es große Unterschiede bei Zuverlässigkeit/Genauigkeit gegenüber den großen AI-Playern.
  • Flugbuchungen sind eine Aufgabe, die man AI nicht überlassen kann.

    • Bei Familienreisen oder persönlichen Reisen braucht es viele Kniffe.
    • Es gibt viele Faktoren, darunter offizielle Websites, Preisvergleich, Datumsprüfung und die Berücksichtigung von Kreditkartenpunkten.
  • In vielen Fällen neigen Menschen dazu, AI in bestehende Workflows einzupassen.

    • Bestehende Workflows haben bereits optimierte UX/UI.
    • Der Einsatz von AI muss keine Lösung zur Problemlösung sein.
  • Aus meinen Erfahrungen mit Cursor bin ich zu dem Schluss gekommen, dass Zuverlässigkeit wichtig ist.

    • Die Ausgaben schneller Modelle brauchen mehr Korrekturen.
    • Es ist wichtig, bestimmte Bibliotheken klar zu verwenden.
  • Bei den technologischen Fortschritten der letzten 20 Jahre halte ich Zuverlässigkeit für wichtiger.

    • Wir brauchen nur ein paar neue Funktionen wie Smartphones, Fahrtrouten und Cloud-Speicher.
    • Jetzt sind Akkulaufzeit und Kindersicherungsfunktionen auf den Geräten der Kinder wichtig.
  • Ein Kommentar in einem Reddit-Thread über den aktuellen Stand von AI-Programmierung fasst mein Gefühl zusammen.

    • Neue Ingenieure, die durch AI ins Programmieren einsteigen, übersehen grundlegende Essentials.
    • Aber es beruhigt mich, dass es für mich immer noch einen Platz gibt.
  • Ich halte mich an den Grundsatz, dass man den Code zumindest verstehen können muss, wenn AI ihn schreibt.

    • Ich kann der Art der "Vibe Coder" nicht folgen, die den von AI geschriebenen Code nicht verstehen.
  • Ich denke, Workflows sind wichtiger als Agenten.

    • Man kann Workflows nutzen, wenn Agenten bereit sind, Aufgaben mit hoher Genauigkeit auszuführen.
    • Ich werde Wege finden, effektive, präzise und leicht diagnostizierbare Workflows zu schaffen.
  • Google Flights bietet bereits eine perfekte UX.

    • Ich denke, Websuche ist bei der Nutzung von AI-Agenten zuverlässiger und schneller.
    • Ich bin nicht sicher, ob AI nützlich wird, und ich frage mich, ob überhaupt richtig getestet wurde.