Die „pferdelose Kutsche“ im Zeitalter der AI

(koomen.dev)

21 Punkte von GN⁺ 2025-04-24 | 2 Kommentare | Auf WhatsApp teilen

Software mit AI zu entwickeln macht Spaß und ist produktiv, während die meisten AI-Apps wie ineffiziente „pferdelose Kutschen“ (horseless carriages) wirken, die nur bestehende Ansätze nachahmen
Der AI-E-Mail-Assistent von Gmail erzeugt übermäßig formelle Ergebnisse und bietet keine personalisierte Nutzererfahrung
Wirklich nützliche AI-Apps sollten es Nutzern ermöglichen, den System Prompt anzupassen, damit sie personalisierte Agenten erstellen können
Die ideale App im AI-Zeitalter sollte nicht bestehende Programme imitieren, sondern als AI-native Software wiederkehrende Aufgaben reduzieren und durch Automatisierung die Produktivität wirklich steigern
Das wahre Potenzial von AI liegt darin, durch die Automatisierung alltäglicher Arbeit Menschen zu helfen, sich auf wichtige und kreative Aufgaben zu konzentrieren

Warum es mehr Spaß macht, Software mit AI zu bauen, als mit AI gebaute Apps zu benutzen

Kürzlich wurde mir etwas Interessantes klar: Es ist angenehmer und produktiver, mit AI selbst Software zu entwickeln, als die meisten AI-basierten Apps zu benutzen
Wenn man AI als Entwicklungswerkzeug nutzt, hat man fast das Gefühl, alles, was man sich vorstellen kann, schnell bauen zu können
Viele AI-Apps hingegen haben AI nur oben drauf gesetzt und bieten in der Praxis wenig Nutzen oder sind sogar umständlich

Die „pferdelose Kutsche“ des AI-Zeitalters

Viele heutige AI-Apps folgen im Kern noch immer dem alten Software-Design
Dadurch werden leistungsfähige Modelle wie LLMs unnötig in ein enges Korsett gezwängt
Das lässt sich als „pferdelose Kutschen“ des AI-Zeitalters bezeichnen
- Ähnlich wie frühe Automobile zunächst die Form von Kutschen übernahmen und deshalb ineffizient waren

Ein Beispiel für schlecht designtes AI-App-Design: Gmails AI-Assistent

Gmail hat kürzlich eine Funktion eingeführt, die mit dem Gemini-Modell E-Mail-Entwürfe erstellt
Im Beispiel bittet der Nutzer (der Autor) um einen E-Mail-Entwurf an seinen Chef

Prompt: Bitte um einen E-Mail-Entwurf an den Chef

Der von Gemini erzeugte Entwurf ist grammatikalisch perfekt, klingt aber überhaupt nicht wie der Autor selbst schreiben würde
- Tatsächlicher Stil des Autors: "hey garry, my daughter woke up with the flu so I won't make it in today"
- Das Ergebnis von Gemini wirkt übertrieben formell und unnatürlich
Am Ende kostet es mehr Zeit, als die Mail einfach selbst zu schreiben
Der Autor beschreibt die Funktion als „wie das Management eines Mitarbeiters mit schwacher Performance“
Wahrscheinlich haben Millionen von Gmail-Nutzern Ähnliches erlebt und könnten deshalb fälschlich annehmen, AI könne noch keine guten E-Mails schreiben
Das Problem liegt aber nicht am Gemini-Modell selbst, sondern an der Art, wie das Gmail-Team die App entworfen hat

Ein Beispiel für einen besseren E-Mail-Assistenten

Hätte Gmail den E-Mail-Assistenten auf die folgende Weise gebaut, wäre er deutlich praktischer gewesen

Beispiel für einen E-Mail-Lese-Agenten

Diese Demo arbeitet nicht durch das Schreiben, sondern durch das Lesen und Verarbeiten von E-Mails
Verwendete Tools:
- labelEmail(label, color, priority) : weist einer E-Mail ein Label zu
- archiveEmail() : archiviert eine E-Mail
- draftReply(body) : erstellt einen Antwortentwurf
Die E-Mails im Posteingang sind wie folgt sortiert:
- TechCrunch Weekly
- Gustaf Alströmer - founder intro?
- HackerNews Digest
- The Verge Updates
- Garry Tan - reschedule
- und insgesamt 12 weitere
Jede E-Mail wird automatisch klassifiziert und priorisiert, einige erhalten automatisch Antwortentwürfe oder werden automatisch archiviert
Jede E-Mail wird entsprechend einem vom Nutzer definierten System Prompt individuell verarbeitet
Der Nutzer kann den System Prompt selbst anpassen und so seine eigene Logik für die Labelvergabe abbilden

Dieser Ansatz ist deutlich mächtiger, intuitiver und produktiver – warum hat das Gmail-Team die Funktion also nicht so entworfen?

Der Kern des Problems: ein typischer, einheitlicher Tonfall
- Eines der größten Probleme des Gmail-Designs ist der stereotype und charakterlose Schreibstil

AI Slop: formelle und unbeholfene Ausgaben

Die von Gmails Gemini erzeugten E-Mail-Entwürfe sind übermäßig langatmig, formell und stilistisch völlig anders als der Autor
Solche Ergebnisse können sogar wie Phishing-Mails wirken
Die meisten LLM-Nutzer haben das schon erlebt und greifen deshalb ganz natürlich zu einer Strategie, die oft Prompt Hacking genannt wird
- Beispiel-Prompt:
  
  "let my boss garry know that my daughter woke up with the flu and that I won't be able to come in to the office today. Use no more than one line for the entire email body. Make it friendly but really concise. Don't worry about punctuation or capitalization. Sign off with “Pete” or “pete” and not “Best Regards, Pete” and certainly not “Love, Pete”"
Die Qualität des Ergebnisses steigt zwar, aber der Prompt wird zu lang und es ist ineffizient, diesen Prozess jedes Mal zu wiederholen
Die einfache Lösung für dieses Problem: Nutzern das Recht geben, den System Prompt zu bearbeiten

Die Unterscheidung zwischen System Prompt und User Prompt

Ein LLM ist im Kern ein System, das auf Basis eingegebener Wörter (Prompts) das nächste Wort vorhersagt
Sämtliche Ein- und Ausgaben bestehen aus Text
- Zur Vereinfachung behandelt der Text nur textbasierte Interfaces, auch wenn in der Praxis Sprache oder Video ebenfalls Ein- und Ausgaben sein können
OpenAI, Anthropic und andere verwenden zur Vereinfachung eine Struktur, die Prompts in System Prompt und User Prompt trennt
- System Prompt: definiert Persönlichkeit und Verhaltensweise des Agenten (entspricht einer Funktion)
- User Prompt: konkrete Anfrage oder Frage des Nutzers (entspricht dem Eingabewert)
- Antwort des Modells: Ausgabewert

Beispiel:

User Prompt: "Let my boss Garry know that my daughter woke up with the flu this morning and that I won't be able to come in to the office today."

Vermuteter System Prompt von Gmail:

"You are a helpful email-writing assistant responsible for writing emails on behalf of a Gmail user. Follow the user’s instructions and use a formal, businessy tone and correct punctuation so that it’s obvious the user is smart and serious."

Das Problem ist, dass Gmail diesen System Prompt weder offenlegt noch Nutzern erlaubt, ihn zu ändern

Petes benutzerdefinierter System Prompt

Hätte Gmail den Nutzern statt eines einheitlichen System Prompts erlaubt, diesen selbst zu schreiben, hätte er etwa so ausgesehen:

You're Pete, a 43 year old husband, father, programmer, and YC Partner.
You're very busy and so is everyone you correspond with, so you do your best to keep your emails as short as possible and to the point. You avoid all unnecessary words and you often omit punctuation or leave misspellings unaddressed because it's not a big deal and you'd rather save the time. You prefer one-line emails.
Do your best to be kind, and don't be so informal that it comes across as rude.
Wenn man GPT auf Basis eines solchen System Prompts E-Mails schreiben lässt, erhält man ein Ergebnis wie dieses:

Garry, my daughter has the flu. I can't come in today.
Dieses Ergebnis ist kurz, persönlich und passend zum tatsächlichen Stil des Nutzers
Der größte Vorteil ist, dass sich dieser System Prompt wiederverwenden lässt, sodass derselbe Stil auch für alle späteren E-Mails gilt

Der Spaß und das Potenzial beim Schreiben eigener Prompts

Ein LLM so anzuleiten, dass es wie man selbst denkt, und das Ergebnis sofort zu sehen, ist sehr intuitiv und macht Spaß
Nutzern wird empfohlen, einen eigenen System Prompt zu schreiben, der ihren Stil definiert
- Beispiel-User-Prompts:
  
  "Let my wife know I'll be home from work late and will miss dinner"
  "Write an email to comcast customer service explaining that they accidentally double billed you last month."
Kommt ein gutes Ergebnis heraus, war die Erklärung ausreichend; wenn nicht, ergänzt man sie und wiederholt den Vorgang
Das kann durch die schnelle und ehrliche Feedback-Schleife sogar leichter sein, als einen Menschen etwas zu lehren

Warum legen die meisten AI-Apps den System Prompt nicht offen?

Stand April 2025 verstecken die meisten AI-Apps den System Prompt bewusst
- Relevanter Link: auf X erwähnte absichtliche nichtöffentliche Designentscheidung
Der Autor sieht darin einen Entzug von Nutzerhoheit und Individualität und argumentiert, dass der System Prompt für bessere Ergebnisse und eine bessere Nutzungserfahrung unbedingt offen zugänglich sein sollte

Horseless Carriages: altmodische Anwendung neuer Technologie

Wenn neue Technologie auftaucht, scheitern frühe Werkzeuge oft daran, dass sie einfach bestehende Muster nachahmen
Der Begriff „Horseless Carriage“ bezeichnet frühe Automobile, die dem Design pferdegezogener Kutschen folgten
- Beispiel: Trevithicks Dampfwagen-Entwurf von 1803
- Das wirkte damals innovativ, ist aus heutiger Sicht aber strukturell ungeeignet für ein Auto
Wer damals mit so einer Kutsche gefahren wäre, hätte vielleicht gedacht: „Pferde sind besser als Motoren“ – vor dem eigentlichen Auto war das ein nachvollziehbares Urteil
Der Autor meint, dass sich AI-Apps heute in einer ähnlichen Lage befinden
- Zum Beispiel bei Gmails Gemini-Funktion, wo AI nur auf ein veraltetes UX-Design aufgesetzt wurde
Die alte Denkweise blieb auf dem Niveau von „Ersetzen wir das Pferd durch einen Motor“ stehen
- Viele AI-Apps tun heute Ähnliches und ergänzen bestehende Apps nur um AI-Funktionen

Old World Thinking: die Grenzen traditioneller Software-Architektur

Früher gab es nur zwei Wege, Computer zu nutzen:
1. selbst programmieren
2. Programme verwenden, die jemand anderes gebaut hat
Da Programmierung schwierig ist, wählen die meisten den zweiten Weg
Deshalb ist die Softwareindustrie mit einer klaren Trennung zwischen Entwicklern und Nutzern gewachsen
- Entwickler: bestimmen das allgemeine Verhalten der Software
- Nutzer: liefern konkrete Eingaben
Die Trennung in System Prompt und User Prompt bei LLMs spiegelt genau diese Struktur wider
- System Prompt = Aufgabe der Entwickler
- User Prompt = Aufgabe der Nutzer
E-Mail ist jedoch ein sehr persönlicher Bereich, und wenn AI anstelle eines Menschen E-Mails schreibt, muss sie den individuellen Stil dieser Person widerspiegeln
In der alten Struktur ist Personalisierung schwierig, solange Nutzer das Programm nicht selbst schreiben
Im LLM-Zeitalter können Nutzer den System Prompt jedoch selbst schreiben
- Das heißt: Man kann das Verhalten von AI gestalten, ohne programmieren zu müssen

Geben wir den Nutzern zurück, was ihnen gehört

Die These des Autors: Wenn ein LLM an meiner Stelle handelt, sollte ich ihm selbst beibringen, wie es das tut (über den System Prompt)
Natürlich wollen nicht alle Nutzer Prompts von Grund auf selbst schreiben
- Gmail könnte auf Basis des bisherigen E-Mail-Verlaufs einen Standard-System-Prompt erzeugen
- Entscheidend ist aber, diesen Prompt sichtbar zu machen und bearbeitbar zu halten
„Was ist mit Menschen, die keine Prompts schreiben können?“ → Am Anfang mag das so sein, aber die meisten lernen es schnell
- Der Erfolg von ChatGPT belegt das
Und wie sieht es in Domänen wie Buchhaltung oder Recht aus, also nicht bei persönlichen Agenten?
- Dort sollte der System Prompt zwar von Fachexperten geschrieben werden, aber auch diese Experten wollen ihn an ihren Kontext anpassen
Beispiel: Das Accounting-Team von YC arbeitet mit YC-spezifischen Prozessen, Regeln und einer bestimmten Software-Kombination
- Ein allgemeiner Accounting-AI-Agent wäre für YC völlig nutzlos
Fast jedes Accounting-Team hat seine eigene Arbeitsweise und bevorzugt deshalb universelle Werkzeuge wie Excel
Fazit: In den meisten AI-Apps sollte der System Prompt direkt von den Nutzern geschrieben und gepflegt werden

AI-Apps sollten keine fertigen Agenten sein, sondern Werkzeuge, mit denen Nutzer ihre eigenen Agenten bauen können (agent builder)

Geben wir den Entwicklern zurück, was ihnen gehört

Was sollten Entwickler dann tun?
- Eine Agent-Builder-UI entwerfen, die auf bestimmte Domänen spezialisiert ist, etwa E-Mail oder Buchhaltung
- Templates und Hilfen zur Prompt-Erstellung bereitstellen, damit Nutzer nicht alles von Grund auf schreiben müssen
- Eine Feedback-Loop-Oberfläche bereitstellen, über die Nutzer Agent-Ergebnisse prüfen und korrigieren können
Entwickler stellen außerdem Agent Tools bereit
- etwa zum Einreichen von E-Mail-Entwürfen, zum automatischen Versand, zur E-Mail-Suche oder zur Anbindung externer APIs
Diese Tools dienen dazu, Handlungsspielraum und Sicherheit des Agenten zu kontrollieren
- Das Verhalten über in Code geschriebene Tools zu begrenzen, ist deutlich sicherer und klarer, als Einschränkungen nur im Text-Prompt zu formulieren

In Zukunft könnte die Sorge vor Prompt Injection geradezu lächerlich wirken
→ Grenzen in einer Textstruktur zu ziehen, ist ein Zeichen für eine schwache Abstraktion
→ Das gesamte System sollte als Nutzerraum verstanden und über starke Tools und UI kontrolliert werden

Der eigentliche Wert eines E-Mail-Agenten, der „liest“

Wie bereits erwähnt, spart selbst ein besserer System Prompt beim Schreiben von E-Mail-Entwürfen von Grund auf nicht besonders viel Zeit
Der Grund dafür ist, dass die E-Mails des Autors ohnehin sehr kurz und knapp sind
- Das heißt: Länge des User Prompts ≒ Länge des E-Mail-Textes
Der Autor hat viel experimentiert und dabei festgestellt, dass generative AI deutlich stärker bei Texttransformation als bei Textgenerierung ist
Der eigentliche Zweck von LLMs ist hier also nicht, E-Mails zu „schreiben“, sondern sie zu „lesen und zu verarbeiten“

Demo eines E-Mail-Lese-Agenten (auf Basis von gpt-4o-mini)

Verfügbare Tools:
- labelEmail(label, color, priority) : vergibt ein E-Mail-Label
- archiveEmail() : archiviert E-Mails automatisch
- draftReply(body) : erstellt automatisch einen Antwortentwurf
Dieser Agent liest jede E-Mail und:
- filtert Spam zuverlässig heraus
- vergibt Labels nach Wichtigkeit
- fasst Inhalte zusammen oder erstellt Antwortentwürfe
- archiviert unnötige Mails automatisch
Mit nur ein paar zusätzlichen Tools wäre sogar Folgendes möglich:
- Abos kündigen
- Termine eintragen
- Rechnungen automatisch bezahlen
Genau das sollte ein AI-nativer E-Mail-Client leisten:
→ langweilige, repetitive Arbeit automatisieren und so Zeit sparen
- Einige E-Mail-Clients wie Superhuman oder Zero entwickeln sich bereits in diese Richtung

Was AI-native Software bedeutet

Die eigentliche Killer-App von AI ist, dass der Computer Dinge übernimmt, die ich nicht selbst machen will
Der Autor hat diese Demo auch deshalb in den Text aufgenommen, um zu zeigen, dass LLMs solche Aufgaben heute bereits gut genug erledigen können
Das Problem ist nicht die Leistungsfähigkeit der AI, sondern das App-Design

Das Gmail-Team hat eine E-Mail-App mit aufgesetzter AI gebaut
→ kein Automatisierungswerkzeug für den Nutzer, sondern AI, die in ein menschenzentriertes Interface hineingezwängt wurde

AI-native Apps sollten stattdessen Folgendes leisten:
- den Hebel für Nutzer in einer bestimmten Domäne maximal vergrößern
- Beispiel: Ein AI-E-Mail-Client minimiert die Zeit fürs E-Mail-Schreiben
- Beispiel: AI-Buchhaltungssoftware minimiert die Zeit für Buchhaltungsaufgaben

Erwartungen an das AI-Zeitalter

Wiederholende und langweilige Aufgaben werden komplett von Agenten übernommen
Nutzer können sich auf wichtige Dinge konzentrieren
Man kann mehr von dem tun, worin man gut ist und was man gerne macht

Deshalb begeistert den Autor die Zukunft der AI
bessere Werkzeuge, bessere Nutzung der Zeit, höhere Produktivität

2 Kommentare

crawler 2025-04-24

Wirklich nützliche AI-Apps sollten es Nutzern ermöglichen, den System Prompt zu ändern, damit sie personalisierte Agenten erstellen können.

Natürlich wissen das auch die Entwickler, die solche Funktionen bauen, aber solange es Jailbreaks gibt, ist das nicht einfach.
Selbst wenn man fest einbaut, dass der System Prompt nicht geändert werden kann, gibt es Jailbreaks; daher ist es praktisch unmöglich, die Änderung des System Prompts freizugeben.
Außerdem könnte es sein, dass jemand es günstig für andere Zwecke als die ursprünglich gedachte Funktion nutzt.

GN⁺ 2025-04-24

Hacker-News-Kommentare

Beim Verwenden von Sprachmodellen zum persönlichen Verfassen von Nachrichten ist Vorsicht geboten. Es fehlt ihnen an der Konkretheit individueller Erfahrungen oder Kenntnisse.
- Wenn Modelle wie Gemini die Details früherer technischer Erklärungen oder konkreter eigener Arbeit verstehen könnten, wäre das leichter zu akzeptieren.
- In den meisten Fällen unterscheidet es sich jedoch kaum von E-Mails, die eine Sekretärin in den 1970er Jahren hätte schreiben können.
- Beim Verfassen persönlicher Nachrichten sind Zusammenfassungen unnötig, und das Aufblähen kurzer Nachrichten erzeugt nur bedeutungsloses Rauschen.
- Der Einsatz von AI zum Schreiben von Nachrichten verwischt die Grenzen der Informationsübermittlung.
90 % der AI-Funktionen wirken nutzlos und überteuert.
- Abgesehen von AI-Funktionen fürs Programmieren ist es schwer, nützliche AI-Features zu finden.
- Autovervollständigung in Gmail oder iMessage gab es schon vor LLMs.
- Ich habe die Gmail-Funktion nie benutzt, um E-Mails professioneller klingen zu lassen.
Gemini verhält sich wie eine persönliche Assistenz und verschickt E-Mails im Namen des Nutzers.
- Persönliche Nachrichten von einer AI verfassen zu lassen, kann das Gegenüber verärgern.
Kommunikation mit Menschen, denen Grammatik und Rechtschreibung egal sind, ist unerquicklich.
- Ich mache niemandem Vorwürfe, der schlecht buchstabiert, aber wenn jemand es besser könnte und sich trotzdem keine Mühe gibt, zeigt das Gleichgültigkeit gegenüber dem Gegenüber.
Das mit LLMs verbundene interaktive Widget war unterhaltsam.
- Der Button "E-Mail zusammenfassen" in Gmail wirkt unnötig.
Viele glauben, AI schreibe in einem vorhersehbaren Stil, aber das stimmt in Wirklichkeit nicht.
- Das gilt nicht nur für Text, sondern auch für die Bildgenerierung.
- Wenn Menschen merken, dass AI wie echte Personen sprechen kann, könnte ihnen das Unbehagen bereiten.
Das interaktive Demo in Echtzeit war gut.
- Es kann den E-Mail-Stil analysieren und einen Entwurf schreiben.
- Es könnte sich zu einem Modell weiterentwickeln, bei dem AI E-Mails automatisch verfasst und der Nutzer sie nur noch freigibt.
AI kann nicht wissen, was der Nutzer will, und Menschen haben Schwierigkeiten, ihre Ziele klar auszudrücken.
- Wenn AI alles übernimmt, denken Nutzer weniger tief nach, wodurch Fachlichkeit und Problemlösefähigkeit eingeschränkt werden.
Die nützlichsten AI-Funktionen sind unauffällig.
- Ein Assistent zur E-Mail-Kennzeichnung ist ein gutes Beispiel.
- Eine Funktion, die E-Mails zum "Verschieben eines Termins" automatisch interpretiert und Terminänderungen vorschlägt, ist nützlich.
Ich verstehe nicht, warum AI Nachrichten an meiner Stelle schreiben sollte.
- Bei wichtigen Nachrichten hat es Bedeutung, sie selbst zu verfassen; das ist Ausdruck einer lebendigen Interaktion.