Die „pferdelose Kutsche“ im Zeitalter der AI
(koomen.dev)- Software mit AI zu entwickeln macht Spaß und ist produktiv, während die meisten AI-Apps wie ineffiziente „pferdelose Kutschen“ (horseless carriages) wirken, die nur bestehende Ansätze nachahmen
- Der AI-E-Mail-Assistent von Gmail erzeugt übermäßig formelle Ergebnisse und bietet keine personalisierte Nutzererfahrung
- Wirklich nützliche AI-Apps sollten es Nutzern ermöglichen, den System Prompt anzupassen, damit sie personalisierte Agenten erstellen können
- Die ideale App im AI-Zeitalter sollte nicht bestehende Programme imitieren, sondern als AI-native Software wiederkehrende Aufgaben reduzieren und durch Automatisierung die Produktivität wirklich steigern
- Das wahre Potenzial von AI liegt darin, durch die Automatisierung alltäglicher Arbeit Menschen zu helfen, sich auf wichtige und kreative Aufgaben zu konzentrieren
Warum es mehr Spaß macht, Software mit AI zu bauen, als mit AI gebaute Apps zu benutzen
- Kürzlich wurde mir etwas Interessantes klar: Es ist angenehmer und produktiver, mit AI selbst Software zu entwickeln, als die meisten AI-basierten Apps zu benutzen
- Wenn man AI als Entwicklungswerkzeug nutzt, hat man fast das Gefühl, alles, was man sich vorstellen kann, schnell bauen zu können
- Viele AI-Apps hingegen haben AI nur oben drauf gesetzt und bieten in der Praxis wenig Nutzen oder sind sogar umständlich
Die „pferdelose Kutsche“ des AI-Zeitalters
- Viele heutige AI-Apps folgen im Kern noch immer dem alten Software-Design
- Dadurch werden leistungsfähige Modelle wie LLMs unnötig in ein enges Korsett gezwängt
- Das lässt sich als „pferdelose Kutschen“ des AI-Zeitalters bezeichnen
- Ähnlich wie frühe Automobile zunächst die Form von Kutschen übernahmen und deshalb ineffizient waren
Ein Beispiel für schlecht designtes AI-App-Design: Gmails AI-Assistent
- Gmail hat kürzlich eine Funktion eingeführt, die mit dem Gemini-Modell E-Mail-Entwürfe erstellt
- Im Beispiel bittet der Nutzer (der Autor) um einen E-Mail-Entwurf an seinen Chef
Prompt: Bitte um einen E-Mail-Entwurf an den Chef
- Der von Gemini erzeugte Entwurf ist grammatikalisch perfekt, klingt aber überhaupt nicht wie der Autor selbst schreiben würde
- Tatsächlicher Stil des Autors: "hey garry, my daughter woke up with the flu so I won't make it in today"
- Das Ergebnis von Gemini wirkt übertrieben formell und unnatürlich
- Am Ende kostet es mehr Zeit, als die Mail einfach selbst zu schreiben
- Der Autor beschreibt die Funktion als „wie das Management eines Mitarbeiters mit schwacher Performance“
- Wahrscheinlich haben Millionen von Gmail-Nutzern Ähnliches erlebt und könnten deshalb fälschlich annehmen, AI könne noch keine guten E-Mails schreiben
- Das Problem liegt aber nicht am Gemini-Modell selbst, sondern an der Art, wie das Gmail-Team die App entworfen hat
Ein Beispiel für einen besseren E-Mail-Assistenten
- Hätte Gmail den E-Mail-Assistenten auf die folgende Weise gebaut, wäre er deutlich praktischer gewesen
Beispiel für einen E-Mail-Lese-Agenten
-
Diese Demo arbeitet nicht durch das Schreiben, sondern durch das Lesen und Verarbeiten von E-Mails
-
Verwendete Tools:
labelEmail(label, color, priority): weist einer E-Mail ein Label zuarchiveEmail(): archiviert eine E-MaildraftReply(body): erstellt einen Antwortentwurf
-
Die E-Mails im Posteingang sind wie folgt sortiert:
- TechCrunch Weekly
- Gustaf Alströmer - founder intro?
- HackerNews Digest
- The Verge Updates
- Garry Tan - reschedule
- und insgesamt 12 weitere
-
Jede E-Mail wird automatisch klassifiziert und priorisiert, einige erhalten automatisch Antwortentwürfe oder werden automatisch archiviert
-
Jede E-Mail wird entsprechend einem vom Nutzer definierten System Prompt individuell verarbeitet
-
Der Nutzer kann den System Prompt selbst anpassen und so seine eigene Logik für die Labelvergabe abbilden
Dieser Ansatz ist deutlich mächtiger, intuitiver und produktiver – warum hat das Gmail-Team die Funktion also nicht so entworfen?
- Der Kern des Problems: ein typischer, einheitlicher Tonfall
- Eines der größten Probleme des Gmail-Designs ist der stereotype und charakterlose Schreibstil
AI Slop: formelle und unbeholfene Ausgaben
- Die von Gmails Gemini erzeugten E-Mail-Entwürfe sind übermäßig langatmig, formell und stilistisch völlig anders als der Autor
- Solche Ergebnisse können sogar wie Phishing-Mails wirken
- Die meisten LLM-Nutzer haben das schon erlebt und greifen deshalb ganz natürlich zu einer Strategie, die oft Prompt Hacking genannt wird
- Beispiel-Prompt:
"let my boss garry know that my daughter woke up with the flu and that I won't be able to come in to the office today. Use no more than one line for the entire email body. Make it friendly but really concise. Don't worry about punctuation or capitalization. Sign off with “Pete” or “pete” and not “Best Regards, Pete” and certainly not “Love, Pete”"
- Beispiel-Prompt:
- Die Qualität des Ergebnisses steigt zwar, aber der Prompt wird zu lang und es ist ineffizient, diesen Prozess jedes Mal zu wiederholen
- Die einfache Lösung für dieses Problem: Nutzern das Recht geben, den System Prompt zu bearbeiten
Die Unterscheidung zwischen System Prompt und User Prompt
- Ein LLM ist im Kern ein System, das auf Basis eingegebener Wörter (Prompts) das nächste Wort vorhersagt
- Sämtliche Ein- und Ausgaben bestehen aus Text
- Zur Vereinfachung behandelt der Text nur textbasierte Interfaces, auch wenn in der Praxis Sprache oder Video ebenfalls Ein- und Ausgaben sein können
- OpenAI, Anthropic und andere verwenden zur Vereinfachung eine Struktur, die Prompts in System Prompt und User Prompt trennt
- System Prompt: definiert Persönlichkeit und Verhaltensweise des Agenten (entspricht einer Funktion)
- User Prompt: konkrete Anfrage oder Frage des Nutzers (entspricht dem Eingabewert)
- Antwort des Modells: Ausgabewert
Beispiel:
- User Prompt: "Let my boss Garry know that my daughter woke up with the flu this morning and that I won't be able to come in to the office today."
- Vermuteter System Prompt von Gmail:
- "You are a helpful email-writing assistant responsible for writing emails on behalf of a Gmail user. Follow the user’s instructions and use a formal, businessy tone and correct punctuation so that it’s obvious the user is smart and serious."
- Das Problem ist, dass Gmail diesen System Prompt weder offenlegt noch Nutzern erlaubt, ihn zu ändern
Petes benutzerdefinierter System Prompt
-
Hätte Gmail den Nutzern statt eines einheitlichen System Prompts erlaubt, diesen selbst zu schreiben, hätte er etwa so ausgesehen:
You're Pete, a 43 year old husband, father, programmer, and YC Partner.
You're very busy and so is everyone you correspond with, so you do your best to keep your emails as short as possible and to the point. You avoid all unnecessary words and you often omit punctuation or leave misspellings unaddressed because it's not a big deal and you'd rather save the time. You prefer one-line emails.
Do your best to be kind, and don't be so informal that it comes across as rude. -
Wenn man GPT auf Basis eines solchen System Prompts E-Mails schreiben lässt, erhält man ein Ergebnis wie dieses:
Garry, my daughter has the flu. I can't come in today.
-
Dieses Ergebnis ist kurz, persönlich und passend zum tatsächlichen Stil des Nutzers
-
Der größte Vorteil ist, dass sich dieser System Prompt wiederverwenden lässt, sodass derselbe Stil auch für alle späteren E-Mails gilt
Der Spaß und das Potenzial beim Schreiben eigener Prompts
- Ein LLM so anzuleiten, dass es wie man selbst denkt, und das Ergebnis sofort zu sehen, ist sehr intuitiv und macht Spaß
- Nutzern wird empfohlen, einen eigenen System Prompt zu schreiben, der ihren Stil definiert
- Beispiel-User-Prompts:
"Let my wife know I'll be home from work late and will miss dinner"
"Write an email to comcast customer service explaining that they accidentally double billed you last month."
- Beispiel-User-Prompts:
- Kommt ein gutes Ergebnis heraus, war die Erklärung ausreichend; wenn nicht, ergänzt man sie und wiederholt den Vorgang
- Das kann durch die schnelle und ehrliche Feedback-Schleife sogar leichter sein, als einen Menschen etwas zu lehren
Warum legen die meisten AI-Apps den System Prompt nicht offen?
- Stand April 2025 verstecken die meisten AI-Apps den System Prompt bewusst
- Der Autor sieht darin einen Entzug von Nutzerhoheit und Individualität und argumentiert, dass der System Prompt für bessere Ergebnisse und eine bessere Nutzungserfahrung unbedingt offen zugänglich sein sollte
Horseless Carriages: altmodische Anwendung neuer Technologie
- Wenn neue Technologie auftaucht, scheitern frühe Werkzeuge oft daran, dass sie einfach bestehende Muster nachahmen
- Der Begriff „Horseless Carriage“ bezeichnet frühe Automobile, die dem Design pferdegezogener Kutschen folgten
- Beispiel: Trevithicks Dampfwagen-Entwurf von 1803
- Das wirkte damals innovativ, ist aus heutiger Sicht aber strukturell ungeeignet für ein Auto
- Wer damals mit so einer Kutsche gefahren wäre, hätte vielleicht gedacht: „Pferde sind besser als Motoren“ – vor dem eigentlichen Auto war das ein nachvollziehbares Urteil
- Der Autor meint, dass sich AI-Apps heute in einer ähnlichen Lage befinden
- Zum Beispiel bei Gmails Gemini-Funktion, wo AI nur auf ein veraltetes UX-Design aufgesetzt wurde
- Die alte Denkweise blieb auf dem Niveau von „Ersetzen wir das Pferd durch einen Motor“ stehen
- Viele AI-Apps tun heute Ähnliches und ergänzen bestehende Apps nur um AI-Funktionen
Old World Thinking: die Grenzen traditioneller Software-Architektur
- Früher gab es nur zwei Wege, Computer zu nutzen:
- selbst programmieren
- Programme verwenden, die jemand anderes gebaut hat
- Da Programmierung schwierig ist, wählen die meisten den zweiten Weg
- Deshalb ist die Softwareindustrie mit einer klaren Trennung zwischen Entwicklern und Nutzern gewachsen
- Entwickler: bestimmen das allgemeine Verhalten der Software
- Nutzer: liefern konkrete Eingaben
- Die Trennung in System Prompt und User Prompt bei LLMs spiegelt genau diese Struktur wider
- System Prompt = Aufgabe der Entwickler
- User Prompt = Aufgabe der Nutzer
- E-Mail ist jedoch ein sehr persönlicher Bereich, und wenn AI anstelle eines Menschen E-Mails schreibt, muss sie den individuellen Stil dieser Person widerspiegeln
- In der alten Struktur ist Personalisierung schwierig, solange Nutzer das Programm nicht selbst schreiben
- Im LLM-Zeitalter können Nutzer den System Prompt jedoch selbst schreiben
- Das heißt: Man kann das Verhalten von AI gestalten, ohne programmieren zu müssen
Geben wir den Nutzern zurück, was ihnen gehört
- Die These des Autors: Wenn ein LLM an meiner Stelle handelt, sollte ich ihm selbst beibringen, wie es das tut (über den System Prompt)
- Natürlich wollen nicht alle Nutzer Prompts von Grund auf selbst schreiben
- Gmail könnte auf Basis des bisherigen E-Mail-Verlaufs einen Standard-System-Prompt erzeugen
- Entscheidend ist aber, diesen Prompt sichtbar zu machen und bearbeitbar zu halten
- „Was ist mit Menschen, die keine Prompts schreiben können?“ → Am Anfang mag das so sein, aber die meisten lernen es schnell
- Der Erfolg von ChatGPT belegt das
- Und wie sieht es in Domänen wie Buchhaltung oder Recht aus, also nicht bei persönlichen Agenten?
- Dort sollte der System Prompt zwar von Fachexperten geschrieben werden, aber auch diese Experten wollen ihn an ihren Kontext anpassen
- Beispiel: Das Accounting-Team von YC arbeitet mit YC-spezifischen Prozessen, Regeln und einer bestimmten Software-Kombination
- Ein allgemeiner Accounting-AI-Agent wäre für YC völlig nutzlos
- Fast jedes Accounting-Team hat seine eigene Arbeitsweise und bevorzugt deshalb universelle Werkzeuge wie Excel
- Fazit: In den meisten AI-Apps sollte der System Prompt direkt von den Nutzern geschrieben und gepflegt werden
AI-Apps sollten keine fertigen Agenten sein, sondern Werkzeuge, mit denen Nutzer ihre eigenen Agenten bauen können (agent builder)
Geben wir den Entwicklern zurück, was ihnen gehört
- Was sollten Entwickler dann tun?
- Eine Agent-Builder-UI entwerfen, die auf bestimmte Domänen spezialisiert ist, etwa E-Mail oder Buchhaltung
- Templates und Hilfen zur Prompt-Erstellung bereitstellen, damit Nutzer nicht alles von Grund auf schreiben müssen
- Eine Feedback-Loop-Oberfläche bereitstellen, über die Nutzer Agent-Ergebnisse prüfen und korrigieren können
- Entwickler stellen außerdem Agent Tools bereit
- etwa zum Einreichen von E-Mail-Entwürfen, zum automatischen Versand, zur E-Mail-Suche oder zur Anbindung externer APIs
- Diese Tools dienen dazu, Handlungsspielraum und Sicherheit des Agenten zu kontrollieren
- Das Verhalten über in Code geschriebene Tools zu begrenzen, ist deutlich sicherer und klarer, als Einschränkungen nur im Text-Prompt zu formulieren
In Zukunft könnte die Sorge vor Prompt Injection geradezu lächerlich wirken
→ Grenzen in einer Textstruktur zu ziehen, ist ein Zeichen für eine schwache Abstraktion
→ Das gesamte System sollte als Nutzerraum verstanden und über starke Tools und UI kontrolliert werden
Der eigentliche Wert eines E-Mail-Agenten, der „liest“
- Wie bereits erwähnt, spart selbst ein besserer System Prompt beim Schreiben von E-Mail-Entwürfen von Grund auf nicht besonders viel Zeit
- Der Grund dafür ist, dass die E-Mails des Autors ohnehin sehr kurz und knapp sind
- Das heißt: Länge des User Prompts ≒ Länge des E-Mail-Textes
- Der Autor hat viel experimentiert und dabei festgestellt, dass generative AI deutlich stärker bei Texttransformation als bei Textgenerierung ist
- Der eigentliche Zweck von LLMs ist hier also nicht, E-Mails zu „schreiben“, sondern sie zu „lesen und zu verarbeiten“
Demo eines E-Mail-Lese-Agenten (auf Basis von gpt-4o-mini)
- Verfügbare Tools:
labelEmail(label, color, priority): vergibt ein E-Mail-LabelarchiveEmail(): archiviert E-Mails automatischdraftReply(body): erstellt automatisch einen Antwortentwurf
- Dieser Agent liest jede E-Mail und:
- filtert Spam zuverlässig heraus
- vergibt Labels nach Wichtigkeit
- fasst Inhalte zusammen oder erstellt Antwortentwürfe
- archiviert unnötige Mails automatisch
- Mit nur ein paar zusätzlichen Tools wäre sogar Folgendes möglich:
- Abos kündigen
- Termine eintragen
- Rechnungen automatisch bezahlen
- Genau das sollte ein AI-nativer E-Mail-Client leisten:
→ langweilige, repetitive Arbeit automatisieren und so Zeit sparen- Einige E-Mail-Clients wie Superhuman oder Zero entwickeln sich bereits in diese Richtung
Was AI-native Software bedeutet
- Die eigentliche Killer-App von AI ist, dass der Computer Dinge übernimmt, die ich nicht selbst machen will
- Der Autor hat diese Demo auch deshalb in den Text aufgenommen, um zu zeigen, dass LLMs solche Aufgaben heute bereits gut genug erledigen können
- Das Problem ist nicht die Leistungsfähigkeit der AI, sondern das App-Design
Das Gmail-Team hat eine E-Mail-App mit aufgesetzter AI gebaut
→ kein Automatisierungswerkzeug für den Nutzer, sondern AI, die in ein menschenzentriertes Interface hineingezwängt wurde
- AI-native Apps sollten stattdessen Folgendes leisten:
- den Hebel für Nutzer in einer bestimmten Domäne maximal vergrößern
- Beispiel: Ein AI-E-Mail-Client minimiert die Zeit fürs E-Mail-Schreiben
- Beispiel: AI-Buchhaltungssoftware minimiert die Zeit für Buchhaltungsaufgaben
Erwartungen an das AI-Zeitalter
- Wiederholende und langweilige Aufgaben werden komplett von Agenten übernommen
- Nutzer können sich auf wichtige Dinge konzentrieren
- Man kann mehr von dem tun, worin man gut ist und was man gerne macht
Deshalb begeistert den Autor die Zukunft der AI
bessere Werkzeuge, bessere Nutzung der Zeit, höhere Produktivität
2 Kommentare
Natürlich wissen das auch die Entwickler, die solche Funktionen bauen, aber solange es Jailbreaks gibt, ist das nicht einfach.
Selbst wenn man fest einbaut, dass der System Prompt nicht geändert werden kann, gibt es Jailbreaks; daher ist es praktisch unmöglich, die Änderung des System Prompts freizugeben.
Außerdem könnte es sein, dass jemand es günstig für andere Zwecke als die ursprünglich gedachte Funktion nutzt.
Hacker-News-Kommentare
Beim Verwenden von Sprachmodellen zum persönlichen Verfassen von Nachrichten ist Vorsicht geboten. Es fehlt ihnen an der Konkretheit individueller Erfahrungen oder Kenntnisse.
90 % der AI-Funktionen wirken nutzlos und überteuert.
Gemini verhält sich wie eine persönliche Assistenz und verschickt E-Mails im Namen des Nutzers.
Kommunikation mit Menschen, denen Grammatik und Rechtschreibung egal sind, ist unerquicklich.
Das mit LLMs verbundene interaktive Widget war unterhaltsam.
Viele glauben, AI schreibe in einem vorhersehbaren Stil, aber das stimmt in Wirklichkeit nicht.
Das interaktive Demo in Echtzeit war gut.
AI kann nicht wissen, was der Nutzer will, und Menschen haben Schwierigkeiten, ihre Ziele klar auszudrücken.
Die nützlichsten AI-Funktionen sind unauffällig.
Ich verstehe nicht, warum AI Nachrichten an meiner Stelle schreiben sollte.