Was wir beim Aufbau von AI-gestützten Funktionen gelernt haben

(newsletter.posthog.com)

20 Punkte von GN⁺ 2025-10-06 | Noch keine Kommentare. | Auf WhatsApp teilen

Praxisnahe Erkenntnisse aus 12 Monaten Entwicklung der AI-Funktion Max AI bei PostHog dienten als Grundlage für einen systematischen Leitfaden – von der Auswahl der richtigen Funktion über die Umsetzung bis zur Verbesserung
AI-Funktionen können ein Produkt sogar verschlechtern, wenn sie langsame, unzuverlässige oder bedeutungslose Probleme lösen, weshalb bewährte Muster (Datenabruf/Zusammenfassung, Generatoren, Tool-Nutzung) genutzt werden sollten
In der Umsetzungsphase sind Kontext und Statusverwaltung der App entscheidend; mit Query-Planung und bedingtem Routing lässt sich die AI in die richtige Richtung lenken, und mit Monitoring sowie Guardrails lässt sich auf Fehler vorbereiten
Für die Geschwindigkeitsoptimierung sollten Modell-Benchmarks kontinuierlich verfolgt, je nach Aufgabe schnelle und langsame Modelle kombiniert und asynchrone Verarbeitung genutzt werden
Für kontinuierliche Bewertung und Verbesserung sollten evals von Anfang an ergänzt, A/B-Tests durchgeführt, Wissenssilos rund um AI verhindert und AI-Expertise im gesamten Team verteilt werden

Auswählen, was man bauen will

Man sollte sich bewusst machen, dass AI ein Produkt verschlechtern kann, und keine falschen Funktionen bauen, die Probleme lösen, die zu langsam, zu unzuverlässig oder für niemanden relevant sind

1. Die Muster lernen, in denen AI gut ist

Bewährte AI-Muster übernehmen, um vertraute UX-Muster für Nutzer mit Dingen zu verbinden, die AI tatsächlich gut kann
- Erstes Muster: "Mit Dokumenten/Daten/PDFs sprechen" – AI ist stark bei Suche und Zusammenfassung und kann damit Berichte und Empfehlungen erzeugen (z. B. Intercoms Fin, Mintlifys Dokumenten-Chat)
- Zweites Muster: verschiedene Arten von Generatoren – sie erzeugen Titel, Code, Dokumente, SQL, Bilder, Filter usw. (z. B. Lovable, Bolt.new, Figma, Rippling, Notion)
- Drittes Muster: Tool-Nutzung – AI nutzt klar definierte Tools, um Workflows zu automatisieren und zu verbessern (z. B. MCP-Server, Zapier, Atlassian, Asana)
PostHogs Max AI nutzt mehrere Muster
- Mit Daten und Dokumenten sprechen
- SQL-Insights und Filter erzeugen
- Tool-Nutzung für Dinge wie Umfrageerstellung und Analyse-Insights
- Künftig ist eine Erweiterung der Tool-Nutzung geplant, etwa für automatisches Ansehen und Analysieren von Session Recordings

2. Probleme identifizieren, die AI lösen kann

Aufgaben im gesamten Produkt mit Fokus auf den Wert, den AI liefern kann, prüfen
- Klar abgegrenzte Einzelaufgaben, die mehr als 30 Sekunden dauern – lange Formulare ausfüllen, manuelle Dateneingabe, Integrationen einrichten, SDK installieren usw.
- Fälle, in denen Nutzer Sprache oder Interfaces verwenden müssen, die sie nicht verstehen – komplexe UI, SQL-Queries, App-Building usw.
- Aufgaben, die mehr als 20-mal wiederholt werden – Beschreibungen schreiben, Zusammenfassungen erstellen, Einträge anlegen usw.
Rat von Stephen Whitworth von incident.io: Fokus nicht auf "coole neue Dinge, die AI machen kann", sondern auf Dinge, die Nutzer hundertmal am Tag tun und die AI besser machen kann
- Beispiel: Nutzer bevorzugen automatisch erzeugte Incident-Zusammenfassungen deutlich gegenüber dem eigenen Schreiben; derzeit werden 75 % der Incident-Zusammenfassungen mit AI erzeugt
Anwendungsfälle bei PostHog
- AI-Installationsassistent: verkürzt die PostHog-Installationszeit von etwa 10 Minuten auf 90 Sekunden
- SQL-Übersetzung in Max AI: ermöglicht es, komplexe SQL-Queries einfach in natürlicher Sprache zu formulieren, sodass auch Nutzer ohne SQL-Erfahrung individuelle Insights erzeugen können

3. Prüfen, ob das Problem konkret und wertvoll ist

Der Umfang sollte auf ein konkretes und wertvolles Problem eingegrenzt werden
Fallstricke, die man vermeiden sollte
- Bewährte Muster auf wertlose Probleme anwenden: Eine Funktion wie "mit Dokumenten sprechen" ist für ein einfaches Produkt in einer frühen Phase unnötig und kann Kernprobleme der Usability verdecken
- Versuchen, mit AI ein zu großes Problem zu lösen: AI wird dir keine Milliarde Dollar einbringen; besser ist es, zuerst ein eng umrissenes Problem zu lösen und dann zu erweitern
Beim Aufbau von Max wurde schnell klar, dass zu breit formulierte Fragen wie "Wie steigern wir den Umsatz?" nicht wirksam sind
- Stattdessen lag der Fokus auf konkreten Funktionen, die in PostHog integriert sind und den PostHog-Kontext des Nutzers nutzen
- Beispiel: Max schreibt bessere SQL-Queries, weil es weiß, welche Tabellen verfügbar sind, und kann Produktfragen mit nativen Visualisierungen beantworten, weil es die eingebauten verfügbaren Tools versteht

Ideen umsetzen

Um sicherzustellen, dass das Geplante tatsächlich funktioniert, sollte man sich auf die Kernelemente konzentrieren

4. Kontext und Status der App sind entscheidend

Jeder kann die OpenAI API aufrufen, aber der Kontext der App ist einzigartig
Mögliche Daten, die einbezogen werden können
- Was der Nutzer tun will
- Wer es ausführt
- Status des Accounts
- Position in der App
- Datenschema der App
Informationen, die die API erhält, wenn Max gefragt wird: "Warum sind die Registrierungen letzte Woche zurückgegangen?"
- Aktuelle Seite (Dashboard, angezeigte Insights, angewendete Filter, Nutzerrolle)
- Datenschema (verfügbare Events, Event-Eigenschaften, Personen-Eigenschaften)
- Account (Organisations-Tier, Zeitzone, Aufbewahrungsdauer)
Formatierung von UI-Kontext anhand von Code-Beispielen
- Dashboard-Informationen (Name, angezeigte Insights, angewendete Filter, Datumsbereich)
- Insight-Informationen (Name, Query-Typ, analysierte Events, Aufschlüsselung)
Auch die Verarbeitung von „Kontext“ (Status) innerhalb des Workflows ist unerlässlich
- Es muss verhindert werden, dass im Verlauf einer Unterhaltung Kontext verloren geht, besonders wenn mehrere Sub-Agenten beteiligt sind
- Kontext in allen Teilen des Workflows speichern und mitgeben
Kontextoptimierung und Modellauswahl sind wirkungsvoller und nützlicher als Model-Fine-Tuning

5. AI mit Query-Planung und bedingtem Routing zum Erfolg führen

Lässt man AI ohne Einschränkungen laufen, zeigt sie alle möglichen unerwarteten Verhaltensweisen; deshalb braucht sie Führung, um erfolgreich zu sein
Umsetzung durch das Orchestrieren und Verbinden mehrerer Schritte: Query-Planung → Datenabruf → Visualisierung
Zusätzlich zur Statusverwaltung wird Folgendes benötigt
- Erkennen, welche Tools und Daten der AI zur Verfügung stehen
- Je nach beabsichtigter Aufgabe die richtigen Tools und Daten auswählen können
- Sicherstellen, dass Tools wie Query-Ausführung und Formatierung tatsächlich funktionieren
Beispiel für einen Router auf oberster Ebene bei PostHog
- Entscheidet, ob ein Insight erzeugt werden soll
- Entscheidet, ob Dokumente durchsucht werden sollen
- Entscheidet, ob es um Abrechnung geht
Jeder Router-Knoten hat eigene Bedingungen, die mit den richtigen Daten und Tools für die Aufgabe verbunden sind
- Dadurch wird sichergestellt, dass die AI die nötigen Bausteine hat, um die Aufgabe abzuschließen, was die Erfolgschancen erhöht

6. Mit Monitoring, Guardrails und Fehlerbehandlung auf Ausfälle vorbereiten

Die gebaute Struktur verhindert Fehler, aber AI wird letztlich doch gegen Guardrails stoßen, daher sind Guardrails unverzichtbar

Monitoring

Monitoring von Anfang an implementieren, damit klar ist, wann Probleme auftreten
Rat von Georgiy aus dem Max-AI-Team
- Monitoring von Produktions-Traces ist unverzichtbar
- Sie haben ein Monitoring-Tool fürs Dogfooding gebaut und hätten es gern von Anfang an gehabt
- Traces im großen Maßstab zu überwachen wird schwieriger, daher wären Online-Evaluierungen hilfreich (nächste Priorität)
- 100 Unterhaltungen zu prüfen ist schwierig, 1.000 Unterhaltungen am Tag zu prüfen unmöglich
- Diese Unterhaltungen sind echte Nutzerfragen und Probleme und liefern alle Insights, die man zum Aufbau von Agenten braucht

Halluzinationen verhindern

AI halluziniert alles, was sie halluzinieren kann, daher müssen Daten, die direkt gesetzt werden sollen, und Regeln, denen sie folgen muss, explizit gemacht werden
Beispielregeln für den AI-Installationsassistenten
- Niemals API-Keys halluzinieren. Stattdessen immer den in der .env-Datei eingetragenen API-Key verwenden
- Keine Platzhalter-Kommentare wie "// in einer echten App ..." hinzufügen
- Keine bestehende Business-Logik ändern oder Simulationscode hinzufügen
- Keine neuen Packages oder Libraries importieren, die nicht bereits genutzt werden
- Nicht annehmen, dass Authentifizierungs-Libraries (Clerk, Auth.js usw.) verfügbar sind

Guardrails für Nutzer

Wenn Menschen ein leeres Textfeld sehen, bekommen sie Angst und vergessen alles
Lösung: Vorschläge hinzufügen, wie die AI-Funktion genutzt werden kann, in die richtige Richtung lenken und an mögliche Aufgaben erinnern

Fehlerbehandlung

Workflows brechen gelegentlich ab, deshalb sollte man mit Retries und Rate Limits elegant damit umgehen
Für Power-User können LLM-Analysen, Error Tracking und Feature Flags eingerichtet werden
- PostHog bietet alle drei (praktischer Zufall)

Funktionen verbessern

AI-Modelle entwickeln sich schnell und unvorhersehbar weiter, daher benötigen AI-Funktionen mehr Wartung und kontinuierliche Verbesserung, als man erwartet

7. Wissenssilos rund um AI verhindern

Der Aufbau von AI-Funktionen sollte nicht die Verantwortung einer einzelnen "AI-Person" im Team sein
AI muss tief in das Produkt integriert werden, was die Expertise derjenigen erfordert, die mit Nutzern sprechen und etwas für sie bauen
Empfohlene Vorgehensweisen
- Primitives bauen und AI-Funktionen kombinierbar machen: So muss das Team Prompts, Streaming, Zustimmung, evals und Analytics nicht ständig neu erfinden und kann sich auf einzigartige, wertschöpfende AI-Funktionen konzentrieren
- Konsistente UX-Muster in der gesamten App beibehalten: Bei PostHog übernimmt das Max, um Verwirrung durch Tausende von AI-Widgets zu vermeiden
- AI-Experten vorübergehend in Teams einbetten: Das hilft Teams, AI-Funktionen schneller zu bauen, und verteilt AI-Wissen in der gesamten Organisation (macht das Max-AI-Team)

8. Auf Geschwindigkeit fokussieren

Eine der größten Herausforderungen bei AI-Funktionen, besonders komplexen, ist die Langsamkeit
Workflows bedeuten oft mehrere Aufrufe an LLM-Anbieter, was zu hoher Latenz führen kann
Das kann besonders frustrierend sein, wenn es alternative Wege gibt, Aufgaben in der App oder auf der Website zu erledigen
Rat von Rahul Vohra, Gründer von Superhuman: „Geschwindigkeit gewinnt“
- Beispiele: Instant Reply oder Auto Summarize
- Gmail und Outlook bieten ähnliche Funktionen, müssen Antworten und Zusammenfassungen aber erst auf Anfrage erzeugen, sodass man warten muss, bis sie fertig sind
- Bei Superhuman wird das vorab berechnet und ist deshalb immer sofort verfügbar; dieser einfache Unterschied hat enorme Auswirkungen auf die User Experience

So lässt sich das verbessern

Modell-Benchmarks und neue Modell-Releases im Blick behalten: Wenn bessere und schnellere Modelle erscheinen, können sie getestet und eingesetzt werden, um die größten Verbesserungen bei Funktion und Geschwindigkeit zu erzielen (mit LLM-Analysen)
Je nach Aufgabe schnelle und langsame Modelle mischen
- Für Titelerstellung, Session-Replay-Filter, Umfragezusammenfassungen und Insight-Suche werden schnelle Modelle (gpt-4.1-mini, gpt-4.1-nano) verwendet
- Für Schema-Erstellung, Gesprächsverarbeitung und Kontextverwaltung werden langsame Modelle (gpt-4.1) verwendet
Asynchrone Verarbeitung nutzen: Komplexe AI-Aufgaben wie Session-Zusammenfassungen und Musterextraktion laufen asynchron über Temporal-Workflows, sodass Nutzerinteraktionen nicht blockiert werden. Anschließend werden sie in Redis zwischengespeichert, um Retries ohne Neuberechnung zu unterstützen

9. Wirksamkeit kontinuierlich überwachen und bewerten

Neue Funktionen sollten nicht weniger streng beurteilt werden, nur weil sie ✨ AI ✨ sind
Schlechte Ideen können ein Produkt verschlechtern, und Änderungen an Modellen können die Experience unbemerkt negativ beeinflussen

Methoden zur Bewertung der Wirksamkeit

Früh evals hinzufügen: Schon kleine Gold- oder synthetische Datensätze bringen enorme Leistungsverbesserungen im Vergleich zum normalen Entwicklungszyklus. Auch im großen Maßstab war die Implementierung einfacher als erwartet und beschleunigt künftig den Aufbau weiterer Funktionen
A/B-Tests durchführen: Vergleich von AI-Funktionen mit der normalen Experience sowie Tests unterschiedlicher Prompts, Kontexte, Workflows usw.
AI-Nutzungsraten bei unterschiedlichen Kundentypen prüfen (z. B. Free-User vs. Enterprise, Produkt vs. Vertrieb)
- Die Erkenntnis, dass Produktmanager und Marketer Max häufiger nutzen als Produktingenieure – eigentlich das ideale Kundenprofil –, führte zu einer Neubewertung der Roadmap
Nutzer AI-Antworten als gut/schlecht bewerten lassen: Wenn Nutzer eine Antwort schlecht bewerten, nach zusätzlichen Details fragen und diese nutzen, um Kontext, Prompts und Workflows anzupassen
AI- und Nicht-AI-Nutzung vergleichen: Bestehende Aktivierungs- und Retention-Metriken nutzen, um zu verstehen, wo AI ideal in Produkt und Nutzerlebenszyklus passt und ob sie einen positiven Effekt hat

Schluss

Diese neun Lektionen stehen nicht für sich allein, sondern wirken zusammen
Es ist ein Fehler zu glauben, man könne direkt ans Ende springen und evals optimieren = ein großartiges Produkt bauen
Ziel ist es, etwas Wertvolles für Nutzer zu bauen, nicht eine schillernde Tech-Demo
Nur weil etwas AI ist, heißt das nicht, dass Nutzer darin Wert sehen
Alle Lektionen, die man über großartige Produkte gelernt hat, gelten weiterhin
- Mit Nutzern sprechen
- Schnell launchen
- Experimente durchführen
- Iterieren

Was wir beim Aufbau von AI-gestützten Funktionen gelernt haben

Auswählen, was man bauen will

1. Die Muster lernen, in denen AI gut ist

2. Probleme identifizieren, die AI lösen kann

3. Prüfen, ob das Problem konkret und wertvoll ist

Ideen umsetzen

4. Kontext und Status der App sind entscheidend

5. AI mit Query-Planung und bedingtem Routing zum Erfolg führen

6. Mit Monitoring, Guardrails und Fehlerbehandlung auf Ausfälle vorbereiten

Monitoring

Halluzinationen verhindern

Guardrails für Nutzer

Fehlerbehandlung

Funktionen verbessern

7. Wissenssilos rund um AI verhindern

8. Auf Geschwindigkeit fokussieren

So lässt sich das verbessern

9. Wirksamkeit kontinuierlich überwachen und bewerten

Methoden zur Bewertung der Wirksamkeit

Schluss

Verwandte Beiträge

Noch keine Kommentare.