- Praxisnahe Erkenntnisse aus 12 Monaten Entwicklung der AI-Funktion Max AI bei PostHog dienten als Grundlage für einen systematischen Leitfaden – von der Auswahl der richtigen Funktion über die Umsetzung bis zur Verbesserung
- AI-Funktionen können ein Produkt sogar verschlechtern, wenn sie langsame, unzuverlässige oder bedeutungslose Probleme lösen, weshalb bewährte Muster (Datenabruf/Zusammenfassung, Generatoren, Tool-Nutzung) genutzt werden sollten
- In der Umsetzungsphase sind Kontext und Statusverwaltung der App entscheidend; mit Query-Planung und bedingtem Routing lässt sich die AI in die richtige Richtung lenken, und mit Monitoring sowie Guardrails lässt sich auf Fehler vorbereiten
- Für die Geschwindigkeitsoptimierung sollten Modell-Benchmarks kontinuierlich verfolgt, je nach Aufgabe schnelle und langsame Modelle kombiniert und asynchrone Verarbeitung genutzt werden
- Für kontinuierliche Bewertung und Verbesserung sollten evals von Anfang an ergänzt, A/B-Tests durchgeführt, Wissenssilos rund um AI verhindert und AI-Expertise im gesamten Team verteilt werden
Auswählen, was man bauen will
- Man sollte sich bewusst machen, dass AI ein Produkt verschlechtern kann, und keine falschen Funktionen bauen, die Probleme lösen, die zu langsam, zu unzuverlässig oder für niemanden relevant sind
1. Die Muster lernen, in denen AI gut ist
- Bewährte AI-Muster übernehmen, um vertraute UX-Muster für Nutzer mit Dingen zu verbinden, die AI tatsächlich gut kann
- Erstes Muster: "Mit Dokumenten/Daten/PDFs sprechen" – AI ist stark bei Suche und Zusammenfassung und kann damit Berichte und Empfehlungen erzeugen (z. B. Intercoms Fin, Mintlifys Dokumenten-Chat)
- Zweites Muster: verschiedene Arten von Generatoren – sie erzeugen Titel, Code, Dokumente, SQL, Bilder, Filter usw. (z. B. Lovable, Bolt.new, Figma, Rippling, Notion)
- Drittes Muster: Tool-Nutzung – AI nutzt klar definierte Tools, um Workflows zu automatisieren und zu verbessern (z. B. MCP-Server, Zapier, Atlassian, Asana)
- PostHogs Max AI nutzt mehrere Muster
- Mit Daten und Dokumenten sprechen
- SQL-Insights und Filter erzeugen
- Tool-Nutzung für Dinge wie Umfrageerstellung und Analyse-Insights
- Künftig ist eine Erweiterung der Tool-Nutzung geplant, etwa für automatisches Ansehen und Analysieren von Session Recordings
2. Probleme identifizieren, die AI lösen kann
- Aufgaben im gesamten Produkt mit Fokus auf den Wert, den AI liefern kann, prüfen
- Klar abgegrenzte Einzelaufgaben, die mehr als 30 Sekunden dauern – lange Formulare ausfüllen, manuelle Dateneingabe, Integrationen einrichten, SDK installieren usw.
- Fälle, in denen Nutzer Sprache oder Interfaces verwenden müssen, die sie nicht verstehen – komplexe UI, SQL-Queries, App-Building usw.
- Aufgaben, die mehr als 20-mal wiederholt werden – Beschreibungen schreiben, Zusammenfassungen erstellen, Einträge anlegen usw.
- Rat von Stephen Whitworth von incident.io: Fokus nicht auf "coole neue Dinge, die AI machen kann", sondern auf Dinge, die Nutzer hundertmal am Tag tun und die AI besser machen kann
- Beispiel: Nutzer bevorzugen automatisch erzeugte Incident-Zusammenfassungen deutlich gegenüber dem eigenen Schreiben; derzeit werden 75 % der Incident-Zusammenfassungen mit AI erzeugt
- Anwendungsfälle bei PostHog
- AI-Installationsassistent: verkürzt die PostHog-Installationszeit von etwa 10 Minuten auf 90 Sekunden
- SQL-Übersetzung in Max AI: ermöglicht es, komplexe SQL-Queries einfach in natürlicher Sprache zu formulieren, sodass auch Nutzer ohne SQL-Erfahrung individuelle Insights erzeugen können
3. Prüfen, ob das Problem konkret und wertvoll ist
- Der Umfang sollte auf ein konkretes und wertvolles Problem eingegrenzt werden
- Fallstricke, die man vermeiden sollte
- Bewährte Muster auf wertlose Probleme anwenden: Eine Funktion wie "mit Dokumenten sprechen" ist für ein einfaches Produkt in einer frühen Phase unnötig und kann Kernprobleme der Usability verdecken
- Versuchen, mit AI ein zu großes Problem zu lösen: AI wird dir keine Milliarde Dollar einbringen; besser ist es, zuerst ein eng umrissenes Problem zu lösen und dann zu erweitern
- Beim Aufbau von Max wurde schnell klar, dass zu breit formulierte Fragen wie "Wie steigern wir den Umsatz?" nicht wirksam sind
- Stattdessen lag der Fokus auf konkreten Funktionen, die in PostHog integriert sind und den PostHog-Kontext des Nutzers nutzen
- Beispiel: Max schreibt bessere SQL-Queries, weil es weiß, welche Tabellen verfügbar sind, und kann Produktfragen mit nativen Visualisierungen beantworten, weil es die eingebauten verfügbaren Tools versteht
Ideen umsetzen
- Um sicherzustellen, dass das Geplante tatsächlich funktioniert, sollte man sich auf die Kernelemente konzentrieren
4. Kontext und Status der App sind entscheidend
- Jeder kann die OpenAI API aufrufen, aber der Kontext der App ist einzigartig
- Mögliche Daten, die einbezogen werden können
- Was der Nutzer tun will
- Wer es ausführt
- Status des Accounts
- Position in der App
- Datenschema der App
- Informationen, die die API erhält, wenn Max gefragt wird: "Warum sind die Registrierungen letzte Woche zurückgegangen?"
- Aktuelle Seite (Dashboard, angezeigte Insights, angewendete Filter, Nutzerrolle)
- Datenschema (verfügbare Events, Event-Eigenschaften, Personen-Eigenschaften)
- Account (Organisations-Tier, Zeitzone, Aufbewahrungsdauer)
- Formatierung von UI-Kontext anhand von Code-Beispielen
- Dashboard-Informationen (Name, angezeigte Insights, angewendete Filter, Datumsbereich)
- Insight-Informationen (Name, Query-Typ, analysierte Events, Aufschlüsselung)
- Auch die Verarbeitung von „Kontext“ (Status) innerhalb des Workflows ist unerlässlich
- Es muss verhindert werden, dass im Verlauf einer Unterhaltung Kontext verloren geht, besonders wenn mehrere Sub-Agenten beteiligt sind
- Kontext in allen Teilen des Workflows speichern und mitgeben
- Kontextoptimierung und Modellauswahl sind wirkungsvoller und nützlicher als Model-Fine-Tuning
5. AI mit Query-Planung und bedingtem Routing zum Erfolg führen
- Lässt man AI ohne Einschränkungen laufen, zeigt sie alle möglichen unerwarteten Verhaltensweisen; deshalb braucht sie Führung, um erfolgreich zu sein
- Umsetzung durch das Orchestrieren und Verbinden mehrerer Schritte: Query-Planung → Datenabruf → Visualisierung
- Zusätzlich zur Statusverwaltung wird Folgendes benötigt
- Erkennen, welche Tools und Daten der AI zur Verfügung stehen
- Je nach beabsichtigter Aufgabe die richtigen Tools und Daten auswählen können
- Sicherstellen, dass Tools wie Query-Ausführung und Formatierung tatsächlich funktionieren
- Beispiel für einen Router auf oberster Ebene bei PostHog
- Entscheidet, ob ein Insight erzeugt werden soll
- Entscheidet, ob Dokumente durchsucht werden sollen
- Entscheidet, ob es um Abrechnung geht
- Jeder Router-Knoten hat eigene Bedingungen, die mit den richtigen Daten und Tools für die Aufgabe verbunden sind
- Dadurch wird sichergestellt, dass die AI die nötigen Bausteine hat, um die Aufgabe abzuschließen, was die Erfolgschancen erhöht
6. Mit Monitoring, Guardrails und Fehlerbehandlung auf Ausfälle vorbereiten
- Die gebaute Struktur verhindert Fehler, aber AI wird letztlich doch gegen Guardrails stoßen, daher sind Guardrails unverzichtbar
Monitoring
- Monitoring von Anfang an implementieren, damit klar ist, wann Probleme auftreten
- Rat von Georgiy aus dem Max-AI-Team
- Monitoring von Produktions-Traces ist unverzichtbar
- Sie haben ein Monitoring-Tool fürs Dogfooding gebaut und hätten es gern von Anfang an gehabt
- Traces im großen Maßstab zu überwachen wird schwieriger, daher wären Online-Evaluierungen hilfreich (nächste Priorität)
- 100 Unterhaltungen zu prüfen ist schwierig, 1.000 Unterhaltungen am Tag zu prüfen unmöglich
- Diese Unterhaltungen sind echte Nutzerfragen und Probleme und liefern alle Insights, die man zum Aufbau von Agenten braucht
Halluzinationen verhindern
- AI halluziniert alles, was sie halluzinieren kann, daher müssen Daten, die direkt gesetzt werden sollen, und Regeln, denen sie folgen muss, explizit gemacht werden
- Beispielregeln für den AI-Installationsassistenten
- Niemals API-Keys halluzinieren. Stattdessen immer den in der
.env-Datei eingetragenen API-Key verwenden
- Keine Platzhalter-Kommentare wie "
// in einer echten App ..." hinzufügen
- Keine bestehende Business-Logik ändern oder Simulationscode hinzufügen
- Keine neuen Packages oder Libraries importieren, die nicht bereits genutzt werden
- Nicht annehmen, dass Authentifizierungs-Libraries (Clerk, Auth.js usw.) verfügbar sind
Guardrails für Nutzer
- Wenn Menschen ein leeres Textfeld sehen, bekommen sie Angst und vergessen alles
- Lösung: Vorschläge hinzufügen, wie die AI-Funktion genutzt werden kann, in die richtige Richtung lenken und an mögliche Aufgaben erinnern
Fehlerbehandlung
- Workflows brechen gelegentlich ab, deshalb sollte man mit Retries und Rate Limits elegant damit umgehen
- Für Power-User können LLM-Analysen, Error Tracking und Feature Flags eingerichtet werden
- PostHog bietet alle drei (praktischer Zufall)
Funktionen verbessern
- AI-Modelle entwickeln sich schnell und unvorhersehbar weiter, daher benötigen AI-Funktionen mehr Wartung und kontinuierliche Verbesserung, als man erwartet
7. Wissenssilos rund um AI verhindern
- Der Aufbau von AI-Funktionen sollte nicht die Verantwortung einer einzelnen "AI-Person" im Team sein
- AI muss tief in das Produkt integriert werden, was die Expertise derjenigen erfordert, die mit Nutzern sprechen und etwas für sie bauen
- Empfohlene Vorgehensweisen
- Primitives bauen und AI-Funktionen kombinierbar machen: So muss das Team Prompts, Streaming, Zustimmung, evals und Analytics nicht ständig neu erfinden und kann sich auf einzigartige, wertschöpfende AI-Funktionen konzentrieren
- Konsistente UX-Muster in der gesamten App beibehalten: Bei PostHog übernimmt das Max, um Verwirrung durch Tausende von AI-Widgets zu vermeiden
- AI-Experten vorübergehend in Teams einbetten: Das hilft Teams, AI-Funktionen schneller zu bauen, und verteilt AI-Wissen in der gesamten Organisation (macht das Max-AI-Team)
8. Auf Geschwindigkeit fokussieren
- Eine der größten Herausforderungen bei AI-Funktionen, besonders komplexen, ist die Langsamkeit
- Workflows bedeuten oft mehrere Aufrufe an LLM-Anbieter, was zu hoher Latenz führen kann
- Das kann besonders frustrierend sein, wenn es alternative Wege gibt, Aufgaben in der App oder auf der Website zu erledigen
- Rat von Rahul Vohra, Gründer von Superhuman: „Geschwindigkeit gewinnt“
- Beispiele: Instant Reply oder Auto Summarize
- Gmail und Outlook bieten ähnliche Funktionen, müssen Antworten und Zusammenfassungen aber erst auf Anfrage erzeugen, sodass man warten muss, bis sie fertig sind
- Bei Superhuman wird das vorab berechnet und ist deshalb immer sofort verfügbar; dieser einfache Unterschied hat enorme Auswirkungen auf die User Experience
So lässt sich das verbessern
- Modell-Benchmarks und neue Modell-Releases im Blick behalten: Wenn bessere und schnellere Modelle erscheinen, können sie getestet und eingesetzt werden, um die größten Verbesserungen bei Funktion und Geschwindigkeit zu erzielen (mit LLM-Analysen)
- Je nach Aufgabe schnelle und langsame Modelle mischen
- Für Titelerstellung, Session-Replay-Filter, Umfragezusammenfassungen und Insight-Suche werden schnelle Modelle (
gpt-4.1-mini, gpt-4.1-nano) verwendet
- Für Schema-Erstellung, Gesprächsverarbeitung und Kontextverwaltung werden langsame Modelle (
gpt-4.1) verwendet
- Asynchrone Verarbeitung nutzen: Komplexe AI-Aufgaben wie Session-Zusammenfassungen und Musterextraktion laufen asynchron über Temporal-Workflows, sodass Nutzerinteraktionen nicht blockiert werden. Anschließend werden sie in Redis zwischengespeichert, um Retries ohne Neuberechnung zu unterstützen
9. Wirksamkeit kontinuierlich überwachen und bewerten
- Neue Funktionen sollten nicht weniger streng beurteilt werden, nur weil sie ✨ AI ✨ sind
- Schlechte Ideen können ein Produkt verschlechtern, und Änderungen an Modellen können die Experience unbemerkt negativ beeinflussen
Methoden zur Bewertung der Wirksamkeit
- Früh evals hinzufügen: Schon kleine Gold- oder synthetische Datensätze bringen enorme Leistungsverbesserungen im Vergleich zum normalen Entwicklungszyklus. Auch im großen Maßstab war die Implementierung einfacher als erwartet und beschleunigt künftig den Aufbau weiterer Funktionen
- A/B-Tests durchführen: Vergleich von AI-Funktionen mit der normalen Experience sowie Tests unterschiedlicher Prompts, Kontexte, Workflows usw.
- AI-Nutzungsraten bei unterschiedlichen Kundentypen prüfen (z. B. Free-User vs. Enterprise, Produkt vs. Vertrieb)
- Die Erkenntnis, dass Produktmanager und Marketer Max häufiger nutzen als Produktingenieure – eigentlich das ideale Kundenprofil –, führte zu einer Neubewertung der Roadmap
- Nutzer AI-Antworten als gut/schlecht bewerten lassen: Wenn Nutzer eine Antwort schlecht bewerten, nach zusätzlichen Details fragen und diese nutzen, um Kontext, Prompts und Workflows anzupassen
- AI- und Nicht-AI-Nutzung vergleichen: Bestehende Aktivierungs- und Retention-Metriken nutzen, um zu verstehen, wo AI ideal in Produkt und Nutzerlebenszyklus passt und ob sie einen positiven Effekt hat
Schluss
- Diese neun Lektionen stehen nicht für sich allein, sondern wirken zusammen
- Es ist ein Fehler zu glauben, man könne direkt ans Ende springen und evals optimieren = ein großartiges Produkt bauen
- Ziel ist es, etwas Wertvolles für Nutzer zu bauen, nicht eine schillernde Tech-Demo
- Nur weil etwas AI ist, heißt das nicht, dass Nutzer darin Wert sehen
- Alle Lektionen, die man über großartige Produkte gelernt hat, gelten weiterhin
- Mit Nutzern sprechen
- Schnell launchen
- Experimente durchführen
- Iterieren
Noch keine Kommentare.