Praxisleitfaden zur schnellen Verbesserung von AI-Produkten

(hamel.dev)

9 Punkte von GN⁺ 2025-04-02 | Noch keine Kommentare. | Auf WhatsApp teilen

Viele AI-Teams konzentrieren sich nur auf die Tool-Auswahl und übersehen dabei das eigentlich Wichtige: Wirkungsmessung und iteratives Lernen
Der Autor stellt auf Basis seiner Erfahrung aus dem Aufbau von mehr als 30 AI-Produkten die gemeinsamen Arbeitsweisen erfolgreicher Teams vor
Der Kern ist eine messorientierte Denkweise und der Aufbau einer experimentbasierten Roadmap

1. Der häufigste Fehler: Fehleranalyse auslassen

Die meisten AI-Teams sind auf Architektur oder Framework-Design fixiert und messen die tatsächliche Wirkung nicht
Allgemeine Dashboard-Metriken helfen nicht
- Fixierung auf bedeutungslose „Vanity Metrics“
- Zu viele Metriken zerstreuen den Fokus des Teams
Fehleranalyse ist die Aktivität mit dem höchsten ROI
- Echte Gesprächslogs prüfen
- Fehlertypen klassifizieren
- Tests für das jeweilige Problem schreiben und Verbesserungen messen
Beispiel NurtureBoss:
- Fehler bei der Datumsverarbeitung behoben
- Genauigkeit von 33 % → 95 % verbessert
Bottom-up-Analyse ist effektiver als Top-down-Analyse
- Fehlermuster aus realen Daten ableiten
- Schon mit einfachen Pivot-Tabellen lassen sich große Erkenntnisse gewinnen

Das wichtigste Tool ist eines, mit dem das Team echte AI-Ausgaben leicht sehen kann
- Eine auf die Domäne zugeschnittene maßgeschneiderte Oberfläche ist oft wirksamer als Open-Source-Tools
- NurtureBoss ermöglicht durch einen eigenen Data Viewer schnelle iterative Verbesserungen
Anforderungen an einen guten Viewer:
- Den gesamten Kontext auf einem Bildschirm anzeigen
- Feedback leicht erfassbar machen
- Offene Kommentare zulassen
- Schnelles Filtern und Sortieren
- Bessere Bedienbarkeit durch Unterstützung von Shortcuts
Mit FastHTML, MonsterUI usw. in wenigen Stunden umsetzbar
- Auch ein einfaches Spreadsheet als Startpunkt ist in Ordnung

Verbesserungen der AI-Leistung sind oft besonders wirksam, wenn Experten, die AI nicht im Detail kennen, die Führung übernehmen
Prompts sind englische Sätze, daher können auch Nicht-Spezialisten sie schreiben
Wenn in der Produkt-UI als „Admin-Modus“ eine integrierte Prompt-Umgebung bereitgestellt wird, ist das optimal für iteratives Lernen
Kommunikationstipps für die Zusammenarbeit mit Domain-Experten:
- Unnötige Fachbegriffe entfernen
- Beispiel: „RAG-Methode“ → „Der AI wird Kontext bereitgestellt, damit sie Fragen beantworten kann“
- Warum präzise Sprache in der Teamkommunikation wichtig ist

Auch ohne Nutzerdaten ist eine AI-Evaluierung möglich
- Ein LLM kann synthetische Daten erzeugen
Drei Dimensionen für wirksame synthetische Daten:
- Funktion (z. B. Immobiliensuche, Reservierung usw.)
- Szenario (z. B. kein Treffer, viele Treffer usw.)
- Persona (z. B. Erstkäufer, Investor usw.)
Beispiel aus einem realen Immobilienprojekt:
- Datenbank je Szenario aufbauen und synthetische Queries erzeugen
- Das LLM generiert Nutzerfragen und testet das System
Leitfaden zum Erstellen synthetischer Daten:
- Vielfältige Beispiele erzeugen
- Von den Eingabedaten ausgehen
- Systembeschränkungen berücksichtigen
- Gültigkeit der Testszenarien prüfen
- Mit einfachen Fällen beginnen und schrittweise erweitern

Viele Teams bauen ein Evaluierungssystem und ignorieren es später wegen Misstrauens
Dass sich Evaluierungskriterien im Lauf der Zeit verschieben (criteria drift), ist üblich
Ansätze zum Erhalt von Vertrauen:
- Binäre Bewertung (Pass/Fail) bevorzugen: sorgt für Klarheit und Konsistenz
- Detaillierte Kritiken hinzufügen: liefert qualitativen Kontext
- Übereinstimmung zwischen automatischer und menschlicher Bewertung messen
  - Beispiel: Im Honeycomb-Projekt wurde nach 3 Iterationen eine Übereinstimmung von über 90 % mit der LLM-Bewertung erreicht
  - Eugene Yans Tool AlignEval kann genutzt werden
Strategie zur Skalierung:
- Menschliche Bewertung nicht vollständig abschaffen, sondern auf informationsreiche Samples konzentrieren
- Automatische Bewertung regelmäßig mit menschlichem Urteil vergleichen und die Kriterien nachjustieren

Eine traditionelle „feature-zentrierte Roadmap“ passt nicht zu AI
Bryan Bischof, früherer Head of AI bei Hex, schlägt den Ansatz des „Capability Funnel“ vor
- Beispiel für den Funnel eines Query-Assistenten
  1. Nur die Query-Syntax stimmt
  2. Lässt sich ohne Fehler ausführen
  3. Liefert relevante Ergebnisse
  4. Entspricht der Intention
  5. Löst das Problem vollständig
Eugene Yans experimentbasierte Zeitplanung:
- Daten-Machbarkeitsprüfung → technische Machbarkeitsprüfung → Prototyp-Erstellung → A/B-Test
- Ergebnisse der Experimente mit dem Management teilen und bei fehlender Aussicht frühzeitig den Kurs wechseln
Eine Kultur des Teilens von Fehlschlägen schaffen:
- Im Team kommunizieren, dass „Scheitern auch ein Ergebnis“ ist
- Ein Umfeld schaffen, das Iteration und Experimente fördert

Erfolgreiche AI-Teams konzentrieren sich mehr auf Messen, Iterieren und Lernen als auf komplexe Tools
6 Prinzipien für die Praxis:
1. Daten direkt prüfen und Fehleranalyse durchführen
2. Einfache und effiziente Tools bauen, die iteratives Lernen unterstützen
3. Beteiligung von Domain-Experten fördern und sie befähigen
4. Das initiale Evaluierungssystem mit synthetischen Daten bootstrappen
5. Vertrauen durch binäre Bewertung + Kritik + Übereinstimmungsprüfung erhalten
6. Die Roadmap nicht nach Features, sondern nach der Zahl der Experimente steuern