- Viele AI-Teams konzentrieren sich nur auf die Tool-Auswahl und übersehen dabei das eigentlich Wichtige: Wirkungsmessung und iteratives Lernen
- Der Autor stellt auf Basis seiner Erfahrung aus dem Aufbau von mehr als 30 AI-Produkten die gemeinsamen Arbeitsweisen erfolgreicher Teams vor
- Der Kern ist eine messorientierte Denkweise und der Aufbau einer experimentbasierten Roadmap
1. Der häufigste Fehler: Fehleranalyse auslassen
- Die meisten AI-Teams sind auf Architektur oder Framework-Design fixiert und messen die tatsächliche Wirkung nicht
- Allgemeine Dashboard-Metriken helfen nicht
- Fixierung auf bedeutungslose „Vanity Metrics“
- Zu viele Metriken zerstreuen den Fokus des Teams
- Fehleranalyse ist die Aktivität mit dem höchsten ROI
- Echte Gesprächslogs prüfen
- Fehlertypen klassifizieren
- Tests für das jeweilige Problem schreiben und Verbesserungen messen
- Beispiel NurtureBoss:
- Fehler bei der Datumsverarbeitung behoben
- Genauigkeit von 33 % → 95 % verbessert
- Bottom-up-Analyse ist effektiver als Top-down-Analyse
- Fehlermuster aus realen Daten ableiten
- Schon mit einfachen Pivot-Tabellen lassen sich große Erkenntnisse gewinnen
2. Die wichtigste AI-Investition: ein einfacher Data Viewer
- Das wichtigste Tool ist eines, mit dem das Team echte AI-Ausgaben leicht sehen kann
- Eine auf die Domäne zugeschnittene maßgeschneiderte Oberfläche ist oft wirksamer als Open-Source-Tools
- NurtureBoss ermöglicht durch einen eigenen Data Viewer schnelle iterative Verbesserungen
- Anforderungen an einen guten Viewer:
- Den gesamten Kontext auf einem Bildschirm anzeigen
- Feedback leicht erfassbar machen
- Offene Kommentare zulassen
- Schnelles Filtern und Sortieren
- Bessere Bedienbarkeit durch Unterstützung von Shortcuts
- Mit FastHTML, MonsterUI usw. in wenigen Stunden umsetzbar
- Auch ein einfaches Spreadsheet als Startpunkt ist in Ordnung
3. Domain-Experten Prompt-Befugnisse geben
- Verbesserungen der AI-Leistung sind oft besonders wirksam, wenn Experten, die AI nicht im Detail kennen, die Führung übernehmen
- Prompts sind englische Sätze, daher können auch Nicht-Spezialisten sie schreiben
- Wenn in der Produkt-UI als „Admin-Modus“ eine integrierte Prompt-Umgebung bereitgestellt wird, ist das optimal für iteratives Lernen
- Kommunikationstipps für die Zusammenarbeit mit Domain-Experten:
- Unnötige Fachbegriffe entfernen
- Beispiel: „RAG-Methode“ → „Der AI wird Kontext bereitgestellt, damit sie Fragen beantworten kann“
- Warum präzise Sprache in der Teamkommunikation wichtig ist
4. Auch ohne Nutzer möglich: mit synthetischen Daten bootstrappen
- Auch ohne Nutzerdaten ist eine AI-Evaluierung möglich
- Ein LLM kann synthetische Daten erzeugen
- Drei Dimensionen für wirksame synthetische Daten:
- Funktion (z. B. Immobiliensuche, Reservierung usw.)
- Szenario (z. B. kein Treffer, viele Treffer usw.)
- Persona (z. B. Erstkäufer, Investor usw.)
- Beispiel aus einem realen Immobilienprojekt:
- Datenbank je Szenario aufbauen und synthetische Queries erzeugen
- Das LLM generiert Nutzerfragen und testet das System
- Leitfaden zum Erstellen synthetischer Daten:
- Vielfältige Beispiele erzeugen
- Von den Eingabedaten ausgehen
- Systembeschränkungen berücksichtigen
- Gültigkeit der Testszenarien prüfen
- Mit einfachen Fällen beginnen und schrittweise erweitern
5. Vertrauen in das Evaluierungssystem erhalten
- Viele Teams bauen ein Evaluierungssystem und ignorieren es später wegen Misstrauens
- Dass sich Evaluierungskriterien im Lauf der Zeit verschieben (criteria drift), ist üblich
- Ansätze zum Erhalt von Vertrauen:
- Binäre Bewertung (Pass/Fail) bevorzugen: sorgt für Klarheit und Konsistenz
- Detaillierte Kritiken hinzufügen: liefert qualitativen Kontext
- Übereinstimmung zwischen automatischer und menschlicher Bewertung messen
- Beispiel: Im Honeycomb-Projekt wurde nach 3 Iterationen eine Übereinstimmung von über 90 % mit der LLM-Bewertung erreicht
- Eugene Yans Tool AlignEval kann genutzt werden
- Strategie zur Skalierung:
- Menschliche Bewertung nicht vollständig abschaffen, sondern auf informationsreiche Samples konzentrieren
- Automatische Bewertung regelmäßig mit menschlichem Urteil vergleichen und die Kriterien nachjustieren
6. AI-Roadmap nach Experimenten statt nach Features
- Eine traditionelle „feature-zentrierte Roadmap“ passt nicht zu AI
- Bryan Bischof, früherer Head of AI bei Hex, schlägt den Ansatz des „Capability Funnel“ vor
- Beispiel für den Funnel eines Query-Assistenten
- Nur die Query-Syntax stimmt
- Lässt sich ohne Fehler ausführen
- Liefert relevante Ergebnisse
- Entspricht der Intention
- Löst das Problem vollständig
- Eugene Yans experimentbasierte Zeitplanung:
- Daten-Machbarkeitsprüfung → technische Machbarkeitsprüfung → Prototyp-Erstellung → A/B-Test
- Ergebnisse der Experimente mit dem Management teilen und bei fehlender Aussicht frühzeitig den Kurs wechseln
- Eine Kultur des Teilens von Fehlschlägen schaffen:
- Im Team kommunizieren, dass „Scheitern auch ein Ergebnis“ ist
- Ein Umfeld schaffen, das Iteration und Experimente fördert
Fazit und zentrale Prinzipien
- Erfolgreiche AI-Teams konzentrieren sich mehr auf Messen, Iterieren und Lernen als auf komplexe Tools
- 6 Prinzipien für die Praxis:
- Daten direkt prüfen und Fehleranalyse durchführen
- Einfache und effiziente Tools bauen, die iteratives Lernen unterstützen
- Beteiligung von Domain-Experten fördern und sie befähigen
- Das initiale Evaluierungssystem mit synthetischen Daten bootstrappen
- Vertrauen durch binäre Bewertung + Kritik + Übereinstimmungsprüfung erhalten
- Die Roadmap nicht nach Features, sondern nach der Zahl der Experimente steuern
Noch keine Kommentare.