9 Punkte von GN⁺ 2025-04-02 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Viele AI-Teams konzentrieren sich nur auf die Tool-Auswahl und übersehen dabei das eigentlich Wichtige: Wirkungsmessung und iteratives Lernen
  • Der Autor stellt auf Basis seiner Erfahrung aus dem Aufbau von mehr als 30 AI-Produkten die gemeinsamen Arbeitsweisen erfolgreicher Teams vor
  • Der Kern ist eine messorientierte Denkweise und der Aufbau einer experimentbasierten Roadmap

1. Der häufigste Fehler: Fehleranalyse auslassen

  • Die meisten AI-Teams sind auf Architektur oder Framework-Design fixiert und messen die tatsächliche Wirkung nicht
  • Allgemeine Dashboard-Metriken helfen nicht
    • Fixierung auf bedeutungslose „Vanity Metrics“
    • Zu viele Metriken zerstreuen den Fokus des Teams
  • Fehleranalyse ist die Aktivität mit dem höchsten ROI
    • Echte Gesprächslogs prüfen
    • Fehlertypen klassifizieren
    • Tests für das jeweilige Problem schreiben und Verbesserungen messen
  • Beispiel NurtureBoss:
    • Fehler bei der Datumsverarbeitung behoben
    • Genauigkeit von 33 % → 95 % verbessert
  • Bottom-up-Analyse ist effektiver als Top-down-Analyse
    • Fehlermuster aus realen Daten ableiten
    • Schon mit einfachen Pivot-Tabellen lassen sich große Erkenntnisse gewinnen

2. Die wichtigste AI-Investition: ein einfacher Data Viewer

  • Das wichtigste Tool ist eines, mit dem das Team echte AI-Ausgaben leicht sehen kann
    • Eine auf die Domäne zugeschnittene maßgeschneiderte Oberfläche ist oft wirksamer als Open-Source-Tools
    • NurtureBoss ermöglicht durch einen eigenen Data Viewer schnelle iterative Verbesserungen
  • Anforderungen an einen guten Viewer:
    • Den gesamten Kontext auf einem Bildschirm anzeigen
    • Feedback leicht erfassbar machen
    • Offene Kommentare zulassen
    • Schnelles Filtern und Sortieren
    • Bessere Bedienbarkeit durch Unterstützung von Shortcuts
  • Mit FastHTML, MonsterUI usw. in wenigen Stunden umsetzbar
    • Auch ein einfaches Spreadsheet als Startpunkt ist in Ordnung

3. Domain-Experten Prompt-Befugnisse geben

  • Verbesserungen der AI-Leistung sind oft besonders wirksam, wenn Experten, die AI nicht im Detail kennen, die Führung übernehmen
  • Prompts sind englische Sätze, daher können auch Nicht-Spezialisten sie schreiben
  • Wenn in der Produkt-UI als „Admin-Modus“ eine integrierte Prompt-Umgebung bereitgestellt wird, ist das optimal für iteratives Lernen
  • Kommunikationstipps für die Zusammenarbeit mit Domain-Experten:
    • Unnötige Fachbegriffe entfernen
    • Beispiel: „RAG-Methode“ → „Der AI wird Kontext bereitgestellt, damit sie Fragen beantworten kann“
    • Warum präzise Sprache in der Teamkommunikation wichtig ist

4. Auch ohne Nutzer möglich: mit synthetischen Daten bootstrappen

  • Auch ohne Nutzerdaten ist eine AI-Evaluierung möglich
    • Ein LLM kann synthetische Daten erzeugen
  • Drei Dimensionen für wirksame synthetische Daten:
    • Funktion (z. B. Immobiliensuche, Reservierung usw.)
    • Szenario (z. B. kein Treffer, viele Treffer usw.)
    • Persona (z. B. Erstkäufer, Investor usw.)
  • Beispiel aus einem realen Immobilienprojekt:
    • Datenbank je Szenario aufbauen und synthetische Queries erzeugen
    • Das LLM generiert Nutzerfragen und testet das System
  • Leitfaden zum Erstellen synthetischer Daten:
    • Vielfältige Beispiele erzeugen
    • Von den Eingabedaten ausgehen
    • Systembeschränkungen berücksichtigen
    • Gültigkeit der Testszenarien prüfen
    • Mit einfachen Fällen beginnen und schrittweise erweitern

5. Vertrauen in das Evaluierungssystem erhalten

  • Viele Teams bauen ein Evaluierungssystem und ignorieren es später wegen Misstrauens
  • Dass sich Evaluierungskriterien im Lauf der Zeit verschieben (criteria drift), ist üblich
  • Ansätze zum Erhalt von Vertrauen:
    • Binäre Bewertung (Pass/Fail) bevorzugen: sorgt für Klarheit und Konsistenz
    • Detaillierte Kritiken hinzufügen: liefert qualitativen Kontext
    • Übereinstimmung zwischen automatischer und menschlicher Bewertung messen
      • Beispiel: Im Honeycomb-Projekt wurde nach 3 Iterationen eine Übereinstimmung von über 90 % mit der LLM-Bewertung erreicht
      • Eugene Yans Tool AlignEval kann genutzt werden
  • Strategie zur Skalierung:
    • Menschliche Bewertung nicht vollständig abschaffen, sondern auf informationsreiche Samples konzentrieren
    • Automatische Bewertung regelmäßig mit menschlichem Urteil vergleichen und die Kriterien nachjustieren

6. AI-Roadmap nach Experimenten statt nach Features

  • Eine traditionelle „feature-zentrierte Roadmap“ passt nicht zu AI
  • Bryan Bischof, früherer Head of AI bei Hex, schlägt den Ansatz des „Capability Funnel“ vor
    • Beispiel für den Funnel eines Query-Assistenten
      1. Nur die Query-Syntax stimmt
      2. Lässt sich ohne Fehler ausführen
      3. Liefert relevante Ergebnisse
      4. Entspricht der Intention
      5. Löst das Problem vollständig
  • Eugene Yans experimentbasierte Zeitplanung:
    • Daten-Machbarkeitsprüfung → technische Machbarkeitsprüfung → Prototyp-Erstellung → A/B-Test
    • Ergebnisse der Experimente mit dem Management teilen und bei fehlender Aussicht frühzeitig den Kurs wechseln
  • Eine Kultur des Teilens von Fehlschlägen schaffen:
    • Im Team kommunizieren, dass „Scheitern auch ein Ergebnis“ ist
    • Ein Umfeld schaffen, das Iteration und Experimente fördert

Fazit und zentrale Prinzipien

  • Erfolgreiche AI-Teams konzentrieren sich mehr auf Messen, Iterieren und Lernen als auf komplexe Tools
  • 6 Prinzipien für die Praxis:
    1. Daten direkt prüfen und Fehleranalyse durchführen
    2. Einfache und effiziente Tools bauen, die iteratives Lernen unterstützen
    3. Beteiligung von Domain-Experten fördern und sie befähigen
    4. Das initiale Evaluierungssystem mit synthetischen Daten bootstrappen
    5. Vertrauen durch binäre Bewertung + Kritik + Übereinstimmungsprüfung erhalten
    6. Die Roadmap nicht nach Features, sondern nach der Zahl der Experimente steuern

Noch keine Kommentare.

Noch keine Kommentare.