AI-Service-PM: Jetzt über die „Planung“ hinausgehen und „Evaluation“ entwerfen

In letzter Zeit nimmt die Zahl generativer AI-Services rasant zu, und damit verändert sich die Rolle von PMs grundlegend.

Das gilt ebenso für die QA-Rolle.
Während PMs früher Anforderungen (Specs) definierten und QA den ordnungsgemäßen Betrieb von Funktionen (Pass/Fail) prüfte, ist Qualität im AI-Zeitalter zu einem Bereich geworden, den PMs selbst "definieren" und "bewerten" müssen.

Warum ist nicht QA, sondern der PM für Qualität verantwortlich?

Keine eindeutige richtige Antwort: AI-Antworten lassen sich nicht einfach in richtig oder falsch einteilen, sondern liegen auf einem Spektrum von „gut“ bis „schlecht“.
Subjektivität der Bewertung: Qualitative Kriterien wie „Ist es natürlich?“ oder „Ist es hilfreich?“ können nur von PMs definiert werden, die die Produktvision am besten kennen.
Definition ist Qualität: Bei AI-Services entsteht Qualität nicht erst durch Tests, sondern beginnt damit, von Anfang an zu definieren, was ein „gutes Ergebnis“ ist.

Vergleich des Qualitätsmanagements: klassische Services vs. AI-Services
Zwischen klassischen Software-Services und AI-Services gibt es große Unterschiede – von der Sicht auf Qualität bis hin zur Art, wie sie gemanagt wird.

Maßstab und Beurteilung von Qualität: Bei klassischen Services ist das Konzeptdokument die maßgebliche richtige Antwort. Ob ein Button funktioniert oder eine Zahlung durchgeführt wird, lässt sich klar als „richtig/falsch (Pass or Fail)“ unterscheiden – ähnlich wie bei einem O/X-Quiz. Bei AI-Services hingegen gibt es statt einer eindeutigen richtigen Antwort nur eine „Musterlösung“. Qualität liegt auf einem kontinuierlichen Spektrum; daher ähnelt die Bewertung eher dem Benoten einer Erörterung, bei der nicht die Existenz einer einzig richtigen Antwort zählt, sondern wie gut das Ergebnis optimiert ist.
Kern und Verantwortung im Qualitätsmanagement: Bei klassischen Services ist „Qualitätssicherung (QA)“ wichtig – also die Prüfung, ob Funktionen gemäß der Planung vollständig umgesetzt wurden. Die Verantwortung liegt dabei meist bei der QA-Organisation. Bei AI-Services steht hingegen das „Design der Evaluation“ im Mittelpunkt, also das Festlegen der Kriterien dafür, was ein gutes Ergebnis ist. Deshalb wird der PM, der die Produktvision am besten kennt, zum letztlich Verantwortlichen für Qualität.
Wandel der Verifikationsmethoden: Früher wurde getestet, ob Funktionen in festgelegten Szenarien korrekt laufen. Bei AI-Services erfolgt dagegen eine qualitative Bewertung (Human Eval), bei der Menschen die Ergebnisse direkt prüfen und beurteilen. Darüber hinaus werden LLMs, die auf die vom PM definierten Kriterien abgestimmt sind, als Evaluatoren (LLM Judge) eingesetzt, um große Datenmengen automatisiert zu prüfen und die Qualität weiter zu verbessern.

Qualitätsmanagement in 5 Schritten für AI-PMs

Selbst nach Leitlinien Punkte vergeben: Beispieldaten auswählen und selbst bewerten, um die eigenen Beurteilungskriterien bewusst wahrzunehmen.
Kriterien explizit formulieren: Vage Eindrücke wie „Konkretheit“ oder „Realitätsnähe“ in erklärbarer Sprache definieren.
Datensätze aufbauen: Eine Liste zentraler Fragen erstellen, die der Service lösen soll, und dazu Musterantworten formulieren.
Bewertung automatisieren (LLM Judge): Auf Basis der definierten Kriterien lässt man das LLM große Mengen an Ergebnissen bewerten.\
Metriken hinterfragen: Selbst wenn der Evaluations-Score steigt, sollten die Kriterien selbst überprüft werden, wenn die Nutzerzufriedenheit niedrig bleibt.

💡 Insight
PMs sind heute nicht mehr nur Menschen, die Funktionen bauen, sondern Menschen, die die „Maßstäbe zur Beurteilung des Produktwerts“ entwerfen. Zu definieren, was ein gutes Ergebnis ist, und eine Struktur zu schaffen, mit der sich dies messen lässt, wird für PMs im AI-Zeitalter zu einer der stärksten Wettbewerbskompetenzen.

AI-Service-PM: Jetzt über die „Planung“ hinausgehen und „Evaluation“ entwerfen

Verwandte Beiträge

2 Kommentare