- Die meisten Unternehmen, die AI-Produkte entwickeln, stecken in der Experimentierphase fest und es fehlt ihnen an verlässlichen Systemen und Tools
- Unser Fallbeispiel
- Anfang des Jahres haben wir das LLM-Modell von
gpt-4o-2024-08-06 auf gpt-4o-2024-11-20 aktualisiert
- Die Bestehensquote der Kern-Prompt-Tests fiel von zuvor 100 % auf 79 %
- Ausgerechnet Anthropics Sonnet 3.5 erreichte eine Bestehensquote von 95 %
- Viele AI-Unternehmen sprechen zu leichtfertig über den Wechsel zwischen Anbietern
- Es geht um weit mehr als nur darum, AI zu testen
- Eine Testinfrastruktur aufzubauen, um die Modellleistung zu messen und die Auswirkungen von Modelländerungen quantitativ zu erfassen, ist alles andere als einfach
- Was wir für die Quantifizierung aufgebaut haben
- Mindestens 30 einzigartige Testszenarien
- Code, der die erwartete Ausgabe eines Prompts mit der tatsächlichen Ausgabe vergleicht
- Den Test-Runner selbst
- Eine Strategie, um Tests in der CI zu vertretbaren Kosten auszuführen
- Die AI-MVP-Falle, in die die meisten Teams geraten
- Stufe 1. Das trügerische MVP: Eine Demo erscheint, als wäre sie in nur wenigen Tagen fertig geworden. Doch bald macht sie grundlegende Fehler
- Stufe 2. ±0: Man versucht, das zu verbessern, aber es wird nur immer komplexer und unvorhersehbarer. 90 % der meisten Unternehmen befinden sich in dieser Phase
- Stufe 3. Wissenschaft: An diesem Punkt erkennt man, dass Evaluierungstests, Observability-Tools usw. notwendig sind, und beginnt, sie aufzubauen
- Stufe 4. Es funktioniert tatsächlich: Endlich verfügt man über kontinuierliches Monitoring, umfassende Evaluierungstest-Sets und schnelle Analyse-Tools
- All das ist weder leicht noch einfach, sondern schwierig
- Viele Unternehmen bleiben in der chaotischen MVP-Phase stecken und verstehen nicht einmal, wie ihre veröffentlichten AI-Funktionen tatsächlich performen
- AI-Produkte mit der Aussage zu verkaufen, "alles, was man braucht, ist nur X", vereinfacht die Realität viel zu stark
- Wenn jemand sagt, er baue eine Multi-Provider-AI-Strategie auf, sollte man fragen, wie gemessen und evaluiert wird
Noch keine Kommentare.