Über das AI-MVP hinaus: Was tatsächlich nötig ist

winterjung · 2025-04-03T12:56:26+09:00

Die meisten Unternehmen, die AI-Produkte entwickeln, stecken in der Experimentierphase fest und es fehlt ihnen an verlässlichen Systemen und Tools Unser Fallbeispiel Anfang des Jahres haben wir das LLM-Modell von gpt-4o-2024-08-06 auf gpt-4o-2024-11-20 aktualisiert Die Bestehensquote der Kern-Prompt-Tests fiel von zuvor 100 % auf 79 % Ausgerechnet Anthropics Sonnet 3.5 erreichte eine Bestehensquote von 95 % Viele AI-Unternehmen sprechen zu leichtfertig über den Wechsel zwischen Anbietern Es geht um weit mehr als nur darum, AI zu testen Eine Testinfrastruktur aufzubauen, um die Modellleistung zu messen und die Auswirkungen von Modelländerungen quantitativ zu erfassen, ist alles andere als einfach Was wir für die Quantifizierung aufgebaut haben Mindestens 30 einzigartige Testszenarien Code, der die erwartete Ausgabe eines Prompts mit der tatsächlichen Ausgabe vergleicht Den Test-Runner selbst Eine Strategie, um Tests in der CI zu vertretbaren Kosten auszuführen Die AI-MVP-Falle, in die die meisten Teams geraten Stufe 1. Das trügerische MVP: Eine Demo erscheint, als wäre sie in nur wenigen Tagen fertig geworden. Doch bald macht sie grundlegende Fehler Stufe 2. ±0: Man versucht, das zu verbessern, aber es wird nur immer komplexer und unvorhersehbarer. 90 % der meisten Unternehmen befinden sich in dieser Phase Stufe 3. Wissenschaft: An diesem Punkt erkennt man, dass Evaluierungstests, Observability-Tools usw. notwendig sind, und beginnt, sie aufzubauen Stufe 4. Es funktioniert tatsächlich: Endlich verfügt man über kontinuierliches Monitoring, umfassende Evaluierungstest-Sets und schnelle Analyse-Tools All das ist weder leicht noch einfach, sondern schwierig Viele Unternehmen bleiben in der chaotischen MVP-Phase stecken und verstehen nicht einmal, wie ihre veröffentlichten AI-Funktionen tatsächlich performen AI-Produkte mit der Aussage zu verkaufen, "alles, was man braucht, ist nur X", vereinfacht die Realität viel zu stark Wenn jemand sagt, er baue eine Multi-Provider-AI-Strategie auf, sollte man fragen, wie gemessen und evaluiert wird

(blog.lawrencejones.dev)

16 Punkte von winterjung 2025-04-03 | Noch keine Kommentare. | Auf WhatsApp teilen

Die meisten Unternehmen, die AI-Produkte entwickeln, stecken in der Experimentierphase fest und es fehlt ihnen an verlässlichen Systemen und Tools
Unser Fallbeispiel
- Anfang des Jahres haben wir das LLM-Modell von gpt-4o-2024-08-06 auf gpt-4o-2024-11-20 aktualisiert
- Die Bestehensquote der Kern-Prompt-Tests fiel von zuvor 100 % auf 79 %
- Ausgerechnet Anthropics Sonnet 3.5 erreichte eine Bestehensquote von 95 %
Viele AI-Unternehmen sprechen zu leichtfertig über den Wechsel zwischen Anbietern
- Es geht um weit mehr als nur darum, AI zu testen
- Eine Testinfrastruktur aufzubauen, um die Modellleistung zu messen und die Auswirkungen von Modelländerungen quantitativ zu erfassen, ist alles andere als einfach
Was wir für die Quantifizierung aufgebaut haben
- Mindestens 30 einzigartige Testszenarien
- Code, der die erwartete Ausgabe eines Prompts mit der tatsächlichen Ausgabe vergleicht
- Den Test-Runner selbst
- Eine Strategie, um Tests in der CI zu vertretbaren Kosten auszuführen
Die AI-MVP-Falle, in die die meisten Teams geraten
- Stufe 1. Das trügerische MVP: Eine Demo erscheint, als wäre sie in nur wenigen Tagen fertig geworden. Doch bald macht sie grundlegende Fehler
- Stufe 2. ±0: Man versucht, das zu verbessern, aber es wird nur immer komplexer und unvorhersehbarer. 90 % der meisten Unternehmen befinden sich in dieser Phase
- Stufe 3. Wissenschaft: An diesem Punkt erkennt man, dass Evaluierungstests, Observability-Tools usw. notwendig sind, und beginnt, sie aufzubauen
- Stufe 4. Es funktioniert tatsächlich: Endlich verfügt man über kontinuierliches Monitoring, umfassende Evaluierungstest-Sets und schnelle Analyse-Tools
All das ist weder leicht noch einfach, sondern schwierig
- Viele Unternehmen bleiben in der chaotischen MVP-Phase stecken und verstehen nicht einmal, wie ihre veröffentlichten AI-Funktionen tatsächlich performen
- AI-Produkte mit der Aussage zu verkaufen, "alles, was man braucht, ist nur X", vereinfacht die Realität viel zu stark
- Wenn jemand sagt, er baue eine Multi-Provider-AI-Strategie auf, sollte man fragen, wie gemessen und evaluiert wird

Über das AI-MVP hinaus: Was tatsächlich nötig ist

Verwandte Beiträge

Noch keine Kommentare.