16 Punkte von winterjung 2025-04-03 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Die meisten Unternehmen, die AI-Produkte entwickeln, stecken in der Experimentierphase fest und es fehlt ihnen an verlässlichen Systemen und Tools
  • Unser Fallbeispiel
    • Anfang des Jahres haben wir das LLM-Modell von gpt-4o-2024-08-06 auf gpt-4o-2024-11-20 aktualisiert
    • Die Bestehensquote der Kern-Prompt-Tests fiel von zuvor 100 % auf 79 %
    • Ausgerechnet Anthropics Sonnet 3.5 erreichte eine Bestehensquote von 95 %
  • Viele AI-Unternehmen sprechen zu leichtfertig über den Wechsel zwischen Anbietern
    • Es geht um weit mehr als nur darum, AI zu testen
    • Eine Testinfrastruktur aufzubauen, um die Modellleistung zu messen und die Auswirkungen von Modelländerungen quantitativ zu erfassen, ist alles andere als einfach
  • Was wir für die Quantifizierung aufgebaut haben
    • Mindestens 30 einzigartige Testszenarien
    • Code, der die erwartete Ausgabe eines Prompts mit der tatsächlichen Ausgabe vergleicht
    • Den Test-Runner selbst
    • Eine Strategie, um Tests in der CI zu vertretbaren Kosten auszuführen
  • Die AI-MVP-Falle, in die die meisten Teams geraten
    • Stufe 1. Das trügerische MVP: Eine Demo erscheint, als wäre sie in nur wenigen Tagen fertig geworden. Doch bald macht sie grundlegende Fehler
    • Stufe 2. ±0: Man versucht, das zu verbessern, aber es wird nur immer komplexer und unvorhersehbarer. 90 % der meisten Unternehmen befinden sich in dieser Phase
    • Stufe 3. Wissenschaft: An diesem Punkt erkennt man, dass Evaluierungstests, Observability-Tools usw. notwendig sind, und beginnt, sie aufzubauen
    • Stufe 4. Es funktioniert tatsächlich: Endlich verfügt man über kontinuierliches Monitoring, umfassende Evaluierungstest-Sets und schnelle Analyse-Tools
  • All das ist weder leicht noch einfach, sondern schwierig
    • Viele Unternehmen bleiben in der chaotischen MVP-Phase stecken und verstehen nicht einmal, wie ihre veröffentlichten AI-Funktionen tatsächlich performen
    • AI-Produkte mit der Aussage zu verkaufen, "alles, was man braucht, ist nur X", vereinfacht die Realität viel zu stark
    • Wenn jemand sagt, er baue eine Multi-Provider-AI-Strategie auf, sollte man fragen, wie gemessen und evaluiert wird

Noch keine Kommentare.

Noch keine Kommentare.