- Für AI-Startups ist es unerlässlich, noch vor dem Product-Market Fit (PMF) den Model-Market Fit (MMF) zu prüfen – also ob die Fähigkeiten des aktuellen Modells die Anforderungen des Marktes tatsächlich lösen können
- Ein typisches Beispiel für erreichten MMF ist das explosive Wachstum des Legal-AI-Marktes nach dem Launch von GPT-4 sowie der Fall, dass sich Coding-Assistenten nach dem Launch von Claude 3.5 Sonnet als echter Workflow etabliert haben
- In Bereichen wie mathematischen Beweisen, Hochrisiko-Finanzanalysen oder autonomer Arzneimittelentwicklung gibt es zwar Marktnachfrage, doch die Modellfähigkeiten haben den Schwellenwert nicht überschritten, sodass MMF fehlt
- Wenn Human-in-the-loop kein unterstützendes Mittel ist, sondern Menschen anstelle ergänzender Hilfe die Kernarbeit übernehmen müssen, lässt sich das als fehlender MMF interpretieren
- Der Kern einer AI-Strategie besteht darin, die Reihenfolge MMF → PMF → Erfolg zu erkennen und nüchtern zu entscheiden, wann und was gebaut werden soll
Marc Andreessens Framework und die neue Variable
- 2007 veröffentlichte Marc Andreessen einen Essay, in dem er unter den drei Startup-Elementen (Team, Produkt, Markt) den Markt als den wichtigsten bezeichnete
- Ein großartiger Markt zieht ein Produkt förmlich aus dem Startup heraus, und das Produkt muss nicht großartig sein – es reicht, wenn es grundsätzlich funktioniert
- 19 Jahre später ist mit dem Modell eine neue Variable hinzugekommen, die darüber entscheidet, ob ein Markt überhaupt etwas anziehen kann
- Bei AI-Startups gibt es vor dem Product-Market Fit eine vorgelagerte Bedingung: Ob die aktuellen Modellfähigkeiten die vom Markt verlangten Aufgaben überhaupt ausführen können
- Existiert MMF, funktioniert Andreessens Framework und der Markt zieht das Produkt an; existiert er nicht, können selbst hervorragende UX, GTM-Strategien und Engineering keine Kundenadoption bewirken
Beispiele für Markt-Explosionen, wenn MMF freigeschaltet wird
-
Legal AI: GPT-4 (März 2023)
- Vor GPT-4 scheiterte Legal-Tech-AI an der Skalierung, und Tools zur Dokumentenprüfung erforderten mehr menschliche Aufsicht, als sie an Einsparungen brachten
- Frühere Transformer-Modelle wie BERT waren zwar stark bei Klassifikationsaufgaben wie Dokumentenkategorisierung oder Vertragstyp-Erkennung, konnten aber die für juristische Arbeit zentralen Fähigkeiten Generierung und Schlussfolgern nicht leisten
- Sie konnten Verträge etwa als „Employment“ oder „NDA“ klassifizieren, aber keine konsistente Ausarbeitung verfassen, die erklärt, warum ein Wettbewerbsverbot nach kalifornischem Recht nicht durchsetzbar ist
- In den 18 Monaten nach dem Launch von GPT-4 sammelten Silicon-Valley-Startups Hunderte Millionen Dollar ein, Thomson Reuters übernahm Casetext für 650 Millionen Dollar, und Dutzende neue Legal-AI-Startups entstanden
- Der Legal-AI-Markt brachte in nur 12 Monaten mehr Unicorns hervor als im gesamten Jahrzehnt davor
- Die Marktnachfrage blieb gleich; verändert hatte sich nur, dass die Modellfähigkeiten den Schwellenwert überschritten hatten
-
Coding: Claude 3.5 Sonnet (Juni 2024)
- Coding-Assistenten wie GitHub Copilot gab es schon früher, doch zwischen gelegentlich nützlicher Autovervollständigung und AI, die eine Codebase wirklich versteht, besteht ein klarer Unterschied
- Als Cursor vor Claude 3.5 Sonnet genutzt wurde, blieb es auf dem Niveau einer interessanten Demo und etablierte sich nicht als alltäglicher Workflow
- Nach dem Release von Sonnet war Arbeiten schon nach einer Woche ohne Cursor nicht mehr möglich; es fühlte sich an wie Pair Programming mit einem Gegenüber, das die gesamte Codebase versteht
- Dass Cursor vertikal wuchs, lag nicht an einer Produktinnovation, sondern daran, dass das Basismodell die Schwelle für reale Nutzung überschritten hatte
-
Musteranalyse
- Entscheidend ist ob MMF existiert; die siegreichen Startups sind nie einfach die ersten, sondern die Teams, die vorbereitet waren, wenn die Schwelle der Modellfähigkeiten überschritten wird
- Weder im Coding- noch im Legal-Bereich haben etablierte Anbieter gewonnen; immer neue Player haben den Markt dominiert
- Die heute führenden Legal-AI-Startups hatten über Monate hinweg im Voraus reale Arbeitsabläufe von Anwälten, geforderte Ausgabeformate, regulatorische Anforderungen und die Rechercheweise von Associates aufgebaut
- Entscheidend ist nicht der First Mover, sondern wer nach Entstehung von MMF als Erster PMF erreicht
Probleme, wenn MMF nicht existiert
-
Mathematische Beweise
- Mathematiker wollen AI, die neue Theoreme beweisen kann, und Forschungseinrichtungen, Rüstungsauftragnehmer und Tech-Unternehmen wären bereit, für echtes mathematisches Schlussfolgern Millionen zu zahlen
- Doch selbst die fortschrittlichsten Modelle können das nicht konsistent leisten und bleiben bei der Verifikation bekannter Beweise, Unterstützung mechanischer Schritte oder Einsichten für begrenzte Probleme
- Neue Beweise für offene Probleme zu erzeugen ist weiterhin nicht möglich; es gab zwar mit Generationen wie GPT-5, o1 und o3 schrittweise Verbesserungen, aber für strenge Beweise zu offenen Vermutungen ist das Niveau noch nicht erreicht
-
Hochrisiko-Finanzwesen
- Investmentbanken und Hedgefonds wünschen sich dringend AI für umfassende Finanzanalysen; schon ein einzelner erfolgreicher Trade oder M&A-Deal kann Hunderte Millionen Dollar an Gebühren erzeugen
- Dennoch zeigt AI bei Kernaufgaben weiterhin erstaunlich schwache Leistung
- Beim Umgang mit komplexen Finanzmodellen ist selbst die Excel-Ausgabe kaum verlässlich
- Das Lesen von 200-seitigen Dokumenten und die Verbindung quantitativer Analyse mit qualitativen Einsichten ist eine der größten Hürden für AI
- Menschliche Analysten lesen Earnings Calls, regulatorische Offenlegungen und Branchenberichte und verbinden dies mit Spreadsheet-Modellen zu Investmententscheidungen; AI kann bislang nur Teile dieses Workflows übernehmen
- Menschen bleiben nicht bloß aus Aufsichtsgründen in der Schleife, sondern weil sie weiterhin die zentrale Entscheidungsrolle übernehmen müssen
-
Benchmark-Lücke
- Benchmark-Vergleiche von Vals.ai zeigen eine drastische Leistungsdifferenz zwischen Verticals mit MMF und solchen ohne MMF
- LegalBench (juristische Reasoning-Aufgaben): bestes Modell 87 % Genauigkeit, Gemini 3 Pro führt mit 87,04 %, mehrere Modelle liegen über 85 %
- Leistung auf Produktionsniveau, bei der Anwälte den Output mit nur leichter Prüfung vertrauen können
- Finance Agent (zentrale Aufgaben von Finanzanalysten): bestes Modell 56,55 % Genauigkeit, GPT-5.1 überschreitet knapp die 50 %, Claude Sonnet 4.5 extended thinking liegt bei 55,32 %
- Eine Lücke von rund 30 Punkten zeigt: Im juristischen Bereich existiert MMF, im Finanzbereich fehlt er
- Heute lassen sich Legal-AI-Produkte launchen, aber Finanz-AI-Produkte, die die reale Arbeit von Analysten leisten, sind vielleicht bald möglich, aktuell jedoch nicht
-
Autonome Arzneimittelentwicklung
- Die Pharmaindustrie investiert Milliarden Dollar in AI-gestützte Wirkstoffforschung, und ein einzelnes erfolgreiches Medikament kann Dutzende Milliarden Dollar wert sein
- AI beschleunigt zwar einzelne Schritte wie die Identifizierung von Molekülkandidaten, die Vorhersage von Proteinstrukturen (AlphaFolds Durchbruch) oder die Optimierung von Studiendesigns
- Doch eine End-to-End autonome Wirkstoffentdeckung, die aktuelle Bewertungen rechtfertigen würde, existiert bislang nicht
- Menschen bleiben nicht aus Designgründen im Workflow, sondern weil AI die eigentliche Arbeit noch nicht leisten kann
So erkennt man fehlenden MMF
- Das verlässlichste Signal für fehlenden MMF ist, welche Rolle Human-in-the-loop tatsächlich spielt
- Wenn MMF existiert, fungiert Human-in-the-loop als Feature und dient der Qualitätssicherung, dem Vertrauensaufbau und dem Umgang mit Edge Cases
- Die AI übernimmt die Kernarbeit, der Mensch sorgt für Aufsicht und Freigabe
- Wenn MMF nicht existiert, ist Human-in-the-loop eher eine Krücke, die verdeckt, dass AI die Kernarbeit nicht leisten kann
- Menschen übernehmen dann nicht Verstärkung, sondern Kompensation, und ohne den Menschen fällt das Produkt sofort aus
- Ein einfacher Maßstab: Würden Kunden noch zahlen, wenn man in diesem Workflow alle menschlichen Korrekturen entfernt?
- Wenn nicht, gibt es keinen MMF, und übrig bleibt nur eine Demo
Strategisches Dilemma: Für jetzt bauen oder für die Zukunft?
-
Das Argument fürs Warten
- Ein Startup in einem Bereich ohne aktuellen MMF zu bauen bedeutet, auf Modellverbesserungen zu wetten, die auf den Roadmaps anderer stehen
- Wann diese Fähigkeiten kommen, lässt sich nicht kontrollieren, und während Anthropic und OpenAI entscheiden, schmilzt die Runway weiter
- Es ist außerdem möglich, dass die Einschätzung der benötigten Fähigkeiten selbst falsch ist
- Die Lücke zwischen 80 % und 99 % Genauigkeit, die ein Vertical verlangt, könnte sich erst in fünf Jahren schließen – oder sich auf dem angenommenen Weg nie schließen
- Wer an AGI glaubt, mag annehmen, dass Modelle irgendwann fast alles können; entscheidend ist aber nicht die Möglichkeit, sondern der Zeitpunkt
- Nicht ob AI das Problem irgendwann lösen kann, sondern ob das Startup bis dahin überlebt – und das ist eine Frage der Runway
-
Das Argument fürs frühe Starten
- Es gibt ein bei Y Combinator oft genanntes Gegenargument, und es ist durchaus überzeugend
- In dem Moment, in dem MMF freigeschaltet wird, braucht es nicht nur Modellfähigkeiten
- domänenspezifische Datenpipelines
- Beziehungen zu Regulierungsbehörden
- über Jahre aufgebautes Kundenvertrauen
- tief integrierte Workflows
- Verständnis dafür, wie Experten tatsächlich arbeiten
- Legal-Startups haben GPT-4 nicht einfach nur angeschlossen, sondern im Vorfeld das Scaffolding aufgebaut und waren mit dem Erscheinen des Modells sofort einsatzbereit
- Teams, die dem Problem am nächsten sind, üben auf Evaluationsmaßstäbe, Fine-Tuning-Richtungen und Deployment-Weisen der Modelle direkten Einfluss aus
- Sie warten nicht passiv auf Fähigkeiten, sondern helfen zu definieren, was in diesem Vertical überhaupt als Fähigkeit gilt
-
Die Lösung
- Die Kernfrage ist nicht, ob man früh anfangen sollte, sondern wie früh und was man während des Wartens bauen sollte
- Der gefährlichste Bereich ist die Mittelzone
- wenn MMF voraussichtlich erst in 24 bis 36 Monaten erreicht wird
- nah genug, um unmittelbar zu wirken, aber weit genug entfernt, um mehrere Finanzierungsrunden aufzubrauchen
- In diesem Bereich entscheiden Überzeugung und Runway über alles
- Wer auf MMF in mehr als zwei Jahren setzt, braucht einen riesigen Markt, für den sich das Warten lohnt
- Healthcare und Finanzdienstleistungen sind trotz gemischter aktueller Resultate Billionen-Dollar-Märkte, auf die Anthropic und OpenAI alles setzen
- Das potenzielle Upside ist so groß, dass frühe Positionierung rational erscheint
- Die Formel ist einfach
Erwartungswert = Wahrscheinlichkeit des Eintreffens von MMF × Marktgröße × erwarteter Marktanteil
Wie man MMF misst
- Product-Market Fit gilt als notorisch schwer präzise messbar, und Andreessen beschrieb ihn qualitativ
- „Wenn PMF nicht passiert, spürt man das immer – und wenn er passiert, spürt man das auch immer“
- Auch MMF ist seinem Wesen nach ein intuitives Konzept, lässt sich aber mit klareren Kriterien konkretisieren
-
Der MMF-Test
- Die Kernfrage: Kann das Modell bei denselben Inputs wie ein menschlicher Experte einen Output erzeugen, für den Kunden bezahlen würden – und zwar ohne erhebliche menschliche Korrektur?
- Drei Bestandteile
- 1. Dieselben Inputs
- Das Modell arbeitet mit denselben Dokumenten, Daten und demselben Kontext wie ein Mensch
- Magische Vorverarbeitung, die im realen Workflow nicht verfügbar wäre, ist nicht erlaubt
- 2. Ein Output, für den Kunden bezahlen würden
- Kein Demo- oder Proof-of-Concept-Ergebnis, sondern ein Ergebnis in Produktionsqualität, das ein reales Problem löst
- 3. Ohne erhebliche menschliche Korrektur
- Menschen dürfen prüfen, korrigieren oder freigeben; wenn sie jedoch 50 % des Outputs neu schreiben müssen, ist schwer zu behaupten, dass das Modell die Arbeit erledigt
-
Die 80/99-Lücke
- In unregulierten Verticals können 80 % Genauigkeit ausreichen
- Eine AI, die Marketing-Texte entwirft, kann selbst dann Wert schaffen, wenn Menschen sie stark überarbeiten
- In regulierten Verticals (Finanzen, Recht, Healthcare) sind 80 % Genauigkeit praktisch wertlos
- Ein Vertragstool, das 20 % der entscheidenden Klauseln übersieht, hilft Anwälten nicht, sondern erzeugt Haftung
- Eine medizinische Diagnose, die jedes fünfte Mal falsch liegt, ist kein Produkt, sondern Prozessrisiko
- Die Lücke zwischen 80 % und 99 % Genauigkeit ist in der realen Praxis oft fast unendlich groß
- der entscheidende Unterschied zwischen einer „vielversprechenden Demo“ und einem „Produktionssystem“
- Viele AI-Startups sitzen in genau dieser Lücke fest, finanzieren sich mit Demos und warten auf die Fähigkeiten, die ihr Produkt tatsächlich funktionsfähig machen
Der agentische Schwellenwert
- Eine zweite Fähigkeitsfront, die in den meisten MMF-Diskussionen übersehen wird, ist die Fähigkeit, über längere Zeiträume autonom zu arbeiten
- Die heutigen Fälle mit erreichtem MMF (juristische Dokumentenprüfung, Coding-Unterstützung) sind ihrem Wesen nach Aufgaben mit kurzem Horizont
- Prompt rein, Output raus; nach einigen Tool-Aufrufen entsteht in Sekunden oder Minuten ein nützliches Ergebnis
- Doch die wertvollste Wissensarbeit funktioniert nicht so
- Ein Finanzanalyst beantwortet nicht nur eine einzelne Frage, sondern baut über mehrere Tage ein Modell, stresstestet Annahmen und synthetisiert Informationen aus Dutzenden Quellen
- Ein Strategieberater erstellt nicht nur eine einzelne Folie, sondern wiederholt wochenlange Recherche, Interviews und Analysen
- Ein Forscher in der Arzneimittelentwicklung entwirft und führt nicht nur ein einzelnes Experiment durch, sondern eine monatelange Kampagne
- Solche Workflows verlangen Fähigkeiten, die Modelle bislang nicht zuverlässig leisten können; im Kern geht es um dauerhafte autonome Ausführung
- Der agentische Schwellenwert ist nicht bloß die Frage „Kann das Modell Tools benutzen?“
- Persistenz: Kann es Ziele und Kontext über Stunden oder Tage hinweg aufrechterhalten?
- Recovery: Kann es Fehler erkennen, Ursachen diagnostizieren und einen anderen Ansatz versuchen?
- Koordination: Kann es komplexe Ziele in Teilaufgaben zerlegen und sequenziell ausführen?
- Urteilsvermögen: Kann es unterscheiden, wann es weiterarbeiten sollte und wann es stoppen und einen Menschen um Anleitung bitten sollte?
- Heutige Agenten schaffen Aufgaben im Minutenbereich, doch die nächste Stufe muss Aufgaben über Tage hinweg bewältigen
- Das ist keine bloß graduelle Leistungssteigerung, sondern ein Phasenwechsel der Fähigkeiten selbst
- Deshalb fehlt im Finanzbereich trotz der Einschätzung, AI könne „Dokumente gut lesen“, MMF
- Ein 10-K zu lesen ist eine 30-Sekunden-Aufgabe, aber eine Investment-These aufzubauen ist ein mehrtägiger Workflow
- Datensammlung, Modellaufbau, Szenariotests und die Verdichtung zu Schlussfolgerungen müssen durchgängig mit konsistentem Reasoning verbunden werden
- Die nächste Welle freigeschalteten MMF wird nicht nur von schlaueren Modellen ausgehen, sondern von Modellen, die dieselbe Aufgabe über Tage hinweg autonom ausführen können
Strukturelle Kernpunkte
- Andreessens zentrale Einsicht war, dass Märkte wichtiger sind als Teams oder Produkte, weil ein großartiger Markt ein Produkt aus dem Startup herauszieht
- Die zwingende Konsequenz für AI lautet: Die Voraussetzung dafür, dass diese gravitative Anziehung überhaupt beginnt, sind Modellfähigkeiten
- Egal wie groß ein Markt ist und wie stark sein Bedarf, ein nicht funktionierendes Produkt kann er nicht anziehen
- In AI wird „funktioniert nicht“ nicht durch Engineering oder Design bestimmt, sondern durch das Modell selbst
- Selbst mit der schönsten Oberfläche, dem elegantesten Workflow und der ausgefeiltesten Datenpipeline ist alles bedeutungslos, wenn das Basismodell die Kernaufgabe nicht leisten kann
- Wer die Reihenfolge MMF → PMF → Erfolg überspringt, kann die zweite Stufe nicht erreichen
- Für Gründer bedeutet das, gnadenlos ehrlich zu unterscheiden zwischen dem, wozu die Fähigkeiten heute tatsächlich reichen, und dem, wo man sie gern hätte
- Für Investoren bedeutet es, nicht nur Marktgröße und Teamqualität zu bewerten, sondern auch die Lücke zwischen aktuellen Modellfähigkeiten und Marktanforderungen
- Für alle, die AI bauen, bleibt die Frage nicht, ob der Markt es will, sondern ob das Modell es tatsächlich liefern kann
- Das ist das Einzige, was zählt
Noch keine Kommentare.