Prüfen Sie vor PMF den Model-Market Fit (Model-Market Fit)

(nicolasbustamante.com)

5 Punkte von GN⁺ 2026-02-06 | Noch keine Kommentare. | Auf WhatsApp teilen

Für AI-Startups ist es unerlässlich, noch vor dem Product-Market Fit (PMF) den Model-Market Fit (MMF) zu prüfen – also ob die Fähigkeiten des aktuellen Modells die Anforderungen des Marktes tatsächlich lösen können
Ein typisches Beispiel für erreichten MMF ist das explosive Wachstum des Legal-AI-Marktes nach dem Launch von GPT-4 sowie der Fall, dass sich Coding-Assistenten nach dem Launch von Claude 3.5 Sonnet als echter Workflow etabliert haben
In Bereichen wie mathematischen Beweisen, Hochrisiko-Finanzanalysen oder autonomer Arzneimittelentwicklung gibt es zwar Marktnachfrage, doch die Modellfähigkeiten haben den Schwellenwert nicht überschritten, sodass MMF fehlt
Wenn Human-in-the-loop kein unterstützendes Mittel ist, sondern Menschen anstelle ergänzender Hilfe die Kernarbeit übernehmen müssen, lässt sich das als fehlender MMF interpretieren
Der Kern einer AI-Strategie besteht darin, die Reihenfolge MMF → PMF → Erfolg zu erkennen und nüchtern zu entscheiden, wann und was gebaut werden soll

Marc Andreessens Framework und die neue Variable

2007 veröffentlichte Marc Andreessen einen Essay, in dem er unter den drei Startup-Elementen (Team, Produkt, Markt) den Markt als den wichtigsten bezeichnete
- Ein großartiger Markt zieht ein Produkt förmlich aus dem Startup heraus, und das Produkt muss nicht großartig sein – es reicht, wenn es grundsätzlich funktioniert
19 Jahre später ist mit dem Modell eine neue Variable hinzugekommen, die darüber entscheidet, ob ein Markt überhaupt etwas anziehen kann
Bei AI-Startups gibt es vor dem Product-Market Fit eine vorgelagerte Bedingung: Ob die aktuellen Modellfähigkeiten die vom Markt verlangten Aufgaben überhaupt ausführen können
Existiert MMF, funktioniert Andreessens Framework und der Markt zieht das Produkt an; existiert er nicht, können selbst hervorragende UX, GTM-Strategien und Engineering keine Kundenadoption bewirken

Beispiele für Markt-Explosionen, wenn MMF freigeschaltet wird

Legal AI: GPT-4 (März 2023)
- Vor GPT-4 scheiterte Legal-Tech-AI an der Skalierung, und Tools zur Dokumentenprüfung erforderten mehr menschliche Aufsicht, als sie an Einsparungen brachten
- Frühere Transformer-Modelle wie BERT waren zwar stark bei Klassifikationsaufgaben wie Dokumentenkategorisierung oder Vertragstyp-Erkennung, konnten aber die für juristische Arbeit zentralen Fähigkeiten Generierung und Schlussfolgern nicht leisten
  - Sie konnten Verträge etwa als „Employment“ oder „NDA“ klassifizieren, aber keine konsistente Ausarbeitung verfassen, die erklärt, warum ein Wettbewerbsverbot nach kalifornischem Recht nicht durchsetzbar ist
- In den 18 Monaten nach dem Launch von GPT-4 sammelten Silicon-Valley-Startups Hunderte Millionen Dollar ein, Thomson Reuters übernahm Casetext für 650 Millionen Dollar, und Dutzende neue Legal-AI-Startups entstanden
- Der Legal-AI-Markt brachte in nur 12 Monaten mehr Unicorns hervor als im gesamten Jahrzehnt davor
- Die Marktnachfrage blieb gleich; verändert hatte sich nur, dass die Modellfähigkeiten den Schwellenwert überschritten hatten
Coding: Claude 3.5 Sonnet (Juni 2024)
- Coding-Assistenten wie GitHub Copilot gab es schon früher, doch zwischen gelegentlich nützlicher Autovervollständigung und AI, die eine Codebase wirklich versteht, besteht ein klarer Unterschied
- Als Cursor vor Claude 3.5 Sonnet genutzt wurde, blieb es auf dem Niveau einer interessanten Demo und etablierte sich nicht als alltäglicher Workflow
- Nach dem Release von Sonnet war Arbeiten schon nach einer Woche ohne Cursor nicht mehr möglich; es fühlte sich an wie Pair Programming mit einem Gegenüber, das die gesamte Codebase versteht
- Dass Cursor vertikal wuchs, lag nicht an einer Produktinnovation, sondern daran, dass das Basismodell die Schwelle für reale Nutzung überschritten hatte
Musteranalyse
- Entscheidend ist ob MMF existiert; die siegreichen Startups sind nie einfach die ersten, sondern die Teams, die vorbereitet waren, wenn die Schwelle der Modellfähigkeiten überschritten wird
- Weder im Coding- noch im Legal-Bereich haben etablierte Anbieter gewonnen; immer neue Player haben den Markt dominiert
- Die heute führenden Legal-AI-Startups hatten über Monate hinweg im Voraus reale Arbeitsabläufe von Anwälten, geforderte Ausgabeformate, regulatorische Anforderungen und die Rechercheweise von Associates aufgebaut
- Entscheidend ist nicht der First Mover, sondern wer nach Entstehung von MMF als Erster PMF erreicht

Probleme, wenn MMF nicht existiert

Mathematische Beweise
- Mathematiker wollen AI, die neue Theoreme beweisen kann, und Forschungseinrichtungen, Rüstungsauftragnehmer und Tech-Unternehmen wären bereit, für echtes mathematisches Schlussfolgern Millionen zu zahlen
- Doch selbst die fortschrittlichsten Modelle können das nicht konsistent leisten und bleiben bei der Verifikation bekannter Beweise, Unterstützung mechanischer Schritte oder Einsichten für begrenzte Probleme
- Neue Beweise für offene Probleme zu erzeugen ist weiterhin nicht möglich; es gab zwar mit Generationen wie GPT-5, o1 und o3 schrittweise Verbesserungen, aber für strenge Beweise zu offenen Vermutungen ist das Niveau noch nicht erreicht
Hochrisiko-Finanzwesen
- Investmentbanken und Hedgefonds wünschen sich dringend AI für umfassende Finanzanalysen; schon ein einzelner erfolgreicher Trade oder M&A-Deal kann Hunderte Millionen Dollar an Gebühren erzeugen
- Dennoch zeigt AI bei Kernaufgaben weiterhin erstaunlich schwache Leistung
  - Beim Umgang mit komplexen Finanzmodellen ist selbst die Excel-Ausgabe kaum verlässlich
  - Das Lesen von 200-seitigen Dokumenten und die Verbindung quantitativer Analyse mit qualitativen Einsichten ist eine der größten Hürden für AI
- Menschliche Analysten lesen Earnings Calls, regulatorische Offenlegungen und Branchenberichte und verbinden dies mit Spreadsheet-Modellen zu Investmententscheidungen; AI kann bislang nur Teile dieses Workflows übernehmen
- Menschen bleiben nicht bloß aus Aufsichtsgründen in der Schleife, sondern weil sie weiterhin die zentrale Entscheidungsrolle übernehmen müssen
Benchmark-Lücke
- Benchmark-Vergleiche von Vals.ai zeigen eine drastische Leistungsdifferenz zwischen Verticals mit MMF und solchen ohne MMF
- LegalBench (juristische Reasoning-Aufgaben): bestes Modell 87 % Genauigkeit, Gemini 3 Pro führt mit 87,04 %, mehrere Modelle liegen über 85 %
  - Leistung auf Produktionsniveau, bei der Anwälte den Output mit nur leichter Prüfung vertrauen können
- Finance Agent (zentrale Aufgaben von Finanzanalysten): bestes Modell 56,55 % Genauigkeit, GPT-5.1 überschreitet knapp die 50 %, Claude Sonnet 4.5 extended thinking liegt bei 55,32 %
- Eine Lücke von rund 30 Punkten zeigt: Im juristischen Bereich existiert MMF, im Finanzbereich fehlt er
- Heute lassen sich Legal-AI-Produkte launchen, aber Finanz-AI-Produkte, die die reale Arbeit von Analysten leisten, sind vielleicht bald möglich, aktuell jedoch nicht
Autonome Arzneimittelentwicklung
- Die Pharmaindustrie investiert Milliarden Dollar in AI-gestützte Wirkstoffforschung, und ein einzelnes erfolgreiches Medikament kann Dutzende Milliarden Dollar wert sein
- AI beschleunigt zwar einzelne Schritte wie die Identifizierung von Molekülkandidaten, die Vorhersage von Proteinstrukturen (AlphaFolds Durchbruch) oder die Optimierung von Studiendesigns
- Doch eine End-to-End autonome Wirkstoffentdeckung, die aktuelle Bewertungen rechtfertigen würde, existiert bislang nicht
- Menschen bleiben nicht aus Designgründen im Workflow, sondern weil AI die eigentliche Arbeit noch nicht leisten kann

So erkennt man fehlenden MMF

Das verlässlichste Signal für fehlenden MMF ist, welche Rolle Human-in-the-loop tatsächlich spielt
Wenn MMF existiert, fungiert Human-in-the-loop als Feature und dient der Qualitätssicherung, dem Vertrauensaufbau und dem Umgang mit Edge Cases
- Die AI übernimmt die Kernarbeit, der Mensch sorgt für Aufsicht und Freigabe
Wenn MMF nicht existiert, ist Human-in-the-loop eher eine Krücke, die verdeckt, dass AI die Kernarbeit nicht leisten kann
- Menschen übernehmen dann nicht Verstärkung, sondern Kompensation, und ohne den Menschen fällt das Produkt sofort aus
Ein einfacher Maßstab: Würden Kunden noch zahlen, wenn man in diesem Workflow alle menschlichen Korrekturen entfernt?
- Wenn nicht, gibt es keinen MMF, und übrig bleibt nur eine Demo

Strategisches Dilemma: Für jetzt bauen oder für die Zukunft?

Das Argument fürs Warten
- Ein Startup in einem Bereich ohne aktuellen MMF zu bauen bedeutet, auf Modellverbesserungen zu wetten, die auf den Roadmaps anderer stehen
- Wann diese Fähigkeiten kommen, lässt sich nicht kontrollieren, und während Anthropic und OpenAI entscheiden, schmilzt die Runway weiter
- Es ist außerdem möglich, dass die Einschätzung der benötigten Fähigkeiten selbst falsch ist
  - Die Lücke zwischen 80 % und 99 % Genauigkeit, die ein Vertical verlangt, könnte sich erst in fünf Jahren schließen – oder sich auf dem angenommenen Weg nie schließen
- Wer an AGI glaubt, mag annehmen, dass Modelle irgendwann fast alles können; entscheidend ist aber nicht die Möglichkeit, sondern der Zeitpunkt
  - Nicht ob AI das Problem irgendwann lösen kann, sondern ob das Startup bis dahin überlebt – und das ist eine Frage der Runway
Das Argument fürs frühe Starten
- Es gibt ein bei Y Combinator oft genanntes Gegenargument, und es ist durchaus überzeugend
- In dem Moment, in dem MMF freigeschaltet wird, braucht es nicht nur Modellfähigkeiten
  - domänenspezifische Datenpipelines
  - Beziehungen zu Regulierungsbehörden
  - über Jahre aufgebautes Kundenvertrauen
  - tief integrierte Workflows
  - Verständnis dafür, wie Experten tatsächlich arbeiten
- Legal-Startups haben GPT-4 nicht einfach nur angeschlossen, sondern im Vorfeld das Scaffolding aufgebaut und waren mit dem Erscheinen des Modells sofort einsatzbereit
- Teams, die dem Problem am nächsten sind, üben auf Evaluationsmaßstäbe, Fine-Tuning-Richtungen und Deployment-Weisen der Modelle direkten Einfluss aus
  - Sie warten nicht passiv auf Fähigkeiten, sondern helfen zu definieren, was in diesem Vertical überhaupt als Fähigkeit gilt
Die Lösung
- Die Kernfrage ist nicht, ob man früh anfangen sollte, sondern wie früh und was man während des Wartens bauen sollte
- Der gefährlichste Bereich ist die Mittelzone
  - wenn MMF voraussichtlich erst in 24 bis 36 Monaten erreicht wird
  - nah genug, um unmittelbar zu wirken, aber weit genug entfernt, um mehrere Finanzierungsrunden aufzubrauchen
- In diesem Bereich entscheiden Überzeugung und Runway über alles
  - Wer auf MMF in mehr als zwei Jahren setzt, braucht einen riesigen Markt, für den sich das Warten lohnt
- Healthcare und Finanzdienstleistungen sind trotz gemischter aktueller Resultate Billionen-Dollar-Märkte, auf die Anthropic und OpenAI alles setzen
  - Das potenzielle Upside ist so groß, dass frühe Positionierung rational erscheint
- Die Formel ist einfach
  Erwartungswert = Wahrscheinlichkeit des Eintreffens von MMF × Marktgröße × erwarteter Marktanteil

Wie man MMF misst

Product-Market Fit gilt als notorisch schwer präzise messbar, und Andreessen beschrieb ihn qualitativ
- „Wenn PMF nicht passiert, spürt man das immer – und wenn er passiert, spürt man das auch immer“
Auch MMF ist seinem Wesen nach ein intuitives Konzept, lässt sich aber mit klareren Kriterien konkretisieren
Der MMF-Test
- Die Kernfrage: Kann das Modell bei denselben Inputs wie ein menschlicher Experte einen Output erzeugen, für den Kunden bezahlen würden – und zwar ohne erhebliche menschliche Korrektur?
- Drei Bestandteile
  - 1. Dieselben Inputs
    - Das Modell arbeitet mit denselben Dokumenten, Daten und demselben Kontext wie ein Mensch
    - Magische Vorverarbeitung, die im realen Workflow nicht verfügbar wäre, ist nicht erlaubt
  - 2. Ein Output, für den Kunden bezahlen würden
    - Kein Demo- oder Proof-of-Concept-Ergebnis, sondern ein Ergebnis in Produktionsqualität, das ein reales Problem löst
  - 3. Ohne erhebliche menschliche Korrektur
    - Menschen dürfen prüfen, korrigieren oder freigeben; wenn sie jedoch 50 % des Outputs neu schreiben müssen, ist schwer zu behaupten, dass das Modell die Arbeit erledigt
Die 80/99-Lücke
- In unregulierten Verticals können 80 % Genauigkeit ausreichen
  - Eine AI, die Marketing-Texte entwirft, kann selbst dann Wert schaffen, wenn Menschen sie stark überarbeiten
- In regulierten Verticals (Finanzen, Recht, Healthcare) sind 80 % Genauigkeit praktisch wertlos
  - Ein Vertragstool, das 20 % der entscheidenden Klauseln übersieht, hilft Anwälten nicht, sondern erzeugt Haftung
  - Eine medizinische Diagnose, die jedes fünfte Mal falsch liegt, ist kein Produkt, sondern Prozessrisiko
- Die Lücke zwischen 80 % und 99 % Genauigkeit ist in der realen Praxis oft fast unendlich groß
  - der entscheidende Unterschied zwischen einer „vielversprechenden Demo“ und einem „Produktionssystem“
- Viele AI-Startups sitzen in genau dieser Lücke fest, finanzieren sich mit Demos und warten auf die Fähigkeiten, die ihr Produkt tatsächlich funktionsfähig machen

Der agentische Schwellenwert

Eine zweite Fähigkeitsfront, die in den meisten MMF-Diskussionen übersehen wird, ist die Fähigkeit, über längere Zeiträume autonom zu arbeiten
Die heutigen Fälle mit erreichtem MMF (juristische Dokumentenprüfung, Coding-Unterstützung) sind ihrem Wesen nach Aufgaben mit kurzem Horizont
- Prompt rein, Output raus; nach einigen Tool-Aufrufen entsteht in Sekunden oder Minuten ein nützliches Ergebnis
Doch die wertvollste Wissensarbeit funktioniert nicht so
- Ein Finanzanalyst beantwortet nicht nur eine einzelne Frage, sondern baut über mehrere Tage ein Modell, stresstestet Annahmen und synthetisiert Informationen aus Dutzenden Quellen
- Ein Strategieberater erstellt nicht nur eine einzelne Folie, sondern wiederholt wochenlange Recherche, Interviews und Analysen
- Ein Forscher in der Arzneimittelentwicklung entwirft und führt nicht nur ein einzelnes Experiment durch, sondern eine monatelange Kampagne
Solche Workflows verlangen Fähigkeiten, die Modelle bislang nicht zuverlässig leisten können; im Kern geht es um dauerhafte autonome Ausführung
Der agentische Schwellenwert ist nicht bloß die Frage „Kann das Modell Tools benutzen?“
- Persistenz: Kann es Ziele und Kontext über Stunden oder Tage hinweg aufrechterhalten?
- Recovery: Kann es Fehler erkennen, Ursachen diagnostizieren und einen anderen Ansatz versuchen?
- Koordination: Kann es komplexe Ziele in Teilaufgaben zerlegen und sequenziell ausführen?
- Urteilsvermögen: Kann es unterscheiden, wann es weiterarbeiten sollte und wann es stoppen und einen Menschen um Anleitung bitten sollte?
Heutige Agenten schaffen Aufgaben im Minutenbereich, doch die nächste Stufe muss Aufgaben über Tage hinweg bewältigen
- Das ist keine bloß graduelle Leistungssteigerung, sondern ein Phasenwechsel der Fähigkeiten selbst
Deshalb fehlt im Finanzbereich trotz der Einschätzung, AI könne „Dokumente gut lesen“, MMF
- Ein 10-K zu lesen ist eine 30-Sekunden-Aufgabe, aber eine Investment-These aufzubauen ist ein mehrtägiger Workflow
- Datensammlung, Modellaufbau, Szenariotests und die Verdichtung zu Schlussfolgerungen müssen durchgängig mit konsistentem Reasoning verbunden werden
Die nächste Welle freigeschalteten MMF wird nicht nur von schlaueren Modellen ausgehen, sondern von Modellen, die dieselbe Aufgabe über Tage hinweg autonom ausführen können

Strukturelle Kernpunkte

Andreessens zentrale Einsicht war, dass Märkte wichtiger sind als Teams oder Produkte, weil ein großartiger Markt ein Produkt aus dem Startup herauszieht
Die zwingende Konsequenz für AI lautet: Die Voraussetzung dafür, dass diese gravitative Anziehung überhaupt beginnt, sind Modellfähigkeiten
Egal wie groß ein Markt ist und wie stark sein Bedarf, ein nicht funktionierendes Produkt kann er nicht anziehen
- In AI wird „funktioniert nicht“ nicht durch Engineering oder Design bestimmt, sondern durch das Modell selbst
- Selbst mit der schönsten Oberfläche, dem elegantesten Workflow und der ausgefeiltesten Datenpipeline ist alles bedeutungslos, wenn das Basismodell die Kernaufgabe nicht leisten kann
Wer die Reihenfolge MMF → PMF → Erfolg überspringt, kann die zweite Stufe nicht erreichen
Für Gründer bedeutet das, gnadenlos ehrlich zu unterscheiden zwischen dem, wozu die Fähigkeiten heute tatsächlich reichen, und dem, wo man sie gern hätte
Für Investoren bedeutet es, nicht nur Marktgröße und Teamqualität zu bewerten, sondern auch die Lücke zwischen aktuellen Modellfähigkeiten und Marktanforderungen
Für alle, die AI bauen, bleibt die Frage nicht, ob der Markt es will, sondern ob das Modell es tatsächlich liefern kann
Das ist das Einzige, was zählt

Prüfen Sie vor PMF den Model-Market Fit (Model-Market Fit)

Marc Andreessens Framework und die neue Variable

Beispiele für Markt-Explosionen, wenn MMF freigeschaltet wird

Legal AI: GPT-4 (März 2023)

Coding: Claude 3.5 Sonnet (Juni 2024)

Musteranalyse

Probleme, wenn MMF nicht existiert

Mathematische Beweise

Hochrisiko-Finanzwesen

Benchmark-Lücke

Autonome Arzneimittelentwicklung

So erkennt man fehlenden MMF

Strategisches Dilemma: Für jetzt bauen oder für die Zukunft?

Das Argument fürs Warten

Das Argument fürs frühe Starten

Die Lösung

Wie man MMF misst

Der MMF-Test

Die 80/99-Lücke

Der agentische Schwellenwert

Strukturelle Kernpunkte

Verwandte Beiträge

Noch keine Kommentare.