5 Punkte von GN⁺ 2026-02-06 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Für AI-Startups ist es unerlässlich, noch vor dem Product-Market Fit (PMF) den Model-Market Fit (MMF) zu prüfen – also ob die Fähigkeiten des aktuellen Modells die Anforderungen des Marktes tatsächlich lösen können
  • Ein typisches Beispiel für erreichten MMF ist das explosive Wachstum des Legal-AI-Marktes nach dem Launch von GPT-4 sowie der Fall, dass sich Coding-Assistenten nach dem Launch von Claude 3.5 Sonnet als echter Workflow etabliert haben
  • In Bereichen wie mathematischen Beweisen, Hochrisiko-Finanzanalysen oder autonomer Arzneimittelentwicklung gibt es zwar Marktnachfrage, doch die Modellfähigkeiten haben den Schwellenwert nicht überschritten, sodass MMF fehlt
  • Wenn Human-in-the-loop kein unterstützendes Mittel ist, sondern Menschen anstelle ergänzender Hilfe die Kernarbeit übernehmen müssen, lässt sich das als fehlender MMF interpretieren
  • Der Kern einer AI-Strategie besteht darin, die Reihenfolge MMF → PMF → Erfolg zu erkennen und nüchtern zu entscheiden, wann und was gebaut werden soll

Marc Andreessens Framework und die neue Variable

  • 2007 veröffentlichte Marc Andreessen einen Essay, in dem er unter den drei Startup-Elementen (Team, Produkt, Markt) den Markt als den wichtigsten bezeichnete
    • Ein großartiger Markt zieht ein Produkt förmlich aus dem Startup heraus, und das Produkt muss nicht großartig sein – es reicht, wenn es grundsätzlich funktioniert
  • 19 Jahre später ist mit dem Modell eine neue Variable hinzugekommen, die darüber entscheidet, ob ein Markt überhaupt etwas anziehen kann
  • Bei AI-Startups gibt es vor dem Product-Market Fit eine vorgelagerte Bedingung: Ob die aktuellen Modellfähigkeiten die vom Markt verlangten Aufgaben überhaupt ausführen können
  • Existiert MMF, funktioniert Andreessens Framework und der Markt zieht das Produkt an; existiert er nicht, können selbst hervorragende UX, GTM-Strategien und Engineering keine Kundenadoption bewirken

Beispiele für Markt-Explosionen, wenn MMF freigeschaltet wird

  • Legal AI: GPT-4 (März 2023)

    • Vor GPT-4 scheiterte Legal-Tech-AI an der Skalierung, und Tools zur Dokumentenprüfung erforderten mehr menschliche Aufsicht, als sie an Einsparungen brachten
    • Frühere Transformer-Modelle wie BERT waren zwar stark bei Klassifikationsaufgaben wie Dokumentenkategorisierung oder Vertragstyp-Erkennung, konnten aber die für juristische Arbeit zentralen Fähigkeiten Generierung und Schlussfolgern nicht leisten
      • Sie konnten Verträge etwa als „Employment“ oder „NDA“ klassifizieren, aber keine konsistente Ausarbeitung verfassen, die erklärt, warum ein Wettbewerbsverbot nach kalifornischem Recht nicht durchsetzbar ist
    • In den 18 Monaten nach dem Launch von GPT-4 sammelten Silicon-Valley-Startups Hunderte Millionen Dollar ein, Thomson Reuters übernahm Casetext für 650 Millionen Dollar, und Dutzende neue Legal-AI-Startups entstanden
    • Der Legal-AI-Markt brachte in nur 12 Monaten mehr Unicorns hervor als im gesamten Jahrzehnt davor
    • Die Marktnachfrage blieb gleich; verändert hatte sich nur, dass die Modellfähigkeiten den Schwellenwert überschritten hatten
  • Coding: Claude 3.5 Sonnet (Juni 2024)

    • Coding-Assistenten wie GitHub Copilot gab es schon früher, doch zwischen gelegentlich nützlicher Autovervollständigung und AI, die eine Codebase wirklich versteht, besteht ein klarer Unterschied
    • Als Cursor vor Claude 3.5 Sonnet genutzt wurde, blieb es auf dem Niveau einer interessanten Demo und etablierte sich nicht als alltäglicher Workflow
    • Nach dem Release von Sonnet war Arbeiten schon nach einer Woche ohne Cursor nicht mehr möglich; es fühlte sich an wie Pair Programming mit einem Gegenüber, das die gesamte Codebase versteht
    • Dass Cursor vertikal wuchs, lag nicht an einer Produktinnovation, sondern daran, dass das Basismodell die Schwelle für reale Nutzung überschritten hatte
  • Musteranalyse

    • Entscheidend ist ob MMF existiert; die siegreichen Startups sind nie einfach die ersten, sondern die Teams, die vorbereitet waren, wenn die Schwelle der Modellfähigkeiten überschritten wird
    • Weder im Coding- noch im Legal-Bereich haben etablierte Anbieter gewonnen; immer neue Player haben den Markt dominiert
    • Die heute führenden Legal-AI-Startups hatten über Monate hinweg im Voraus reale Arbeitsabläufe von Anwälten, geforderte Ausgabeformate, regulatorische Anforderungen und die Rechercheweise von Associates aufgebaut
    • Entscheidend ist nicht der First Mover, sondern wer nach Entstehung von MMF als Erster PMF erreicht

Probleme, wenn MMF nicht existiert

  • Mathematische Beweise

    • Mathematiker wollen AI, die neue Theoreme beweisen kann, und Forschungseinrichtungen, Rüstungsauftragnehmer und Tech-Unternehmen wären bereit, für echtes mathematisches Schlussfolgern Millionen zu zahlen
    • Doch selbst die fortschrittlichsten Modelle können das nicht konsistent leisten und bleiben bei der Verifikation bekannter Beweise, Unterstützung mechanischer Schritte oder Einsichten für begrenzte Probleme
    • Neue Beweise für offene Probleme zu erzeugen ist weiterhin nicht möglich; es gab zwar mit Generationen wie GPT-5, o1 und o3 schrittweise Verbesserungen, aber für strenge Beweise zu offenen Vermutungen ist das Niveau noch nicht erreicht
  • Hochrisiko-Finanzwesen

    • Investmentbanken und Hedgefonds wünschen sich dringend AI für umfassende Finanzanalysen; schon ein einzelner erfolgreicher Trade oder M&A-Deal kann Hunderte Millionen Dollar an Gebühren erzeugen
    • Dennoch zeigt AI bei Kernaufgaben weiterhin erstaunlich schwache Leistung
      • Beim Umgang mit komplexen Finanzmodellen ist selbst die Excel-Ausgabe kaum verlässlich
      • Das Lesen von 200-seitigen Dokumenten und die Verbindung quantitativer Analyse mit qualitativen Einsichten ist eine der größten Hürden für AI
    • Menschliche Analysten lesen Earnings Calls, regulatorische Offenlegungen und Branchenberichte und verbinden dies mit Spreadsheet-Modellen zu Investmententscheidungen; AI kann bislang nur Teile dieses Workflows übernehmen
    • Menschen bleiben nicht bloß aus Aufsichtsgründen in der Schleife, sondern weil sie weiterhin die zentrale Entscheidungsrolle übernehmen müssen
  • Benchmark-Lücke

    • Benchmark-Vergleiche von Vals.ai zeigen eine drastische Leistungsdifferenz zwischen Verticals mit MMF und solchen ohne MMF
    • LegalBench (juristische Reasoning-Aufgaben): bestes Modell 87 % Genauigkeit, Gemini 3 Pro führt mit 87,04 %, mehrere Modelle liegen über 85 %
      • Leistung auf Produktionsniveau, bei der Anwälte den Output mit nur leichter Prüfung vertrauen können
    • Finance Agent (zentrale Aufgaben von Finanzanalysten): bestes Modell 56,55 % Genauigkeit, GPT-5.1 überschreitet knapp die 50 %, Claude Sonnet 4.5 extended thinking liegt bei 55,32 %
    • Eine Lücke von rund 30 Punkten zeigt: Im juristischen Bereich existiert MMF, im Finanzbereich fehlt er
    • Heute lassen sich Legal-AI-Produkte launchen, aber Finanz-AI-Produkte, die die reale Arbeit von Analysten leisten, sind vielleicht bald möglich, aktuell jedoch nicht
  • Autonome Arzneimittelentwicklung

    • Die Pharmaindustrie investiert Milliarden Dollar in AI-gestützte Wirkstoffforschung, und ein einzelnes erfolgreiches Medikament kann Dutzende Milliarden Dollar wert sein
    • AI beschleunigt zwar einzelne Schritte wie die Identifizierung von Molekülkandidaten, die Vorhersage von Proteinstrukturen (AlphaFolds Durchbruch) oder die Optimierung von Studiendesigns
    • Doch eine End-to-End autonome Wirkstoffentdeckung, die aktuelle Bewertungen rechtfertigen würde, existiert bislang nicht
    • Menschen bleiben nicht aus Designgründen im Workflow, sondern weil AI die eigentliche Arbeit noch nicht leisten kann

So erkennt man fehlenden MMF

  • Das verlässlichste Signal für fehlenden MMF ist, welche Rolle Human-in-the-loop tatsächlich spielt
  • Wenn MMF existiert, fungiert Human-in-the-loop als Feature und dient der Qualitätssicherung, dem Vertrauensaufbau und dem Umgang mit Edge Cases
    • Die AI übernimmt die Kernarbeit, der Mensch sorgt für Aufsicht und Freigabe
  • Wenn MMF nicht existiert, ist Human-in-the-loop eher eine Krücke, die verdeckt, dass AI die Kernarbeit nicht leisten kann
    • Menschen übernehmen dann nicht Verstärkung, sondern Kompensation, und ohne den Menschen fällt das Produkt sofort aus
  • Ein einfacher Maßstab: Würden Kunden noch zahlen, wenn man in diesem Workflow alle menschlichen Korrekturen entfernt?
    • Wenn nicht, gibt es keinen MMF, und übrig bleibt nur eine Demo

Strategisches Dilemma: Für jetzt bauen oder für die Zukunft?

  • Das Argument fürs Warten

    • Ein Startup in einem Bereich ohne aktuellen MMF zu bauen bedeutet, auf Modellverbesserungen zu wetten, die auf den Roadmaps anderer stehen
    • Wann diese Fähigkeiten kommen, lässt sich nicht kontrollieren, und während Anthropic und OpenAI entscheiden, schmilzt die Runway weiter
    • Es ist außerdem möglich, dass die Einschätzung der benötigten Fähigkeiten selbst falsch ist
      • Die Lücke zwischen 80 % und 99 % Genauigkeit, die ein Vertical verlangt, könnte sich erst in fünf Jahren schließen – oder sich auf dem angenommenen Weg nie schließen
    • Wer an AGI glaubt, mag annehmen, dass Modelle irgendwann fast alles können; entscheidend ist aber nicht die Möglichkeit, sondern der Zeitpunkt
      • Nicht ob AI das Problem irgendwann lösen kann, sondern ob das Startup bis dahin überlebt – und das ist eine Frage der Runway
  • Das Argument fürs frühe Starten

    • Es gibt ein bei Y Combinator oft genanntes Gegenargument, und es ist durchaus überzeugend
    • In dem Moment, in dem MMF freigeschaltet wird, braucht es nicht nur Modellfähigkeiten
      • domänenspezifische Datenpipelines
      • Beziehungen zu Regulierungsbehörden
      • über Jahre aufgebautes Kundenvertrauen
      • tief integrierte Workflows
      • Verständnis dafür, wie Experten tatsächlich arbeiten
    • Legal-Startups haben GPT-4 nicht einfach nur angeschlossen, sondern im Vorfeld das Scaffolding aufgebaut und waren mit dem Erscheinen des Modells sofort einsatzbereit
    • Teams, die dem Problem am nächsten sind, üben auf Evaluationsmaßstäbe, Fine-Tuning-Richtungen und Deployment-Weisen der Modelle direkten Einfluss aus
      • Sie warten nicht passiv auf Fähigkeiten, sondern helfen zu definieren, was in diesem Vertical überhaupt als Fähigkeit gilt
  • Die Lösung

    • Die Kernfrage ist nicht, ob man früh anfangen sollte, sondern wie früh und was man während des Wartens bauen sollte
    • Der gefährlichste Bereich ist die Mittelzone
      • wenn MMF voraussichtlich erst in 24 bis 36 Monaten erreicht wird
      • nah genug, um unmittelbar zu wirken, aber weit genug entfernt, um mehrere Finanzierungsrunden aufzubrauchen
    • In diesem Bereich entscheiden Überzeugung und Runway über alles
      • Wer auf MMF in mehr als zwei Jahren setzt, braucht einen riesigen Markt, für den sich das Warten lohnt
    • Healthcare und Finanzdienstleistungen sind trotz gemischter aktueller Resultate Billionen-Dollar-Märkte, auf die Anthropic und OpenAI alles setzen
      • Das potenzielle Upside ist so groß, dass frühe Positionierung rational erscheint
    • Die Formel ist einfach
      Erwartungswert = Wahrscheinlichkeit des Eintreffens von MMF × Marktgröße × erwarteter Marktanteil

Wie man MMF misst

  • Product-Market Fit gilt als notorisch schwer präzise messbar, und Andreessen beschrieb ihn qualitativ
    • „Wenn PMF nicht passiert, spürt man das immer – und wenn er passiert, spürt man das auch immer
  • Auch MMF ist seinem Wesen nach ein intuitives Konzept, lässt sich aber mit klareren Kriterien konkretisieren
  • Der MMF-Test

    • Die Kernfrage: Kann das Modell bei denselben Inputs wie ein menschlicher Experte einen Output erzeugen, für den Kunden bezahlen würden – und zwar ohne erhebliche menschliche Korrektur?
    • Drei Bestandteile
      • 1. Dieselben Inputs
        • Das Modell arbeitet mit denselben Dokumenten, Daten und demselben Kontext wie ein Mensch
        • Magische Vorverarbeitung, die im realen Workflow nicht verfügbar wäre, ist nicht erlaubt
      • 2. Ein Output, für den Kunden bezahlen würden
        • Kein Demo- oder Proof-of-Concept-Ergebnis, sondern ein Ergebnis in Produktionsqualität, das ein reales Problem löst
      • 3. Ohne erhebliche menschliche Korrektur
        • Menschen dürfen prüfen, korrigieren oder freigeben; wenn sie jedoch 50 % des Outputs neu schreiben müssen, ist schwer zu behaupten, dass das Modell die Arbeit erledigt
  • Die 80/99-Lücke

    • In unregulierten Verticals können 80 % Genauigkeit ausreichen
      • Eine AI, die Marketing-Texte entwirft, kann selbst dann Wert schaffen, wenn Menschen sie stark überarbeiten
    • In regulierten Verticals (Finanzen, Recht, Healthcare) sind 80 % Genauigkeit praktisch wertlos
      • Ein Vertragstool, das 20 % der entscheidenden Klauseln übersieht, hilft Anwälten nicht, sondern erzeugt Haftung
      • Eine medizinische Diagnose, die jedes fünfte Mal falsch liegt, ist kein Produkt, sondern Prozessrisiko
    • Die Lücke zwischen 80 % und 99 % Genauigkeit ist in der realen Praxis oft fast unendlich groß
      • der entscheidende Unterschied zwischen einer „vielversprechenden Demo“ und einem „Produktionssystem“
    • Viele AI-Startups sitzen in genau dieser Lücke fest, finanzieren sich mit Demos und warten auf die Fähigkeiten, die ihr Produkt tatsächlich funktionsfähig machen

Der agentische Schwellenwert

  • Eine zweite Fähigkeitsfront, die in den meisten MMF-Diskussionen übersehen wird, ist die Fähigkeit, über längere Zeiträume autonom zu arbeiten
  • Die heutigen Fälle mit erreichtem MMF (juristische Dokumentenprüfung, Coding-Unterstützung) sind ihrem Wesen nach Aufgaben mit kurzem Horizont
    • Prompt rein, Output raus; nach einigen Tool-Aufrufen entsteht in Sekunden oder Minuten ein nützliches Ergebnis
  • Doch die wertvollste Wissensarbeit funktioniert nicht so
    • Ein Finanzanalyst beantwortet nicht nur eine einzelne Frage, sondern baut über mehrere Tage ein Modell, stresstestet Annahmen und synthetisiert Informationen aus Dutzenden Quellen
    • Ein Strategieberater erstellt nicht nur eine einzelne Folie, sondern wiederholt wochenlange Recherche, Interviews und Analysen
    • Ein Forscher in der Arzneimittelentwicklung entwirft und führt nicht nur ein einzelnes Experiment durch, sondern eine monatelange Kampagne
  • Solche Workflows verlangen Fähigkeiten, die Modelle bislang nicht zuverlässig leisten können; im Kern geht es um dauerhafte autonome Ausführung
  • Der agentische Schwellenwert ist nicht bloß die Frage „Kann das Modell Tools benutzen?“
    • Persistenz: Kann es Ziele und Kontext über Stunden oder Tage hinweg aufrechterhalten?
    • Recovery: Kann es Fehler erkennen, Ursachen diagnostizieren und einen anderen Ansatz versuchen?
    • Koordination: Kann es komplexe Ziele in Teilaufgaben zerlegen und sequenziell ausführen?
    • Urteilsvermögen: Kann es unterscheiden, wann es weiterarbeiten sollte und wann es stoppen und einen Menschen um Anleitung bitten sollte?
  • Heutige Agenten schaffen Aufgaben im Minutenbereich, doch die nächste Stufe muss Aufgaben über Tage hinweg bewältigen
    • Das ist keine bloß graduelle Leistungssteigerung, sondern ein Phasenwechsel der Fähigkeiten selbst
  • Deshalb fehlt im Finanzbereich trotz der Einschätzung, AI könne „Dokumente gut lesen“, MMF
    • Ein 10-K zu lesen ist eine 30-Sekunden-Aufgabe, aber eine Investment-These aufzubauen ist ein mehrtägiger Workflow
    • Datensammlung, Modellaufbau, Szenariotests und die Verdichtung zu Schlussfolgerungen müssen durchgängig mit konsistentem Reasoning verbunden werden
  • Die nächste Welle freigeschalteten MMF wird nicht nur von schlaueren Modellen ausgehen, sondern von Modellen, die dieselbe Aufgabe über Tage hinweg autonom ausführen können

Strukturelle Kernpunkte

  • Andreessens zentrale Einsicht war, dass Märkte wichtiger sind als Teams oder Produkte, weil ein großartiger Markt ein Produkt aus dem Startup herauszieht
  • Die zwingende Konsequenz für AI lautet: Die Voraussetzung dafür, dass diese gravitative Anziehung überhaupt beginnt, sind Modellfähigkeiten
  • Egal wie groß ein Markt ist und wie stark sein Bedarf, ein nicht funktionierendes Produkt kann er nicht anziehen
    • In AI wird „funktioniert nicht“ nicht durch Engineering oder Design bestimmt, sondern durch das Modell selbst
    • Selbst mit der schönsten Oberfläche, dem elegantesten Workflow und der ausgefeiltesten Datenpipeline ist alles bedeutungslos, wenn das Basismodell die Kernaufgabe nicht leisten kann
  • Wer die Reihenfolge MMF → PMF → Erfolg überspringt, kann die zweite Stufe nicht erreichen
  • Für Gründer bedeutet das, gnadenlos ehrlich zu unterscheiden zwischen dem, wozu die Fähigkeiten heute tatsächlich reichen, und dem, wo man sie gern hätte
  • Für Investoren bedeutet es, nicht nur Marktgröße und Teamqualität zu bewerten, sondern auch die Lücke zwischen aktuellen Modellfähigkeiten und Marktanforderungen
  • Für alle, die AI bauen, bleibt die Frage nicht, ob der Markt es will, sondern ob das Modell es tatsächlich liefern kann
  • Das ist das Einzige, was zählt

Noch keine Kommentare.

Noch keine Kommentare.