Was sich nicht trainieren lässt

(saranormous.substack.com)

5 Punkte von GN⁺ 4 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Seit Mitte 2026 verbreitet sich unter Investoren ein „AI-psychotischer“ Pessimismus; der Kern der Logik lautet, dass, wenn Modelle in allem besser werden, alle darauf aufgebauten Firmen nur dünne Wrapper sind, die absorbiert werden
Devin, der erste AI SWE, löste 2024 nur 13 % der Standard-Benchmark-Aufgaben, doch anderthalb Jahre später erreichte der beste Agent Werte in den hohen 80ern; Modelle besetzen zuerst den messbaren Bereich schnell
Was messbar ist, wird zum Trainingsziel und fällt zur Commodity herab, aber private Antworten mit hohen Verifizierungskosten lassen sich nicht aus Leaderboards herauslesen
Der wahre Wert liegt in Bereichen, die Modelle nicht erreichen können, etwa Lizenzierung, Haftung und Verantwortlichkeit; der Engpass ist nicht Intelligenz, sondern Berechtigung (permission) und Verantwortlichkeit (accountability)
Je billiger Intelligenz wird, desto mehr wandert Wert in die wenigen Positionen, die Modelle nicht erreichen können; der „nicht trainierbare Bereich (untrainable)” ist der endgültige Burggraben (moat)

Investoren-Pessimismus und seine Logik

Der Pessimismus der Investoren Mitte 2026 ist die Wahrnehmung, dass es nichts mehr zu investieren gibt; die Stimmung lautet, man solle nur noch in Anthropic und Nvidia investieren und sonst die Hände davon lassen
Wenn Modelle alles besser machen, dann sind alle darauf aufgebauten Firmen nur dünne Wrapper (thin wrapper), die auf ihre Absorption warten, und der einzige überlebende Wert liege in Compute und Frontier Weights
- Das stärkste Anschauungsbeispiel für diese Logik ist der Softwarebereich

Die eigentliche Lehre aus der Software

Als Devin 2024 erschien, löste es bei Standard-Software-Benchmarks nur 13 % der Aufgaben und wurde deshalb weitgehend ignoriert; anderthalb Jahre später erreichte der beste Agent Werte in den hohen 80ern und erledigte reale Arbeit innerhalb von Goldman Sachs und der U.S. Army
Fast alle zogen daraus die falsche Lehre: „Das Modell hat Software Engineering geschluckt.“ Doch Engineering hat sich Messung schon immer widersetzt, und der am besten messbare Teil ist nicht der einzige Teil, der wichtig ist
Mert Demirer vom MIT und Mitautoren quantifizierten das an mehr als 100.000 Entwicklern: Moderne Coding Agents steigern die geschriebene Codemenge um etwa 180 %, die tatsächlich deployte Menge aber nur um etwa 30 %
- Code zu schreiben ist billiger geworden, aber der Rest läuft weiterhin durch Menschen, und genau dieser Teil ist wichtig

Was messbar ist, wird trainierbar

Benchmarks sind das Messbare, und was messbar ist, lässt sich durch Training angreifen; deshalb reifen Coding Agents als Erste
- Compiler und Test Suite fungieren als kostenlose Verifizierer (free verifier); die Antwort prüft sich selbst, also kann man so lange iterieren, bis sie besteht
Aber ein bestandener Test sagt nicht, ob diese Änderung in einer 10 Jahre alten Codebasis die richtige Entscheidung ist
- Drei undokumentierte Gründe, warum ein Modul existiert, oder eine Deployment-Pipeline, die von einem Cron-Job am Leben gehalten wird, zu dem sich niemand bekennt, lassen sich nicht aus einem Leaderboard lesen
Die Korrektheit komplexer Systeme erkennt man oft erst, wenn sie lange genug in der realen Welt gelaufen sind, und ein klügeres Modell lässt die Welt nicht schneller laufen
- Noam Brown, der die Reasoning-Modelle von OpenAI mitbegründete, sagte, dass die einzig verlässliche Methode, einen Agenten über ein Jahr hinweg zu bewerten, vielleicht darin besteht, ihn ein Jahr lang laufen zu lassen

Dinge, die sich nur mit der Geschwindigkeit der Organisation bewegen

Nach Gabe Pereyra erfordert echte Automatisierung nicht nur bessere Modelle, sondern dass sich Produkt, Modell, Workflow und Firma gemeinsam bewegen; drei davon bewegen sich im Tempo von Organisationen
Der Teil, den Benchmarks nicht erreichen, ist die Arbeit an Menschen: also die Arbeitsweise skeptischer Partner zu verändern oder ein Team während eines Umbaus zusammenzuhalten
- Bei der Besetzung von CEO-Positionen zählt man den Umgang mit Menschen ebenso hoch wie analytische Fähigkeiten, und ein klügeres Modell ändert diese Gewichtung nicht
Jedes Unternehmen hat allen Ingenieuren Frontier-Coding-Modelle in die Hand gedrückt, aber es gibt keinen Ort, der im selben Tempo auch seine Engineering-Organisation (eng org) umgebaut hätte
- Die Einführung geschah in einem Quartal, der Umbau dauert Jahre

Lesbare Arbeit ist bereits auf dem Weg hinaus

Alles, was sich auf ein Leaderboard setzen lässt, kann bald trainiert werden; deshalb ist jede messbare Arbeit bereits auf dem Weg zur Commodity, und diese Richtung kehrt nicht um
In der Analogie von Matt MacInnis von Rippling sind Tokens, die allgemeine Fragen beantworten, fast wertlos, weil jedes Modell sie liefern kann; viel wertvoller sind dagegen Tokens, die über Unternehmensdaten schlussfolgern
Lesbare Arbeit wird von unten und oben zugleich ausgehöhlt
- Von unten, weil Aufgaben sättigen und Käufer nicht mehr „Welches Modell ist es?“ fragen, sondern „Was kostet es?“, worauf es zum jeweils billigsten open/distilled model der Woche kippt
- Von oben, weil Labs eine Absorptionsfront (absorption frontier) vorantreiben, bei der Scaffolding, das früher das Modell umgab — Retrieval, Routing, Tool Use, Reasoning Policy — in die Weights hineingezogen wird
Margendruck wirkt auch in die andere Richtung: Ein allgemeiner Agent muss auf alles vorbereitet sein und ist teuer, während fokussierte Anwendungen so getunt werden, dass sie einen einzelnen Workflow zu einem Bruchteil der Token-Kosten ausführen und diese Differenz direkt abschöpfen

Die 2x2-Matrix und der „nicht trainierbare Bereich“

Zu jeder Arbeit kann man zwei Fragen stellen: Ist die Korrektheit privat und teuer festzustellen? Und ist sie in Systemen eingeschlossen, in die man nicht hineinkommt?
Gekreuzt mit dem Sättigungsgrad von Aufgaben ergibt sich eine 2x2-Struktur
- Sättigung + öffentliche Antwort = Commodity-Token, besetzt von Open Models
- Frontier + öffentliche Antwort (hier liegen Coding-Benchmarks) = Das Lab gewinnt; wenn Evaluation kostenlos ist, ist Besitz bedeutungslos
- Die letzte Ecke = Frontier-Arbeit, deren Korrektheit nur privat existiert, und genau das ist untrainable
Das zeigt sich auch in der Inference Cloud: Führende AI-native Unternehmen erzeugen die überwältigende Mehrheit ihrer Tokens nicht mit allgemeinen Open Models, sondern mit Custom Models
Wie hoch die Mauer zum Eintritt in diese letzte Ecke ist, variiert
- Die Spielzeug-Codebasis eines einzelnen Entwicklers ist portierbar und standardisiert, der Zugang ist kurz
- Das Produktionssystem einer Bank ist beides nicht, und 2 % mehr Intelligenz auf SWE-Bench Verified verschaffen einem noch keine Root-Rechte

Der Engpass ist nicht Intelligenz, sondern Berechtigung und Verantwortlichkeit

Selbst bessere Modelle können private ground truth nicht öffentlich machen; sie können keine Lizenz halten, keine Haftung unterschreiben, keine Unternehmensdateien besitzen und nicht die Partei sein, die verklagt wird, wenn die Antwort falsch ist
- Der Engpass ist nicht Intelligenz, sondern permission und accountability
An dieser Tür gibt es Schloss (lock) und Riegel (deadbolt)
- Das Schloss ist die Umgebung: Erst durch Sicherheitsprüfung, Integration und Verträge, die den eigenen Namen an das Ergebnis binden, lässt sich der Nutzen von AI innerhalb eines Systems verlässlich verifizieren
- Der Riegel ist der Nutzer: Dass viele US-Ärzte jeden Tag OpenEvidence öffnen, kann man mit keiner Menge Compute kaufen
Selbst wenn morgen ein perfektes Medizinmodell trainiert würde, gäbe es keinen direkten Weg in die Gewohnheiten von Ärzten oder in die Entscheidungsabläufe der UCSF; Vertrauen wächst langsam auf Beziehungen und Zustimmung der Nutzer

Das eigentliche Wesen dieser Arbeit

Für eine Anwendung führt der Weg in die untrainable-Ecke über unspektakuläre Arbeit: die private Realität eines Unternehmens so zu arrangieren, dass ein Modell sie bearbeiten kann, ihm Werkzeuge zum Handeln zu geben und gemeinsam mit dem Kunden die Realität seiner Belegschaft zu verändern
- Ein Unternehmen, das diese Übersetzung (translation) leistet, ist schwer zu kopieren, und diese Übersetzung endet nie
- Integration und Wartung dauern an, solange die Beziehung besteht, und es gewinnt das Team, das domänenspezifische Ingenieure und Werkzeuge nah am Kunden hält
Beispiel: M&A in einer großen Wirtschaftskanzlei
- In einer führenden white-shoe Kanzlei bearbeitet allein eine M&A-Abteilung pro Jahr rund 1.000 Deals; Hunderte Associates können nicht einfach jeweils eine Client-Datei auf ihren Desktop herunterladen und sie von einem allgemeinen Agenten durchforsten lassen
  - Dafür gibt es viele Gründe, etwa Vertraulichkeit; und selbst wenn es ginge, erhielte man nur Fragmente einzelner Bearbeitungen, aber keinen Blick auf den gesamten Deal-Fluss
- Das relevante Signal liegt auf Ebene des Deals (level of the deal), und ein Deal hat eine Form
  - M&A besteht aus NDA, term sheet, diligence, purchase agreement, ancillaries, closing checklist
  - IP litigation besteht aus motion, discovery, prior art, weiteren motions
  - Jeder Practice Area ist eigenständig; weder Anwälte noch Werkzeuge sind untereinander austauschbar
- Das eigentliche Problem, das eine Kanzlei löst, liegt eine Ebene darüber: alle Practice Areas parallel zu betreiben, während Top-Partner Hunderte Fälle gleichzeitig steuern, neue hereinholen und Associates ausbilden
  - Die Transformation einer solchen Kanzlei ist keine einzelne Aufgabe, die sich als Eval formulieren lässt, sondern etwas, das von einem Operator fein gesteuert werden muss — mit extrem vagen Zwischenzielen, unvollständigem Feedback, sehr langen Zeiträumen und einer Umgebung, die nicht stillsteht

Schwer lesbarer Wert ist auch schwer zu verkaufen

Von außen weiß oft nicht einmal das Unternehmen selbst, ob AI den Betrieb verändern wird; deshalb hören die stärksten Geschäftsmodelle auf, externen Beweis zu liefern, gehen ins Innere und bepreisen Outcomes
Sierra berechnet, wenn ein Agent ein Kundenproblem löst, und berechnet nicht, wenn an einen Menschen eskaliert wird; der Preis selbst wird damit zur Evaluation, und das funktioniert, weil Sierra die Definition von „resolved“ besitzt
Dasselbe zeigt Cognition mit Devin in der Softwarewelt über Performance Guarantees — ein Ansatz, der nur für Ergebnisse innerhalb eines vertrauenswürdigen Systems möglich ist

Auch Token Serving ist keine reine Commodity

Selbst Token Serving, oft als reine Commodity bezeichnet, verhält sich nicht so; die besten AI-native Firmen bündeln ihr Serving bei ein oder zwei Anbietern (Baseten oder Fireworks)
- Die Kosten pro Token werden wie erwartet commoditisiert, aber Zuverlässigkeit unter echter Last und garantierter Zugang zu knappen Compute-Ressourcen werden es nicht
- Wo man served, ist eine andere Entscheidung als welche Modelle man verwendet; der Teil der Inference, der sich wie eine Commodity verhält, ist nur der Preis (price)

Der Einwand, dass das Lab der Lieferant ist

Ein häufiger Einwand lautet, dass das Lab der Lieferant ist und sein eigenes Produkt unter Kosten anbieten oder den API-Zugang entziehen könnte, um sich den Markt direkt zu holen; das ist die eigentliche Version des Pessimismus
Diese Logik gilt nur, wenn die Modellebene ein Spiel mit einem einzigen Akteur ist, was sie offenkundig nicht ist
- Es ähnelt eher einem „3,5-player deathmatch“, dem sich internationale Akteure anschließen, die sechs Monate zurückliegen, und die Developer League ist fünfmal so groß wie im Vorjahr
- Kunden wollen Wettbewerb unter Lieferanten, und Labs wollen Marktanteil (market share) mehr, als sie eine einzelne Anwendung vernichten wollen
Das lässt sich in Märkten beobachten, in denen Labs direkt gegeneinander antreten; im Consumer-Chat hat das beste Modell nicht einfach gewonnen
- ChatGPT hält sich seit Jahren trotz realen Wettbewerbs an der Spitze; Marktanteile, die es derzeit verliert, gehen nicht an ein besseres Modell, sondern an Gemini, getragen von Android und Search
- Anthropic, das laut Prediction Markets und Internetstimmung oft als bestes Modell gilt, spielt im Consumer-Chat kaum eine Rolle und baut sein Geschäft stattdessen in Enterprise und Coding auf
- Wenn selbst in der zentralsten Anwendung ein besseres Modell Nutzer des Konkurrenten nicht abzieht, dann durchbricht es auch keine Krankenhausakte oder Bankhaftung bloß durch Integration

Das Recht zu definieren, was eine gute Antwort ist

Wenn Außenstehende nicht bewerten können, muss jemand im Inneren entscheiden, was eine gute Antwort ist — und genau diese Entscheidung ist das ganze Spiel
- Wenn genug solcher Entscheidungen gesammelt und festgehalten werden, entsteht daraus ein Benchmark; Harvey hat einen für Recht veröffentlicht, Sierra einen für Voice Agents
- Das Recht, in einem Bereich „good“ zu definieren, erhält man nur, indem man zu einem Akteur wird, den dieses Feld bereits nutzt; dieses Recht wird durch den mühsamen realen Einsatz errungen
Die Evaluierungen, die wirklich Geld entscheiden, sind privat und firmenspezifisch: Was akzeptiert dieses Unternehmen in dieser Art von Fall als gute Arbeit? Da die Tiefe des Rechts jedes öffentliche Testset übersteigt, wird dieser Prozess nie abgeschlossen sein
Es geht nicht bloß um Messung, sondern um Urteilskraft (judgment) darüber, was wahr und was gut ist; sie wird aufgezeichnet und zum Standard, doch kein Foundation Lab kann sie, so klug es auch ist, verfassen
- Diese Stellung existiert nur innerhalb des Feldes; Autorität setzt sich dort fest, wo sie schon immer verankert war
- Ein Legal Benchmark wird von Senior-Anwälten definiert, eine sichere klinische Antwort von Ärzten, und was „resolved“ bedeutet, entscheidet das Unternehmen, dem bereits die Kundenbeziehung gehört

Eine Verteidigung, die endlos neu unterzeichnet werden muss

Je mehr Arbeit messbar wird, desto weiter steigt die absorption frontier, und alles, was messbar geworden ist, wird verschlungen
Der untrainable-Boden schrumpft unter den Füßen derjenigen, die darauf stehen; man kann sich nicht auf einer sicheren Position ausruhen, sondern muss ständig in Bereiche weiterziehen, die noch nicht bewertet werden können, und immer wieder neu re-underwriten
Wenn man in einer engen Aufgabe mit privaten Daten und eigener Evaluation bis an die Frontier trainiert, schlägt man an diesem Punkt das allgemeine Modell, und dieses spezialisierte Modell wird Teil des moat
Dagegen auf der Ebene allgemeiner Modelle zu konkurrieren bedeutet, einen Kapitalkrieg gegen den Akteur mit dem meisten Compute zu verlieren — die Falle von Firmen mit flachem Zugang und leicht lesbaren Aufgaben
- An dem Tag, an dem man beschließt, zum Überleben im allgemeinen Bereich über die Frontier hinaus zu trainieren, wird der Sieger durch die Größe des Rechenzentrums bestimmt, und das Ende ist kein unabhängiger Champion, sondern der Verkauf an den compute-reicheren Akteur

Der schwierigere Angriff: Was soll überhaupt gebaut werden?

Alles bisher Gesagte ist Verteidigung; der schwierigere Angriff ist, überhaupt zu wählen, was man bauen soll, und so etwas entdeckt man vielleicht drei Mal im Jahr
Modelle helfen hier nicht; sie tun, worauf man zeigt, aber sie sagen einem nicht, worauf zu zeigen sich überhaupt lohnt, und weil sich das nicht benchmarken lässt, lässt es sich auch nicht trainieren
- Das ist der Grund, warum etablierte Gewinner nicht alles bekommen: Das Nächste kommt von jemandem, der den Use Case früher als alle anderen erkennt
- Vielleicht ist Absicht (intent) ein noch knapperer Input als Compute

Fazit: Wert mit Geschichte

Der Pessimismus hat nur zur Hälfte recht: Die Schicht aus dünnen Wrappern wird tatsächlich absorbiert, und vieles, was heute wie ein Unternehmen aussieht, ist in Wahrheit ein dünner Wrapper
- Aber falsch liegt er darin, was übrig bleibt; der Mechanismus der Absorption ist klar, aber das endgültige Ziel bleibt unklar
Intelligenz wird weiter billiger, und der Wert rutscht in die wenigen Positionen, die Modelle nicht erreichen können; dieser Ort ist untrainable — Beziehungen, Vertrauen, angesammelte Urteilskraft, also „Wert mit Geschichte (value with history)”, der über Zeit entsteht und sich nicht durch Training kopieren lässt
Deshalb sollte man nicht versuchen, Intelligenz selbst zu besitzen, sondern in einen Bereich hineingehen, in dem die richtigen Antworten nur innerhalb dieses Feldes existieren („get inside one“)
- Die unspektakuläre Übersetzungsarbeit (translation) selbst leisten, die die private Realität eines Unternehmens so arrangiert, dass Modelle damit arbeiten können
- Entscheidend ist, zu dem Akteur zu werden, der festhält, was in diesem Feld good (eine gute Antwort) ist, und damit den Maßstab definiert; diese Position ist nicht frei, und wenn man sie nicht besetzt, wird es sicher jemand anderes tun
Der am häufigsten zitierte Benchmark-Score dieses Jahres ist kein Grund zum Stolz, sondern eine Warnung: eine Karte eines Territoriums, das bald wertlos wird, und eine Mitteilung an jene, die bald das Recht verlieren werden, zu sagen, was good ist
- Dass etwas öffentlich messbar geworden ist, ist das Signal, dass es zur Commodity wird; öffentliche Bewertung können alle aufholen, und deshalb verliert selbst der Erstplatzierte nach diesem Score das Recht, den Maßstab für good zu definieren

Was sich nicht trainieren lässt

Investoren-Pessimismus und seine Logik

Die eigentliche Lehre aus der Software

Was messbar ist, wird trainierbar

Dinge, die sich nur mit der Geschwindigkeit der Organisation bewegen

Lesbare Arbeit ist bereits auf dem Weg hinaus

Die 2x2-Matrix und der „nicht trainierbare Bereich“

Der Engpass ist nicht Intelligenz, sondern Berechtigung und Verantwortlichkeit

Das eigentliche Wesen dieser Arbeit

Beispiel: M&A in einer großen Wirtschaftskanzlei

Schwer lesbarer Wert ist auch schwer zu verkaufen

Auch Token Serving ist keine reine Commodity

Der Einwand, dass das Lab der Lieferant ist

Das Recht zu definieren, was eine gute Antwort ist

Eine Verteidigung, die endlos neu unterzeichnet werden muss

Der schwierigere Angriff: Was soll überhaupt gebaut werden?

Fazit: Wert mit Geschichte

Verwandte Beiträge

Noch keine Kommentare.