Das Simulakrum (Trugbild) der Wissensarbeit
(blog.happyfellow.dev)- Während LLMs die oberflächliche Qualität perfekt nachahmen, werden die Proxy-Maße, mit denen bisher die tatsächliche Qualität von Wissensarbeit beurteilt wurde, wirkungslos
- Da sich die eigentliche Qualität von Wissensarbeit nur schwer direkt bewerten lässt, stützte man sich bislang auf Proxy-Maße wie die formale Vollständigkeit von Dokumenten – doch LLMs bestehen diese Prüfungen mühelos
- Von KI verfasster Code und Berichte wirken auf den ersten Blick professionell, passieren aber oft, ohne dass ihre tatsächliche Korrektheit oder Nützlichkeit verifiziert wurde
- Auch LLMs selbst werden nicht darauf trainiert, ob etwas „richtig“ ist, sondern ob es „plausibel wirkt“ – und tragen damit dasselbe Proxy-Problem in sich
- Warnung: Systeme, in die Milliarden Dollar investiert wurden, werden nicht für echte Arbeit genutzt, sondern als Werkzeuge zur Ausführung des Trugbilds von Arbeit
Rolle und Grenzen von Proxy-Maßen
- Wenn man einen Marktanalysebericht erhält, wird oft schon der gesamte Bericht verworfen, wenn oberflächliche Mängel wie Datumsfehler, Tippfehler oder doppelte Grafiken auftauchen
- Eigentlich interessiert, ob der Bericht die Realität abbildet und zu guten Entscheidungen führt, doch das direkt zu prüfen ist teuer
- Oberflächliche Qualität ist günstig zu überprüfen und korreliert hinreichend stark mit der tatsächlichen Qualität – deshalb funktionierte sie als Proxy-Maß
- Dieses Problem betrifft jede Form von Wissensarbeit: Weil die objektive Beurteilung fremder Arbeit viel Aufwand erfordert, stützt sich das System stark auf Proxy-Maße
Wie LLMs Proxy-Maße entwertet haben
- Proxy-Maße dienten bisher auch dazu, fehlgeleitete Anreize (misaligned incentives) einzudämmen – doch LLMs haben diesen Mechanismus aufgebrochen
- LLMs sind hervorragend darin, Schreibstile zu simulieren, ohne die tatsächliche Qualität der Arbeit zu reproduzieren
- Fordert man ChatGPT auf, einen Marktanalysebericht zu erstellen, sieht das Ergebnis so aus, als hätte ihn ein Experte einer Top-Consulting-Firma geschrieben
- Wenn Softwareingenieure mithilfe von KI tausende Zeilen Code erzeugen, wirkt dieser bei einem kurzen Überfliegen wie hochwertiger Code
- Auch Kollegen überlassen Code-Reviews der KI und arbeiten gefundene Probleme mechanisch ab, sodass nur das Ritual der Arbeit erhalten bleibt, nicht aber ihre tatsächliche Qualität
Dasselbe Problem steckt auch in LLMs selbst
- Schon der Trainingsprozess von LLMs bewertet nicht, ob eine Antwort „wahr“ oder „nützlich“ ist
- Maßstab im Training ist vielmehr, ob es sich um eine „Antwort handelt, die so in den Trainingsdaten vorkommen könnte“ oder um eine „Antwort, mit der ein RLHF-Bewerter zufrieden wäre“
- Dadurch werden LLMs darauf optimiert, Ausgaben zu erzeugen, die wie hochwertige Ergebnisse aussehen – und genau darin sind sie außergewöhnlich gut
Warnung zur aktuellen Lage
- Systeme, in die Milliarden Dollar investiert wurden, werden genutzt, um das Simulakrum von Arbeit auszuführen
- Unternehmen konkurrieren darum, auf dem Leaderboard des Token-Verbrauchs Platz 1 zu belegen
- Je mehr LLM-Ausgaben Beschäftigte produzieren, desto weniger Zeit bleibt, diese gründlich zu prüfen
- Am Ende bleibt nur noch, alles kurz zu überfliegen, „LGTM“ darunterzusetzen und die 17. Claude-Code-Session zu starten
1 Kommentare
Hacker-News-Kommentare
Ich stimme weder der im Artikel vertretenen These vollständig zu, dass man die Qualität menschlicher Wissensarbeit leicht anhand von Stellvertretermerkmalen wie Tippfehlern oder kleinen Fehlern abschätzen konnte, noch der These, dass genau das bei AI fehle und deshalb das Problem entstehe
Es gab schon immer viele menschliche Ergebnisse, die konzeptionell miserabel waren, aber in den Fakten korrekt und formal sauber wirkten
Wenn man zehn Jahre mit Unternehmenskunden gearbeitet hat, kann man wirklich nicht behaupten, die Zeit vor den LLMs sei ein goldenes Zeitalter hochwertiger Wissensarbeit gewesen; auch damals gab es jede Menge Gerümpel, also funktionierende Simulakren von Wissensarbeit
Schlechte Ergebnisse von Menschen haben meist Ursachen wie Unwissen, Zeitdruck oder eigennützige Ziele, und diese Ursachen sind ziemlich konsistent
Man kann Vertrauensmuster erkennen, etwa beim vorsichtigen, aber unerfahrenen Praktikanten oder beim Senior mit viel Wissen, der wegen Schlafmangels Offensichtliches übersieht
Bei AI dagegen kommt es vor, dass sie in einem Durchlauf eine Paper-Implementierung perfekt hinbekommt und im selben Run Fehler auf Erstsemester-Niveau macht; dadurch entsteht die kontraintuitive Situation, dass man bei einer Maschine mit extremer scheinbarer Kompetenz ein Review so durchführen muss, als wäre vollständige Inkompetenz jederzeit möglich
Wenn es Tippfehler oder grundlegende Sachfehler gab, konnte man etwas leicht aussortieren; dass diese fehlen, bedeutet aber nicht, dass die Qualität hoch ist
Normalerweise ist so eine Prüfung nur die erste Hürde und nicht alles; wenn etwas diese Hürde nimmt, kann man die eigentlichen Probleme leichter sehen
Im Code ist das ähnlich, wenn man vor dem Reasoning erst einmal Linting und Stil in Ordnung bringt
Da man selbst aber gar nicht merkt, dass diese 99 % AI-generiert sind, bildet man sich leicht ein, man könne AI-Texte vollständig herausfiltern, nur weil man 100 % der Muster erkennt, die einem überhaupt auffallen
Viel Wissensarbeit war schon immer ein Stellvertreter für etwas anderes
Fehlerfreie, ordentlich formatierte Qualität war oft vor allem ein Signal des Respekts, wie ein gebügeltes weißes Hemd und eine Krawatte, und viele lange Dokumente wurden in Wirklichkeit von niemandem tief gelesen
Am Ende war das eine symbolische Darstellung von Opferbereitschaft und Unterordnung, und LLMs beseitigen gerade dieses Signalsystem
Wenn man die inhaltliche Qualität schon früher nicht wirklich geprüft hat, war der Inhalt offenbar von vornherein nicht besonders wichtig
In der Wissenschaft zeigt sich bereits das Problem der AI-Review-Kosten, allerdings etwas anders als im Artikel beschrieben
Der Kern ist weniger, dass die Marker schlechter Arbeit verschwinden, sondern dass die Kosten für eine sorgfältige Prüfung von mit AI erstellter Arbeit für Menschen allein zu hoch werden
In wirtschaftswissenschaftlichen Journals können Anhänge zum Beispiel mehrere hundert Seiten lang sein, während die menschlich lesbare Zeit begrenzt ist
Ich frage mich, ob Journals in anderen Fachgebieten nicht nur durch mehr Neueinreichungen unter Druck geraten, sondern auch durch die Prüfintensität, die nötig ist, um einzelne Arbeiten zu verifizieren
Unterhalb dieses Niveaus ist oft kaum zu unterscheiden, was wirklich stimmt und was nur so aussieht, als würde es stimmen
Ich habe das Gefühl, mit AI Verständnis als cargo cult zu betreiben
Man reproduziert die Oberfläche davon, etwas verstanden zu haben, und nimmt sich selbst die Zeit und Mühe, die echtes Verstehen erfordert
Er glaubt, wenn man Claude mit Snowflake Cortex, integriertem Code, Dokumentation und Jira-Tickets füttert, könne man alles fragen und alles würde viel besser werden
Diese Fixierung hat aber keine großen Ergebnisse hervorgebracht, und ein paarmal hat er die Unvollkommenheit der Technologie auch deutlich selbst erlebt
Alle reden von agentic workflows und einer riesigen internen Wiki-Vision, während ich mit AI zwar die Liefergeschwindigkeit deutlich erhöhe, aber keine Zeit in groß angelegte Abenteuer stecke und deshalb weiter Ergebnisse liefere
Es wirkt auch ironisch, dass Leute, die früher die Einführung von Chatbots im Unternehmen kritisierten, jetzt Token verbrennen, um mit Aberbillionen von
.md-Dateien und Skill-Files ihren eigenen Chatbot zu bauenMeine eigentliche Sorge ist, dass tatsächliches institutionelles Wissen durch solche Abkürzungen verloren geht
Einfache Beispielanfragen oder Fragen zum Erlernen von Konzepten sind okay, aber Prompts nach dem Muster, man solle gleich die aktuellen Tools und die Infrastruktur prüfen, die Deployment-Geschwindigkeit verfünffachen, Web-Recherche machen und dazu noch einen Organisationsvorschlag samt Fünfjahres-Kosten-Nutzen-Analyse liefern, schwächen Menschen selbst
Inzwischen werfen viele einfach von Claude erzeugte Vorschläge in die Runde und überspringen den Prozess, selbst ein wenig tiefer zu graben oder gemeinsam mit einem Architekten oder Senior Engineer zu explorieren
Das Ergebnis ist, dass vieles nur oberflächlich verstanden wird, man bei tieferem Nachfragen schlecht erklären kann und die von AI gelieferten Antworten wie eine endgültige Strategie behandelt, die man nicht mehr herausfordern will
Auch die Gelegenheit, von erfahreneren Menschen zu lernen, wird nicht mehr als Lernerfahrung gesehen
Am Ende glaube ich weiterhin, dass das menschliche Gehirn selbst eine der erstaunlichsten Technologien überhaupt ist, und frage mich, warum man diese riesige künstliche Bibliothek unbedingt außerhalb seiner selbst aufbauen will
Wie Bret Devereaux in seiner Game-Of-Thrones-Kritik schreibt, wirkt ein Weltbild aus Eliteperspektive nur für Eliten plausibel und utopisch
Solche von realer Arbeit entkoppelten Blasen werden am Ende groß platzen, und wenn die durch AI arbeitslos gewordenen Massen rufen, dass sie kein Brot haben, und man ihnen dann sagt, sie sollen doch Kuchen essen, dann kann man sich auch eine Reaktion im Stil der Französischen Revolution vorstellen
Aber als Werkzeug, das einem hilft, etwas tief zu verstehen, gibt es paradoxerweise nur wenige Dinge, die so gut sind wie AI
Letztlich ist etwas zu verstehen fast dasselbe wie es selbst zu tun
Es ist in Ordnung, etwas nicht zu verstehen, aber dann bleibt einem mit oder ohne Stellvertretermerkmale letztlich nur, auf das Verständnis anderer zu vertrauen
Weniger selbst zu tun und dafür mehr zu vertrauen, funktioniert bis zu einem gewissen Punkt, aber darüber hinaus gerät die Zukunft der Arbeit in Gefahr
simulacrumist wirklich ein großartiges WortDeshalb wirkten mittlere Manager wahrscheinlich wie die ersten Gläubigen des LLM-Maximalismus
Für mittleres Management gibt es viele Anreize, Wissensarbeit immer weiter zu abstrahieren, statt echte Rollenerfahrung zu fördern, und genau diese abstrahierte Ebene lässt sich im embedding space offenbar besonders gut beschreiben
AI-Code wirkt oft schlechter, als er tatsächlich ist
Er ist übermäßig langatmig, verwirrend und voll mit Fallbacks, sodass Probleme durch unzählige
try/catch-Blöcke sickern und Stacktraces an völlig falsche Stellen schickenRein funktional betrachtet lief solcher Code aber oft besser als ähnlich aussehender, von Menschen geschriebener Code
Denn sowohl für Menschen als auch für LLMs ist er schwer zu durchdringen
Ich wünschte, es gäbe mehr von diesem Blogpost-Stil
Die Länge ist angemessen, die Botschaft kommt gut rüber, und es hat erzählerische Qualität
Gerade weil es heute so viel LLM-erzeugten AI-Slop in Romanlänge gibt, fühlt sich so etwas umso erfrischender an
Für viele Leute in der Branche wirkt das wie eine ziemlich offensichtliche Entwicklung
Das Problem ist nur, dass so viel Geld daran hängt, dass die großen Akteure weiter auf das drängen, was sie wollen
Das lässt mich mir vorstellen, dass subatomare Teilchen in Wahrheit eigene Universen sind und ihre Eigenschaften die Spuren der Wesen widerspiegeln, die diese Universen beherrschten, sowie der Automatisierung, die nach ihrem Verschwinden weiterlief
So etwas wie automatische Maschinen, die Entropie ernten und sich immer weiter selbst vervielfältigen
Wir erschaffen gerade Kräfte, die größer sind als wir, und könnten irgendwann einen Punkt ohne Wiederkehr erreichen
Man beginnt sich zahllose subatomare Universen und Zivilisationen vorzustellen, die aufsteigen und vergehen und vielleicht von autonomen quasi-intelligenten Technologien verschlungen werden, während sich das auf makroskopischer Ebene als Teilchenverhalten zeigt
Auch wir erzeugen am Ende nur ein Teilchen, und unsere kollektiven Entscheidungen könnten einen winzigen, aber bedeutenden Einfluss auf das höhere Universum haben, in dem wir uns befinden
Der Output von jemandem wird immer zum Input von jemand anderem
Wenn man mit LLMs die Menge erhöht, parst die nächste Person das wieder mit LLMs und erzeugt daraus ihren eigenen Output
So setzt sich das fort, und wenn der Endverbraucher schließlich Beschwerde einlegt, kann am Ende niemand mehr genau benennen, wo es eigentlich schiefgelaufen ist
Denn nur der letzte Verbraucher ist sichtbar, während sich alle anderen hinter sieben Proxy-Schichten verstecken