Das Simulakrum (Trugbild) der Wissensarbeit

(blog.happyfellow.dev)

2 Punkte von GN⁺ 3 일 전 | 1 Kommentare | Auf WhatsApp teilen

Während LLMs die oberflächliche Qualität perfekt nachahmen, werden die Proxy-Maße, mit denen bisher die tatsächliche Qualität von Wissensarbeit beurteilt wurde, wirkungslos
Da sich die eigentliche Qualität von Wissensarbeit nur schwer direkt bewerten lässt, stützte man sich bislang auf Proxy-Maße wie die formale Vollständigkeit von Dokumenten – doch LLMs bestehen diese Prüfungen mühelos
Von KI verfasster Code und Berichte wirken auf den ersten Blick professionell, passieren aber oft, ohne dass ihre tatsächliche Korrektheit oder Nützlichkeit verifiziert wurde
Auch LLMs selbst werden nicht darauf trainiert, ob etwas „richtig“ ist, sondern ob es „plausibel wirkt“ – und tragen damit dasselbe Proxy-Problem in sich
Warnung: Systeme, in die Milliarden Dollar investiert wurden, werden nicht für echte Arbeit genutzt, sondern als Werkzeuge zur Ausführung des Trugbilds von Arbeit

Rolle und Grenzen von Proxy-Maßen

Wenn man einen Marktanalysebericht erhält, wird oft schon der gesamte Bericht verworfen, wenn oberflächliche Mängel wie Datumsfehler, Tippfehler oder doppelte Grafiken auftauchen
Eigentlich interessiert, ob der Bericht die Realität abbildet und zu guten Entscheidungen führt, doch das direkt zu prüfen ist teuer
Oberflächliche Qualität ist günstig zu überprüfen und korreliert hinreichend stark mit der tatsächlichen Qualität – deshalb funktionierte sie als Proxy-Maß
Dieses Problem betrifft jede Form von Wissensarbeit: Weil die objektive Beurteilung fremder Arbeit viel Aufwand erfordert, stützt sich das System stark auf Proxy-Maße

Wie LLMs Proxy-Maße entwertet haben

Proxy-Maße dienten bisher auch dazu, fehlgeleitete Anreize (misaligned incentives) einzudämmen – doch LLMs haben diesen Mechanismus aufgebrochen
LLMs sind hervorragend darin, Schreibstile zu simulieren, ohne die tatsächliche Qualität der Arbeit zu reproduzieren
Fordert man ChatGPT auf, einen Marktanalysebericht zu erstellen, sieht das Ergebnis so aus, als hätte ihn ein Experte einer Top-Consulting-Firma geschrieben
Wenn Softwareingenieure mithilfe von KI tausende Zeilen Code erzeugen, wirkt dieser bei einem kurzen Überfliegen wie hochwertiger Code
- Auch Kollegen überlassen Code-Reviews der KI und arbeiten gefundene Probleme mechanisch ab, sodass nur das Ritual der Arbeit erhalten bleibt, nicht aber ihre tatsächliche Qualität

Dasselbe Problem steckt auch in LLMs selbst

Schon der Trainingsprozess von LLMs bewertet nicht, ob eine Antwort „wahr“ oder „nützlich“ ist
Maßstab im Training ist vielmehr, ob es sich um eine „Antwort handelt, die so in den Trainingsdaten vorkommen könnte“ oder um eine „Antwort, mit der ein RLHF-Bewerter zufrieden wäre“
Dadurch werden LLMs darauf optimiert, Ausgaben zu erzeugen, die wie hochwertige Ergebnisse aussehen – und genau darin sind sie außergewöhnlich gut

Warnung zur aktuellen Lage

Systeme, in die Milliarden Dollar investiert wurden, werden genutzt, um das Simulakrum von Arbeit auszuführen
Unternehmen konkurrieren darum, auf dem Leaderboard des Token-Verbrauchs Platz 1 zu belegen
Je mehr LLM-Ausgaben Beschäftigte produzieren, desto weniger Zeit bleibt, diese gründlich zu prüfen
Am Ende bleibt nur noch, alles kurz zu überfliegen, „LGTM“ darunterzusetzen und die 17. Claude-Code-Session zu starten

1 Kommentare

GN⁺ 3 일 전

Hacker-News-Kommentare

Ich stimme weder der im Artikel vertretenen These vollständig zu, dass man die Qualität menschlicher Wissensarbeit leicht anhand von Stellvertretermerkmalen wie Tippfehlern oder kleinen Fehlern abschätzen konnte, noch der These, dass genau das bei AI fehle und deshalb das Problem entstehe
Es gab schon immer viele menschliche Ergebnisse, die konzeptionell miserabel waren, aber in den Fakten korrekt und formal sauber wirkten
Wenn man zehn Jahre mit Unternehmenskunden gearbeitet hat, kann man wirklich nicht behaupten, die Zeit vor den LLMs sei ein goldenes Zeitalter hochwertiger Wissensarbeit gewesen; auch damals gab es jede Menge Gerümpel, also funktionierende Simulakren von Wissensarbeit
- Das größere Problem für mich ist, dass die menschliche Erklärbarkeit von Fehlern verschwindet
  Schlechte Ergebnisse von Menschen haben meist Ursachen wie Unwissen, Zeitdruck oder eigennützige Ziele, und diese Ursachen sind ziemlich konsistent
  Man kann Vertrauensmuster erkennen, etwa beim vorsichtigen, aber unerfahrenen Praktikanten oder beim Senior mit viel Wissen, der wegen Schlafmangels Offensichtliches übersieht
  Bei AI dagegen kommt es vor, dass sie in einem Durchlauf eine Paper-Implementierung perfekt hinbekommt und im selben Run Fehler auf Erstsemester-Niveau macht; dadurch entsteht die kontraintuitive Situation, dass man bei einer Maschine mit extremer scheinbarer Kompetenz ein Review so durchführen muss, als wäre vollständige Inkompetenz jederzeit möglich
- Die Zeit vor den LLMs war zwar kein goldenes Qualitätszeitalter, aber LLMs haben tatsächlich noch ein weiteres Erkennungszeichen dafür beseitigt, wenn Arbeit aus hastig zusammengeschustertem Unsinn bestand
- Eigentlich war das nie eine Positiverkennung, sondern ein Negativfilter
  Wenn es Tippfehler oder grundlegende Sachfehler gab, konnte man etwas leicht aussortieren; dass diese fehlen, bedeutet aber nicht, dass die Qualität hoch ist
  Normalerweise ist so eine Prüfung nur die erste Hürde und nicht alles; wenn etwas diese Hürde nimmt, kann man die eigentlichen Probleme leichter sehen
  Im Code ist das ähnlich, wenn man vor dem Reasoning erst einmal Linting und Stil in Ordnung bringt
- Auffällige AI-typische Formulierungen kann man vielleicht erkennen, aber die übrigen 99 % des AI-generierten Texts ohne solche Marker übersieht man leicht
  Da man selbst aber gar nicht merkt, dass diese 99 % AI-generiert sind, bildet man sich leicht ein, man könne AI-Texte vollständig herausfiltern, nur weil man 100 % der Muster erkennt, die einem überhaupt auffallen
- Ich halte das nicht für den zentral wichtigen Punkt
  Viel Wissensarbeit war schon immer ein Stellvertreter für etwas anderes
  Fehlerfreie, ordentlich formatierte Qualität war oft vor allem ein Signal des Respekts, wie ein gebügeltes weißes Hemd und eine Krawatte, und viele lange Dokumente wurden in Wirklichkeit von niemandem tief gelesen
  Am Ende war das eine symbolische Darstellung von Opferbereitschaft und Unterordnung, und LLMs beseitigen gerade dieses Signalsystem
  Wenn man die inhaltliche Qualität schon früher nicht wirklich geprüft hat, war der Inhalt offenbar von vornherein nicht besonders wichtig
In der Wissenschaft zeigt sich bereits das Problem der AI-Review-Kosten, allerdings etwas anders als im Artikel beschrieben
Der Kern ist weniger, dass die Marker schlechter Arbeit verschwinden, sondern dass die Kosten für eine sorgfältige Prüfung von mit AI erstellter Arbeit für Menschen allein zu hoch werden
In wirtschaftswissenschaftlichen Journals können Anhänge zum Beispiel mehrere hundert Seiten lang sein, während die menschlich lesbare Zeit begrenzt ist
Ich frage mich, ob Journals in anderen Fachgebieten nicht nur durch mehr Neueinreichungen unter Druck geraten, sondern auch durch die Prüfintensität, die nötig ist, um einzelne Arbeiten zu verifizieren
- Fairerweise braucht man in vielen Fachgebieten bereits ab dem Master-Niveau hohe Expertise, um überhaupt urteilen zu können
  Unterhalb dieses Niveaus ist oft kaum zu unterscheiden, was wirklich stimmt und was nur so aussieht, als würde es stimmen
Ich habe das Gefühl, mit AI Verständnis als cargo cult zu betreiben
Man reproduziert die Oberfläche davon, etwas verstanden zu haben, und nimmt sich selbst die Zeit und Mühe, die echtes Verstehen erfordert
- Das denke ich mir ständig bei einem Kollegen, mit dem ich arbeite: Er entwirft Nutzungsszenarien für AI fast nur als Fantasie eines persönlichen Jarvis
  Er glaubt, wenn man Claude mit Snowflake Cortex, integriertem Code, Dokumentation und Jira-Tickets füttert, könne man alles fragen und alles würde viel besser werden
  Diese Fixierung hat aber keine großen Ergebnisse hervorgebracht, und ein paarmal hat er die Unvollkommenheit der Technologie auch deutlich selbst erlebt
  Alle reden von agentic workflows und einer riesigen internen Wiki-Vision, während ich mit AI zwar die Liefergeschwindigkeit deutlich erhöhe, aber keine Zeit in groß angelegte Abenteuer stecke und deshalb weiter Ergebnisse liefere
  Es wirkt auch ironisch, dass Leute, die früher die Einführung von Chatbots im Unternehmen kritisierten, jetzt Token verbrennen, um mit Aberbillionen von .md-Dateien und Skill-Files ihren eigenen Chatbot zu bauen
  Meine eigentliche Sorge ist, dass tatsächliches institutionelles Wissen durch solche Abkürzungen verloren geht
  Einfache Beispielanfragen oder Fragen zum Erlernen von Konzepten sind okay, aber Prompts nach dem Muster, man solle gleich die aktuellen Tools und die Infrastruktur prüfen, die Deployment-Geschwindigkeit verfünffachen, Web-Recherche machen und dazu noch einen Organisationsvorschlag samt Fünfjahres-Kosten-Nutzen-Analyse liefern, schwächen Menschen selbst
  Inzwischen werfen viele einfach von Claude erzeugte Vorschläge in die Runde und überspringen den Prozess, selbst ein wenig tiefer zu graben oder gemeinsam mit einem Architekten oder Senior Engineer zu explorieren
  Das Ergebnis ist, dass vieles nur oberflächlich verstanden wird, man bei tieferem Nachfragen schlecht erklären kann und die von AI gelieferten Antworten wie eine endgültige Strategie behandelt, die man nicht mehr herausfordern will
  Auch die Gelegenheit, von erfahreneren Menschen zu lernen, wird nicht mehr als Lernerfahrung gesehen
  Am Ende glaube ich weiterhin, dass das menschliche Gehirn selbst eine der erstaunlichsten Technologien überhaupt ist, und frage mich, warum man diese riesige künstliche Bibliothek unbedingt außerhalb seiner selbst aufbauen will
- Meiner Ansicht nach geht es hier weniger um einen cargo cult des Verstehens als um einen cargo cult aus Managersicht
  Wie Bret Devereaux in seiner Game-Of-Thrones-Kritik schreibt, wirkt ein Weltbild aus Eliteperspektive nur für Eliten plausibel und utopisch
  Solche von realer Arbeit entkoppelten Blasen werden am Ende groß platzen, und wenn die durch AI arbeitslos gewordenen Massen rufen, dass sie kein Brot haben, und man ihnen dann sagt, sie sollen doch Kuchen essen, dann kann man sich auch eine Reaktion im Stil der Französischen Revolution vorstellen
- Umgekehrt kann AI Dinge für mich erledigen, auch wenn ich sie nicht verstehe
  Aber als Werkzeug, das einem hilft, etwas tief zu verstehen, gibt es paradoxerweise nur wenige Dinge, die so gut sind wie AI
Letztlich ist etwas zu verstehen fast dasselbe wie es selbst zu tun
Es ist in Ordnung, etwas nicht zu verstehen, aber dann bleibt einem mit oder ohne Stellvertretermerkmale letztlich nur, auf das Verständnis anderer zu vertrauen
Weniger selbst zu tun und dafür mehr zu vertrauen, funktioniert bis zu einem gewissen Punkt, aber darüber hinaus gerät die Zukunft der Arbeit in Gefahr
simulacrum ist wirklich ein großartiges Wort
- Das Konzept des Simulacrums kommt von Baudrillard, und sein Essay Simulation and Simulacra hilft ziemlich dabei zu verstehen, warum die moderne Wirtschaft so merkwürdig ist
Deshalb wirkten mittlere Manager wahrscheinlich wie die ersten Gläubigen des LLM-Maximalismus
Für mittleres Management gibt es viele Anreize, Wissensarbeit immer weiter zu abstrahieren, statt echte Rollenerfahrung zu fördern, und genau diese abstrahierte Ebene lässt sich im embedding space offenbar besonders gut beschreiben
AI-Code wirkt oft schlechter, als er tatsächlich ist
Er ist übermäßig langatmig, verwirrend und voll mit Fallbacks, sodass Probleme durch unzählige try/catch-Blöcke sickern und Stacktraces an völlig falsche Stellen schicken
Rein funktional betrachtet lief solcher Code aber oft besser als ähnlich aussehender, von Menschen geschriebener Code
- Trotzdem ist so beschriebener Code weiterhin schlechter Code
  Denn sowohl für Menschen als auch für LLMs ist er schwer zu durchdringen
Ich wünschte, es gäbe mehr von diesem Blogpost-Stil
Die Länge ist angemessen, die Botschaft kommt gut rüber, und es hat erzählerische Qualität
Gerade weil es heute so viel LLM-erzeugten AI-Slop in Romanlänge gibt, fühlt sich so etwas umso erfrischender an
Für viele Leute in der Branche wirkt das wie eine ziemlich offensichtliche Entwicklung
Das Problem ist nur, dass so viel Geld daran hängt, dass die großen Akteure weiter auf das drängen, was sie wollen
Das lässt mich mir vorstellen, dass subatomare Teilchen in Wahrheit eigene Universen sind und ihre Eigenschaften die Spuren der Wesen widerspiegeln, die diese Universen beherrschten, sowie der Automatisierung, die nach ihrem Verschwinden weiterlief
So etwas wie automatische Maschinen, die Entropie ernten und sich immer weiter selbst vervielfältigen
Wir erschaffen gerade Kräfte, die größer sind als wir, und könnten irgendwann einen Punkt ohne Wiederkehr erreichen
- Ich habe das nicht vollständig durchdacht, aber die Vorstellung ist faszinierend
  Man beginnt sich zahllose subatomare Universen und Zivilisationen vorzustellen, die aufsteigen und vergehen und vielleicht von autonomen quasi-intelligenten Technologien verschlungen werden, während sich das auf makroskopischer Ebene als Teilchenverhalten zeigt
  Auch wir erzeugen am Ende nur ein Teilchen, und unsere kollektiven Entscheidungen könnten einen winzigen, aber bedeutenden Einfluss auf das höhere Universum haben, in dem wir uns befinden
Der Output von jemandem wird immer zum Input von jemand anderem
Wenn man mit LLMs die Menge erhöht, parst die nächste Person das wieder mit LLMs und erzeugt daraus ihren eigenen Output
So setzt sich das fort, und wenn der Endverbraucher schließlich Beschwerde einlegt, kann am Ende niemand mehr genau benennen, wo es eigentlich schiefgelaufen ist
- Natürlich wird man dann sagen, der letzte Verbraucher habe es falsch benutzt
  Denn nur der letzte Verbraucher ist sichtbar, während sich alle anderen hinter sieben Proxy-Schichten verstecken

Das Simulakrum (Trugbild) der Wissensarbeit

Rolle und Grenzen von Proxy-Maßen

Wie LLMs Proxy-Maße entwertet haben

Dasselbe Problem steckt auch in LLMs selbst

Warnung zur aktuellen Lage

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare