2 Punkte von GN⁺ 3 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Während LLMs die oberflächliche Qualität perfekt nachahmen, werden die Proxy-Maße, mit denen bisher die tatsächliche Qualität von Wissensarbeit beurteilt wurde, wirkungslos
  • Da sich die eigentliche Qualität von Wissensarbeit nur schwer direkt bewerten lässt, stützte man sich bislang auf Proxy-Maße wie die formale Vollständigkeit von Dokumenten – doch LLMs bestehen diese Prüfungen mühelos
  • Von KI verfasster Code und Berichte wirken auf den ersten Blick professionell, passieren aber oft, ohne dass ihre tatsächliche Korrektheit oder Nützlichkeit verifiziert wurde
  • Auch LLMs selbst werden nicht darauf trainiert, ob etwas „richtig“ ist, sondern ob es „plausibel wirkt“ – und tragen damit dasselbe Proxy-Problem in sich
  • Warnung: Systeme, in die Milliarden Dollar investiert wurden, werden nicht für echte Arbeit genutzt, sondern als Werkzeuge zur Ausführung des Trugbilds von Arbeit

Rolle und Grenzen von Proxy-Maßen

  • Wenn man einen Marktanalysebericht erhält, wird oft schon der gesamte Bericht verworfen, wenn oberflächliche Mängel wie Datumsfehler, Tippfehler oder doppelte Grafiken auftauchen
  • Eigentlich interessiert, ob der Bericht die Realität abbildet und zu guten Entscheidungen führt, doch das direkt zu prüfen ist teuer
  • Oberflächliche Qualität ist günstig zu überprüfen und korreliert hinreichend stark mit der tatsächlichen Qualität – deshalb funktionierte sie als Proxy-Maß
  • Dieses Problem betrifft jede Form von Wissensarbeit: Weil die objektive Beurteilung fremder Arbeit viel Aufwand erfordert, stützt sich das System stark auf Proxy-Maße

Wie LLMs Proxy-Maße entwertet haben

  • Proxy-Maße dienten bisher auch dazu, fehlgeleitete Anreize (misaligned incentives) einzudämmen – doch LLMs haben diesen Mechanismus aufgebrochen
  • LLMs sind hervorragend darin, Schreibstile zu simulieren, ohne die tatsächliche Qualität der Arbeit zu reproduzieren
  • Fordert man ChatGPT auf, einen Marktanalysebericht zu erstellen, sieht das Ergebnis so aus, als hätte ihn ein Experte einer Top-Consulting-Firma geschrieben
  • Wenn Softwareingenieure mithilfe von KI tausende Zeilen Code erzeugen, wirkt dieser bei einem kurzen Überfliegen wie hochwertiger Code
    • Auch Kollegen überlassen Code-Reviews der KI und arbeiten gefundene Probleme mechanisch ab, sodass nur das Ritual der Arbeit erhalten bleibt, nicht aber ihre tatsächliche Qualität

Dasselbe Problem steckt auch in LLMs selbst

  • Schon der Trainingsprozess von LLMs bewertet nicht, ob eine Antwort „wahr“ oder „nützlich“ ist
  • Maßstab im Training ist vielmehr, ob es sich um eine „Antwort handelt, die so in den Trainingsdaten vorkommen könnte“ oder um eine „Antwort, mit der ein RLHF-Bewerter zufrieden wäre
  • Dadurch werden LLMs darauf optimiert, Ausgaben zu erzeugen, die wie hochwertige Ergebnisse aussehen – und genau darin sind sie außergewöhnlich gut

Warnung zur aktuellen Lage

  • Systeme, in die Milliarden Dollar investiert wurden, werden genutzt, um das Simulakrum von Arbeit auszuführen
  • Unternehmen konkurrieren darum, auf dem Leaderboard des Token-Verbrauchs Platz 1 zu belegen
  • Je mehr LLM-Ausgaben Beschäftigte produzieren, desto weniger Zeit bleibt, diese gründlich zu prüfen
  • Am Ende bleibt nur noch, alles kurz zu überfliegen, „LGTM“ darunterzusetzen und die 17. Claude-Code-Session zu starten

1 Kommentare

 
GN⁺ 3 일 전
Hacker-News-Kommentare
  • Ich stimme weder der im Artikel vertretenen These vollständig zu, dass man die Qualität menschlicher Wissensarbeit leicht anhand von Stellvertretermerkmalen wie Tippfehlern oder kleinen Fehlern abschätzen konnte, noch der These, dass genau das bei AI fehle und deshalb das Problem entstehe
    Es gab schon immer viele menschliche Ergebnisse, die konzeptionell miserabel waren, aber in den Fakten korrekt und formal sauber wirkten
    Wenn man zehn Jahre mit Unternehmenskunden gearbeitet hat, kann man wirklich nicht behaupten, die Zeit vor den LLMs sei ein goldenes Zeitalter hochwertiger Wissensarbeit gewesen; auch damals gab es jede Menge Gerümpel, also funktionierende Simulakren von Wissensarbeit

    • Das größere Problem für mich ist, dass die menschliche Erklärbarkeit von Fehlern verschwindet
      Schlechte Ergebnisse von Menschen haben meist Ursachen wie Unwissen, Zeitdruck oder eigennützige Ziele, und diese Ursachen sind ziemlich konsistent
      Man kann Vertrauensmuster erkennen, etwa beim vorsichtigen, aber unerfahrenen Praktikanten oder beim Senior mit viel Wissen, der wegen Schlafmangels Offensichtliches übersieht
      Bei AI dagegen kommt es vor, dass sie in einem Durchlauf eine Paper-Implementierung perfekt hinbekommt und im selben Run Fehler auf Erstsemester-Niveau macht; dadurch entsteht die kontraintuitive Situation, dass man bei einer Maschine mit extremer scheinbarer Kompetenz ein Review so durchführen muss, als wäre vollständige Inkompetenz jederzeit möglich
    • Die Zeit vor den LLMs war zwar kein goldenes Qualitätszeitalter, aber LLMs haben tatsächlich noch ein weiteres Erkennungszeichen dafür beseitigt, wenn Arbeit aus hastig zusammengeschustertem Unsinn bestand
    • Eigentlich war das nie eine Positiverkennung, sondern ein Negativfilter
      Wenn es Tippfehler oder grundlegende Sachfehler gab, konnte man etwas leicht aussortieren; dass diese fehlen, bedeutet aber nicht, dass die Qualität hoch ist
      Normalerweise ist so eine Prüfung nur die erste Hürde und nicht alles; wenn etwas diese Hürde nimmt, kann man die eigentlichen Probleme leichter sehen
      Im Code ist das ähnlich, wenn man vor dem Reasoning erst einmal Linting und Stil in Ordnung bringt
    • Auffällige AI-typische Formulierungen kann man vielleicht erkennen, aber die übrigen 99 % des AI-generierten Texts ohne solche Marker übersieht man leicht
      Da man selbst aber gar nicht merkt, dass diese 99 % AI-generiert sind, bildet man sich leicht ein, man könne AI-Texte vollständig herausfiltern, nur weil man 100 % der Muster erkennt, die einem überhaupt auffallen
    • Ich halte das nicht für den zentral wichtigen Punkt
      Viel Wissensarbeit war schon immer ein Stellvertreter für etwas anderes
      Fehlerfreie, ordentlich formatierte Qualität war oft vor allem ein Signal des Respekts, wie ein gebügeltes weißes Hemd und eine Krawatte, und viele lange Dokumente wurden in Wirklichkeit von niemandem tief gelesen
      Am Ende war das eine symbolische Darstellung von Opferbereitschaft und Unterordnung, und LLMs beseitigen gerade dieses Signalsystem
      Wenn man die inhaltliche Qualität schon früher nicht wirklich geprüft hat, war der Inhalt offenbar von vornherein nicht besonders wichtig
  • In der Wissenschaft zeigt sich bereits das Problem der AI-Review-Kosten, allerdings etwas anders als im Artikel beschrieben
    Der Kern ist weniger, dass die Marker schlechter Arbeit verschwinden, sondern dass die Kosten für eine sorgfältige Prüfung von mit AI erstellter Arbeit für Menschen allein zu hoch werden
    In wirtschaftswissenschaftlichen Journals können Anhänge zum Beispiel mehrere hundert Seiten lang sein, während die menschlich lesbare Zeit begrenzt ist
    Ich frage mich, ob Journals in anderen Fachgebieten nicht nur durch mehr Neueinreichungen unter Druck geraten, sondern auch durch die Prüfintensität, die nötig ist, um einzelne Arbeiten zu verifizieren

    • Fairerweise braucht man in vielen Fachgebieten bereits ab dem Master-Niveau hohe Expertise, um überhaupt urteilen zu können
      Unterhalb dieses Niveaus ist oft kaum zu unterscheiden, was wirklich stimmt und was nur so aussieht, als würde es stimmen
  • Ich habe das Gefühl, mit AI Verständnis als cargo cult zu betreiben
    Man reproduziert die Oberfläche davon, etwas verstanden zu haben, und nimmt sich selbst die Zeit und Mühe, die echtes Verstehen erfordert

    • Das denke ich mir ständig bei einem Kollegen, mit dem ich arbeite: Er entwirft Nutzungsszenarien für AI fast nur als Fantasie eines persönlichen Jarvis
      Er glaubt, wenn man Claude mit Snowflake Cortex, integriertem Code, Dokumentation und Jira-Tickets füttert, könne man alles fragen und alles würde viel besser werden
      Diese Fixierung hat aber keine großen Ergebnisse hervorgebracht, und ein paarmal hat er die Unvollkommenheit der Technologie auch deutlich selbst erlebt
      Alle reden von agentic workflows und einer riesigen internen Wiki-Vision, während ich mit AI zwar die Liefergeschwindigkeit deutlich erhöhe, aber keine Zeit in groß angelegte Abenteuer stecke und deshalb weiter Ergebnisse liefere
      Es wirkt auch ironisch, dass Leute, die früher die Einführung von Chatbots im Unternehmen kritisierten, jetzt Token verbrennen, um mit Aberbillionen von .md-Dateien und Skill-Files ihren eigenen Chatbot zu bauen
      Meine eigentliche Sorge ist, dass tatsächliches institutionelles Wissen durch solche Abkürzungen verloren geht
      Einfache Beispielanfragen oder Fragen zum Erlernen von Konzepten sind okay, aber Prompts nach dem Muster, man solle gleich die aktuellen Tools und die Infrastruktur prüfen, die Deployment-Geschwindigkeit verfünffachen, Web-Recherche machen und dazu noch einen Organisationsvorschlag samt Fünfjahres-Kosten-Nutzen-Analyse liefern, schwächen Menschen selbst
      Inzwischen werfen viele einfach von Claude erzeugte Vorschläge in die Runde und überspringen den Prozess, selbst ein wenig tiefer zu graben oder gemeinsam mit einem Architekten oder Senior Engineer zu explorieren
      Das Ergebnis ist, dass vieles nur oberflächlich verstanden wird, man bei tieferem Nachfragen schlecht erklären kann und die von AI gelieferten Antworten wie eine endgültige Strategie behandelt, die man nicht mehr herausfordern will
      Auch die Gelegenheit, von erfahreneren Menschen zu lernen, wird nicht mehr als Lernerfahrung gesehen
      Am Ende glaube ich weiterhin, dass das menschliche Gehirn selbst eine der erstaunlichsten Technologien überhaupt ist, und frage mich, warum man diese riesige künstliche Bibliothek unbedingt außerhalb seiner selbst aufbauen will
    • Meiner Ansicht nach geht es hier weniger um einen cargo cult des Verstehens als um einen cargo cult aus Managersicht
      Wie Bret Devereaux in seiner Game-Of-Thrones-Kritik schreibt, wirkt ein Weltbild aus Eliteperspektive nur für Eliten plausibel und utopisch
      Solche von realer Arbeit entkoppelten Blasen werden am Ende groß platzen, und wenn die durch AI arbeitslos gewordenen Massen rufen, dass sie kein Brot haben, und man ihnen dann sagt, sie sollen doch Kuchen essen, dann kann man sich auch eine Reaktion im Stil der Französischen Revolution vorstellen
    • Umgekehrt kann AI Dinge für mich erledigen, auch wenn ich sie nicht verstehe
      Aber als Werkzeug, das einem hilft, etwas tief zu verstehen, gibt es paradoxerweise nur wenige Dinge, die so gut sind wie AI
  • Letztlich ist etwas zu verstehen fast dasselbe wie es selbst zu tun
    Es ist in Ordnung, etwas nicht zu verstehen, aber dann bleibt einem mit oder ohne Stellvertretermerkmale letztlich nur, auf das Verständnis anderer zu vertrauen
    Weniger selbst zu tun und dafür mehr zu vertrauen, funktioniert bis zu einem gewissen Punkt, aber darüber hinaus gerät die Zukunft der Arbeit in Gefahr
    simulacrum ist wirklich ein großartiges Wort

    • Das Konzept des Simulacrums kommt von Baudrillard, und sein Essay Simulation and Simulacra hilft ziemlich dabei zu verstehen, warum die moderne Wirtschaft so merkwürdig ist
  • Deshalb wirkten mittlere Manager wahrscheinlich wie die ersten Gläubigen des LLM-Maximalismus
    Für mittleres Management gibt es viele Anreize, Wissensarbeit immer weiter zu abstrahieren, statt echte Rollenerfahrung zu fördern, und genau diese abstrahierte Ebene lässt sich im embedding space offenbar besonders gut beschreiben

  • AI-Code wirkt oft schlechter, als er tatsächlich ist
    Er ist übermäßig langatmig, verwirrend und voll mit Fallbacks, sodass Probleme durch unzählige try/catch-Blöcke sickern und Stacktraces an völlig falsche Stellen schicken
    Rein funktional betrachtet lief solcher Code aber oft besser als ähnlich aussehender, von Menschen geschriebener Code

    • Trotzdem ist so beschriebener Code weiterhin schlechter Code
      Denn sowohl für Menschen als auch für LLMs ist er schwer zu durchdringen
  • Ich wünschte, es gäbe mehr von diesem Blogpost-Stil
    Die Länge ist angemessen, die Botschaft kommt gut rüber, und es hat erzählerische Qualität
    Gerade weil es heute so viel LLM-erzeugten AI-Slop in Romanlänge gibt, fühlt sich so etwas umso erfrischender an

  • Für viele Leute in der Branche wirkt das wie eine ziemlich offensichtliche Entwicklung
    Das Problem ist nur, dass so viel Geld daran hängt, dass die großen Akteure weiter auf das drängen, was sie wollen

  • Das lässt mich mir vorstellen, dass subatomare Teilchen in Wahrheit eigene Universen sind und ihre Eigenschaften die Spuren der Wesen widerspiegeln, die diese Universen beherrschten, sowie der Automatisierung, die nach ihrem Verschwinden weiterlief
    So etwas wie automatische Maschinen, die Entropie ernten und sich immer weiter selbst vervielfältigen
    Wir erschaffen gerade Kräfte, die größer sind als wir, und könnten irgendwann einen Punkt ohne Wiederkehr erreichen

    • Ich habe das nicht vollständig durchdacht, aber die Vorstellung ist faszinierend
      Man beginnt sich zahllose subatomare Universen und Zivilisationen vorzustellen, die aufsteigen und vergehen und vielleicht von autonomen quasi-intelligenten Technologien verschlungen werden, während sich das auf makroskopischer Ebene als Teilchenverhalten zeigt
      Auch wir erzeugen am Ende nur ein Teilchen, und unsere kollektiven Entscheidungen könnten einen winzigen, aber bedeutenden Einfluss auf das höhere Universum haben, in dem wir uns befinden
  • Der Output von jemandem wird immer zum Input von jemand anderem
    Wenn man mit LLMs die Menge erhöht, parst die nächste Person das wieder mit LLMs und erzeugt daraus ihren eigenen Output
    So setzt sich das fort, und wenn der Endverbraucher schließlich Beschwerde einlegt, kann am Ende niemand mehr genau benennen, wo es eigentlich schiefgelaufen ist

    • Natürlich wird man dann sagen, der letzte Verbraucher habe es falsch benutzt
      Denn nur der letzte Verbraucher ist sichtbar, während sich alle anderen hinter sieben Proxy-Schichten verstecken