3 Punkte von GN⁺ 22 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Die von LLMs gern verwendete "It's not X, it's Y"-Struktur des negativen Kontrasts ist ursprünglich ein nützliches rhetorisches Mittel, um einen Gegensatz zu setzen und bestehende Annahmen neu zu ordnen
  • Durch den jüngsten exzessiven Gebrauch in Modellen wurde diese Struktur als schlechtes Schreiben abgestempelt, doch der Wert eines rhetorischen Mittels hängt vom Inhalt ab, den es trägt
  • AI-Detektoren und Tools wie Grammarly spüren solche Muster auf und erzeugen damit das Paradox, dass Menschen wieder wie Menschen schreiben müssen, damit Maschinen menschlich klingen
  • Als Grund für die Verbreitung dieser Struktur wird RLVR (Reinforcement Learning with Verifiable Rewards) genannt, verbunden mit der Art, wie Sprache verstärkt wird, die Modelle beim Erreichen richtiger Antworten verwenden
  • Wenn Sprachmuster selbst zum Bewertungsgegenstand werden, gilt wie bei Goodharts Gesetz: Sprache hört auf, gute Sprache zu sein; statt sich auf maschinelle Urteile zu verlassen, braucht es kritisches Denken

Die Struktur des negativen Kontrasts und die Gegenreaktion darauf

  • Die von LLMs bevorzugte Struktur des negative parallelism (negativen Kontrasts) dient dazu, einen Gegensatz aufzubauen, und ist besonders nützlich, wenn Annahmen neu geordnet werden sollen, etwa nach dem Muster: „Du denkst, es ist so, tatsächlich ist es aber anders“
  • Diese Struktur ist in sozialen Medien, besonders auf LinkedIn, allgegenwärtig und hat inmitten eines Kriegs gegen die automatische Sprachproduktion Gegenreaktionen ausgelöst
    • die Verwendung von Em-Dashes, Wörter wie delve, quietly oder genuinely sowie Aufzählungen mit drei Punkten gelten schnell als verdächtige Bot-Signale
  • Wegen des übermäßigen Gebrauchs durch aktuelle Modelle stufen viele sie inzwischen als schlechtes Schreiben ein; doch auch JFKs Satz „Fragt nicht, was euer Land für euch tun kann – fragt, was ihr für euer Land tun könnt“ nutzt dasselbe Mittel, und niemand nennt ihn deshalb faules Schreiben
    • Ein rhetorisches Mittel ist je nach Inhalt entweder träge oder inspirierend

Das Paradox automatischer Sprachproduktion und von Erkennungstools

  • AI-Detektoren behaupten, solche Muster zu finden, um vor Hexenjagden zu schützen; gibt man den eigenen Text jedoch in Grammarly ein, analysiert das Tool Wortmuster, die AI-Detektoren markieren würden, und schlägt Änderungen vor
    • Damit überträgt man Grammarly faktisch die Erlaubnis, anstelle von einem zu schreiben, und verliert Rhythmus und Absicht des Textes
  • Grammarly markierte in einem Abschnitt 27 Ausdrücke als korrekturbedürftig
    • „automated language production“ wurde als Formulierung markiert, die die Wahrscheinlichkeit für AI um das 11-Fache erhöht, und durch „against mechanized language synthesis“ zu ersetzen vorgeschlagen
    • „align with“ wurde als Ausdruck markiert, der die Wahrscheinlichkeit für AI-Generierung um das 43-Fache erhöht; stattdessen hieß es, Menschen würden „corresponds“ schreiben
    • Kleine Vorschläge summieren sich, bis das Ergebnis ein Text ist, den man selbst nicht gewählt hat: eine Maschine, die menschlich klingen will, ersetzt die menschliche Stimme
  • Einem anderen AI-Erkennungsanbieter, Pangram, wurden 20 US-Dollar gezahlt, um vor der Einreichung eines Aufsatzes zu bestätigen, dass er nicht AI-generiert sei
    • Bezahlt wurde nicht, um zu erfahren, ob man ihn selbst geschrieben hatte, sondern um die Mitteilung zu erhalten, dass man nicht markiert werde; das wird faktisch als Erpressung (extortion) bezeichnet
    • Pangram kategorisiert Authentizität mit vier Stufen: high, very likely, somewhat likely und human

Eine dem Denken feindliche Kultur und Post-Training

  • Der Instinkt, Maschinen verstehen zu wollen, richtet den Blick auf die Trainingsdaten; doch diese Daten sind nicht mehr einfach „das Web“, das Web ist nur noch Rohmaterial und wird stark weiterverarbeitet
  • Post-Training optimiert Modelle auf ihren vorgesehenen Zweck
    • RLHF (Reinforcement Learning from Human Feedback): Menschen ordnen Antworten nach Qualität, und das System verstärkt die höher bewerteten
    • RLVR (Reinforcement Learning with Verifiable Rewards): noch merkwürdiger, und verdächtigt, ein Grund dafür zu sein, dass die „It's not X, it's Y“-Struktur so häufig auftaucht
  • Wer diese Sprache einfach als faul abtut, versperrt sich das Verständnis dafür, warum sie überall auftaucht, und verwechselt ein mächtiges Gerüst fürs Denken mit der Denkfähigkeit des Modells
    • Damit wird einer Berechnung zugeschrieben, was in Wahrheit die Sprache geleistet hat

Wie RLVR funktioniert

  • RLVR ist keine Struktur, die Wörter überwacht und dadurch Unterprozesse auslöst; wie gewöhnliche Modelle sagt es Tokens voraus
    • Diese Token-Vorhersage erstellt auf Grundlage der mathematischen Verteilung der Trainingsdaten eine Kandidatenliste und ordnet sie nach Wahrscheinlichkeit im Licht der vorangegangenen Wörter
  • Bei RLVR schreibt das Modell den Weg zur Lösung eines Mathematikproblems aus und reproduziert damit die Sprache, die wir verwenden, wenn wir laut denken
    • Wenn es zur richtigen Antwort gelangt, wird in dem Prozess die am häufigsten verwendete Sprache im fertigen Modell verstärkt; das ist ein Teil dessen, was die Branche reasoning nennt
  • Die Analogie mit dem „seltsamen Hund“

    • Geschildert wird eine Situation, in der das Handy aus ist und ein Freund fragt: „An welchem Wochentag haben wir noch mal diesen seltsamen Hund gesehen?“
      • „Das war Donnerstag.“ → Freund: „Nein, am Donnerstag war ich auf Dienstreise.“ → „Dann Mittwoch, wir haben ihn doch auf dem Weg zur Geburtstagsparty deines Freundes gesehen.“ → Freund: „Stimmt, aber die Party war am Freitag, also haben wir ihn am Freitag gesehen.“
    • Die beiden gelangen durch Sprache zu einer richtigen Antwort, die sich mit einem Foto verifizieren lässt; die erste Eingebung („Donnerstag“) entspricht der ersten Vermutung, bei der Modelle früher stehen blieben
    • Anders als zwei Menschen mit echten Erinnerungen und Erfahrungen erweitert ein Modell die Sprache immer weiter und kopiert das Muster des Schlussfolgerns; es denkt nicht durch Sprache nach, sondern reproduziert Nachdenken innerhalb von Sprache
  • High-Entropy-Wörter wie „suppose…“, „because“, „consider“, „alternatively“ oder „wait“ lösen längere spekulative Passagen aus
    • Sie führen zu Sprache, die Kontrast, Ausnahmen und Abstraktion heranzieht, und werden dann verstärkt, wenn damit häufiger die richtige Antwort in Mathematikaufgaben erreicht wird

Warum wir schlussfolgern

  • Der Punkt eines Gesprächs wie beim „seltsamen Hund“ ist nicht bloß das Ermitteln eines Kalenderdatums, sondern das Öffnen der Erinnerung: Erinnerungen werden rekonstruiert, Kontext wird ausgekostet und die Verbindung zwischen Freunden vertieft
  • Die in LLMs verwendete Definition von reasoning setzt voraus, dass der Zweck einer Frage darin besteht, eine Antwort zu bekommen, dass diese Antwort verifizierbar ist und dass bei sofortigem Abschluss nichts verloren geht
    • Das beeinflusst reales Schreiben: Wer Denken mit Sprachmodellen schnell prototypisiert, verliert Offenheit gegenüber Zweifel
    • Ambiguität, Zweifel und Unsicherheit sind in manchen Denkweisen wichtiger als eine sofortige Antwort
  • Es stellt sich die Frage, ob AI-Detektoren Text als AI-generiert markieren, weil er strukturellen Mustern des Schlussfolgerns folgt; sowohl Pangram als auch Reasoning-Modelle erkennen strukturelle Muster, mit denen Menschen beim Schreiben schlussfolgern
    • Das Pangram-Modell wurde mit Daten von vor 2021 trainiert und bekam anschließend AI-generierte Versionen desselben Texts in das Training eingespeist
  • Wenn Menschen öffentlich beschämt werden, weil sie maschinenhaft wirken, vermeiden sie aus Angst die Strukturen, die sie als „AI-Schreiben“ verinnerlicht haben; damit wird signalisiert, dass die Sprache des Schlussfolgerns überwacht werden müsse
    • Am Ende weichen wir gerade den Strukturen aus, die Modelle von uns gelernt haben – also Werkzeugen, die für Argumentation wirksam sind –, und legen das Instrument kritischen Denkens dann weg, wenn wir es am dringendsten brauchen

Wenn Messung zum Ziel wird

  • In Großbritannien wurden AI-basierte Essay-Bewertungstools im Vergleich mit menschlichen Korrektoren getestet
    • Das System vergab hohe Bewertungen auf Basis von Textlänge, Wortschatzbreite und Satzkomplexität, also oft nach Kriterien ohne Bezug zu akademischen Standards
    • Diese Merkmale ähneln AI-Reasoning auf RLVR-Basis: LLMs bewerten Menschen danach, wie Ingenieure LLMs bewerten
  • Goodharts Gesetz aus der Ökonomie: „Eine beobachtete statistische Regelmäßigkeit neigt dazu zusammenzubrechen, sobald sie zu Steuerungszwecken unter Druck gesetzt wird“ – wenn Messung zum Ziel wird, ist sie keine gute Messung mehr
    • Auf LLMs übertragen heißt das: „Wenn die Messung von Sprache zum Ziel wird, hört sie auf, gute Sprache zu sein“
  • Gefährlich wird es, Sprachmuster statt Inhalte zu bewerten; sowohl Generierung als auch Erkennung fördern das, und automatische Benotung liegt dazwischen
    • Wenn nicht die Handlung des Schlussfolgerns, sondern seine Form belohnt wird, wird diese Form verführerischer und häufiger; wird die Form bestraft, besteht die Gefahr, dass das Schlussfolgern selbst bestraft wird – deshalb sollte man die Beurteilung nicht Maschinen überlassen, sondern in jedem Fall kritisch denken

Gegen automatisiertes Denken

  • Der alten Logik „Wer nichts falsch gemacht hat, hat auch nichts zu befürchten“ wird nicht zugestimmt
    • Seit 2018 wird für automatische Überwachungssysteme häufig eine Genauigkeit von 99,8 % zitiert; laut Arvind Narayanan summiert sich das jedoch jedes Mal, wenn diese Zahl auf Ebene einzelner Arbeiten angewendet wird
    • Im Ergebnis könnten bis zu 10 % der Studierenden fälschlich beschuldigt werden; wenn alle Texte durch AI-Prüfungen laufen, treten Falsch-Positive in weit größerem Umfang auf
  • Diese Modelle bündeln faktische Macht, und Unternehmen versprechen, an unserer Stelle zu schlussfolgern
    • Wenn man eine zweizeilige Formulierung durch einen AI-Interpreter jagt, das Ergebnis online stellt und sagt „Siehst du, ein Plagiator“, wird etwas Gefährliches normalisiert
  • Eine Kultur des Umschreibens und der Selbstzensur unter dem Druck von AI-Erkennung ist das genaue Gegenteil vom Schutz menschlichen Ausdrucks; normalisiert wird damit Vertrauen in die Fähigkeit von Maschinen, Schuld zuzuweisen
    • Wenn das Schreiben mit AI im schlimmsten Fall eine Industrialisierung des Geistes ist, dann ist AI-Erkennung im schlimmsten Fall ein Überwachungssystem für Denken

1 Kommentare

 
Lobste.rs-Kommentare
  • Wenn ein automatisches System eine Arbeit allein deshalb automatisch aussortiert, weil es den Text als KI-ähnlich bewertet hat, wäre das ein Albtraum, und ich bin froh, dass es in meinem Job dieses Problem nicht gibt
    Mir gefiel der Punkt, dass die Sprache des Schlussfolgerns LLM-Ausgaben nicht nur flüssig und überzeugend erscheinen lässt, sondern sie überhaupt erst funktionsfähig macht oder zumindest besser funktionieren lässt. Solche Techniken funktionieren auch bei Menschen gut, weshalb Methoden wie die 5-Whys-Analyse wirksam sind
    Andererseits sollte man faule, minderwertige Texte weiterhin erkennen. Das ist auch möglich, ohne sich nur auf Struktur oder stilistische Mittel zu konzentrieren. Bei mir ist es meist so, dass ich einen Text zunächst wohlwollend zu lesen beginne, und wenn ich nach ein paar Absätzen den Kernpunkt des Autors noch immer schwer fassen kann, fange ich an, nach typischen Signalen zu suchen, und finde sie ziemlich oft

  • Interessanter Artikel, aber ich würde in der Praxis zwischen Text zum Schlussfolgern darüber, wie man etwas denkt, und dem fertigen Text unterscheiden, den man nach Abschluss dieses Schlussfolgerns zur Vermittlung schreibt
    Im Beispiel kann man im Denkprozess sagen: „Es war Mittwoch, nicht Donnerstag“, aber wenn man jemandem eine Nachricht schickt, schreibt man am Ende einfach „Es war Donnerstag“
    Deshalb werden tatsächliche Arbeitsergebnisse in Wissenschaft oder Beruf, also Berichte oder E-Mails, nicht die Sprache verwenden, die man beim Nachdenken über ein Thema benutzt, und wenn sie ordentlich geschrieben sind, sollten sie nicht wie von einem LLM wirken. Entwürfe oder private Notizen vielleicht, Endfassungen jedoch nicht

    • Aber was ist, wenn das formale Arbeitsergebnis selbst der Schlussfolgerungsprozess ist? Ich habe mehrfach Dokumente geschrieben, bei denen der Schlussfolgerungsprozess ein wesentlicher Teil oder sogar der gesamte Kern des Textes war
  • Ich kritisiere generative KI zwar deutlich, halte sie aber beim wissenschaftlichen Schreiben durchaus für nützlich, wenn Forschende, deren Muttersprache nicht Englisch ist, ihre Texte glätten wollen
    Allerdings braucht man dafür einen nahezu fertigen, gut strukturierten Entwurf; wenn man nur einfache Stichpunkte eingibt, kommen Halluzinationen oder steife, unnatürliche Formulierungen heraus
    Da ich in den letzten Jahren viele minderwertige Arbeiten aus Ländern wie China oder Indien begutachtet habe, merke ich auch, dass ich eine gewisse Voreingenommenheit gegenüber den unidiomatischen englischen Wendungen entwickelt habe, die Autorinnen und Autoren aus diesen Ländern häufig verwenden. Das Bedauerliche ist, dass einige der besten Arbeiten, die ich je begutachtet habe, ebenfalls aus diesen Ländern kamen
    In diesem Sinne ist Englisch zwar zur Standardsprache der Wissenschaft geworden, aber LLMs könnten auch helfen, ein hohes sprachliches Niveau zu standardisieren und Voreingenommenheit im Begutachtungsprozess zu verringern

    • Ich kann die Argumentation überhaupt nicht akzeptieren, dass Nicht-Muttersprachler des Englischen LLMs zum Glätten ihrer Texte verwenden dürfen. Wissenschaftliche Arbeiten müssen präzise sein und die Absicht der Autorin oder des Autors exakt wiedergeben
      Institutionen mit vielen Mitarbeitenden, deren Muttersprache nicht Englisch ist, haben in der Regel Schreibberater, die nicht nur gute Formulierungen erstellen, sondern vor allem prüfen, ob das Geschriebene der Absicht der Verfassenden entspricht. Wenn man das einem LLM überlässt, verschiebt sich die Bedeutung oft subtil, und aufgrund sachlicher Fehler oder ungenauer Behauptungen kann das am Ende sogar zu schlechteren Ergebnissen für die Autorin oder den Autor führen
      Institutionen, die keine Sprachberatung anbieten, schaffen damit ein nachteiliges Umfeld für ihre Mitarbeitenden, und unabhängige Forschende sind aus anderen Gründen oft ohnehin schon benachteiligt
      Eine unbewusste Voreingenommenheit gegenüber nicht-muttersprachlichen Ausdrucksweisen lässt sich bis zu einem gewissen Grad kaum vermeiden, aber bei der Begutachtung von Arbeiten habe ich bei klar erkennbaren Sprachproblemen stets einen erheblichen Vertrauensvorschuss gewährt und Stellen, die ich wegen sprachlicher Probleme als unklar ansah, als Überarbeitungsanweisung markiert. Das ist etwas, das man selbst prüfen und kontrollieren muss
      Ungeschickter Sprachgebrauch kann Ideen, Methodik und Ergebnisse zwar in gewissem Maße verschleiern, aber LLMs können das, wie ich es in tatsächlich von mir begutachteten Arbeiten erlebt habe, in sachlich falsche Inhalte verwandeln, sodass am Ende Erwiderungen und Korrekturen nötig werden oder die Arbeit sogar direkt abgelehnt wird. Da es bessere Wege gibt, mit diesem Problem umzugehen, sollte man die Nutzung von LLMs nicht empfehlen
      Außerdem ist noch offen, ob das Plagiat ist oder nicht. Das ist eine viel größere Debatte, und oft herrscht nicht einmal über die grundlegenden Tatsachen Einigkeit. Einige Konferenzen oder Fachzeitschriften verbieten LLM-Unterstützung aus genau diesem Grund, und diese Regeln sollte man ebenfalls respektieren
    • Das größere Problem ist inzwischen, dass Menschen wegen der Hysterie darum, ob ein Text von einem LLM geschrieben wurde oder nicht, faktisch dazu gedrängt werden, natürlichen Stil zu vermeiden
      Ironischerweise haben Unternehmen keine Zeit verschwendet, diese Hysterie zu monetarisieren: Sie verdienen Geld damit, mithilfe von LLMs zu beurteilen, ob ein Text wirklich von einem Menschen geschrieben wurde, und schwingen sich so zu Schiedsrichtern darüber auf, was als akzeptables Schreiben gilt
      Der Autor hat recht mit dem Hinweis, dass dieses ganze Problem verschwinden würde, wenn die Leute nicht faul nur auf den Stil schauen, sondern sich wieder ernsthaft mit dem Inhalt auseinandersetzen würden