Wie LLMs unsere Schriftsprache verzerren

(sites.google.com)

1 Punkte von GN⁺ 2 시간 전 | 1 Kommentare | Auf WhatsApp teilen

LLMs steigern die Effizienz bei der Schreibassistenz, aber wenn sie menschliche Texte überarbeiten, verändern sie Schlussfolgerungen, Positionen und Argumentationstypen und erzeugen Bedeutungsverschiebungen, die anders verlaufen als bei menschlicher Redaktion
In einer Nutzerstudie gaben Personen, die LLMs häufig nutzten, an, mit dem Ergebnis zufrieden zu sein, zugleich aber, dass ihre Stimme und Kreativität statistisch signifikant abgenommen hätten – ein Paradox der Präferenz
Als 86 von Menschen geschriebene Essays aus ArgRewrite-v2 mit drei LLMs (gpt-5-mini, gemini-2.5-flash, claude-haiku) überarbeitet wurden, veränderten sich Wortwahl und Bedeutung selbst bei Anweisungen zu minimalen Änderungen oder reiner Grammatikkorrektur stark
Von LLMs verfasste oder überarbeitete Texte verschieben sich zu einem formelleren, unpersönlicheren Stil; Nomen, Adjektive sowie emotionale, logische und statistische Sprache nehmen zu, während Pronomen und auf persönlicher Erfahrung basierende Argumentation abnehmen
In einer Analyse von 18.000 Peer-Review-Reviews der ICLR 2026 wurden 21 % der Reviews als KI-generiert eingestuft; sie vergaben 10 % höhere Bewertungen als menschliche Reviews und fokussierten stärker auf Reproduzierbarkeit und Skalierbarkeit

Überblick über die Studie

LLMs werden von weltweit mehr als 1 Milliarde Menschen genutzt, und ihr häufigster Einsatzzweck ist Schreibassistenz
LLMs können große Effizienzgewinne bringen, doch es stellt sich die Frage, ob sie tatsächlich die Texte schreiben, die Nutzer wollen
Viele Nutzer erkennen zwar das „Gefühl“ eines LLM-Stils, nehmen aber kaum wahr, wie stark LLMs die Bedeutung eines Textes verzerren können
Analysiert wurden drei Arten von Material
- menschliche Nutzerstudien
- ein Datensatz mit von Menschen geschriebenen argumentativen Essays
- Reviews einer führenden Machine-Learning-Konferenz
Das Forschungsmaterial wird als Paper und Code bereitgestellt

Zentrale Ergebnisse

LLMs verändern die Schlussfolgerungen von Texten und damit auch Position und Argumentationstyp
Nutzer gaben an, mit den Ergebnissen zufrieden zu sein, berichteten aber zugleich von statistisch signifikanten Einbußen bei ihrer Stimme und Kreativität – ein Paradox der Präferenz
Selbst wenn LLMs nur zu einfacher Grammatikkorrektur angewiesen werden, verursachen sie größere Bedeutungsverschiebungen als menschliche Redaktion
Auch in den Reviews der International Conference of Learning Representations (ICLR) 2026 zeigte sich der Einfluss
- 21 % der Peer-Review-Reviews wurden als KI-generiert eingestuft
- Diese Reviews fokussierten bei den Gründen für Annahme oder Ablehnung eines Papers auf wissenschaftliche Kriterien, die sich signifikant von denen menschlicher Reviews unterschieden
Je stärker LLMs in die Gesellschaft integriert werden, desto eher können solche subtilen Bedeutungsverschiebungen Politik, Kultur, Wissenschaft und sogar die Kommunikation mit Freunden und Familie verändern
Untersucht wurde argumentative Schreibarbeit, doch die Ergebnisse könnten sich auch auf andere Formen des Schreibens und der Kommunikation verallgemeinern lassen

LLM-Redaktion verschiebt Texte in eine andere Richtung als menschliche Redaktion

Wenn LLMs menschliche Texte überarbeiten, entstehen stark homogenisierte Veränderungen, die sich deutlich davon unterscheiden, wie dieselben Essays nach menschlicher Bearbeitung aussehen würden
Die kontrafaktische Analyse vergleicht das Ergebnis einer LLM-Überarbeitung eines Textes mit dem Ergebnis einer menschlichen Überarbeitung desselben Textes
Bei menschlicher Redaktion
- wird der erste Entwurf als hellgrauer Punkt dargestellt
- wird der zweite Entwurf nach Expertenfeedback als dunkelgrauer Punkt dargestellt
- wird die Veränderung durch eine PCA-Projektion im semantischen Embedding-Raum von MiniLM-L6 visualisiert
Bei LLM-Redaktion
- erhielten die ursprünglich von Menschen geschriebenen Essays Expertenfeedback und verschiedene Prompts
- selbst bei der Anweisung zu minimalen Änderungen entstanden große Veränderungen in allen Essays
- die Richtung der Veränderung entfernte sich konsistent von menschlichen Schreibweisen
Beispiele aus dem Datensatz ArgRewrite-v2 zeigen, wie Schreiben mit LLMs die Schlussfolgerung eines Essays verändert und die menschliche Stimme entfernt

Methodik und Datensätze

Menschliche Nutzerstudie
- Um die Auswirkungen der LLM-Nutzung auf den Schreibprozess zu erfassen, wurde eine Nutzerstudie durchgeführt
- 55 Personen konnten LLMs nutzen, 45 Personen hatten keinen Zugang zu LLMs
- Da viele Teilnehmende während der Sitzung freiwillig auf LLMs verzichteten, wurden die Ergebnisse nach der tatsächlichen Nutzungsentscheidung konditioniert
- Es wurden zwei Gruppen gebildet
  - LLM-Influenced: Personen, die kein LLM nutzten oder es nur zur Informationssuche einsetzten
  - LLM: Personen, die LLMs umfassend nutzten
- Die Gruppeneinteilung erfolgte vorab vor Bewertung und Analyse
- Zur Einteilung wurden Gesprächsprotokolle, die finalen Essays und selbstberichtete Nutzungswerte verwendet
ArgRewrite-v2
- Verwendet wurden 86 von Menschen geschriebene Essays, die 2021 erhoben wurden
- Diese Texte entstanden, bevor LLMs breit öffentlich verfügbar waren
- Drei produktive LLMs wurden per Prompt angewiesen, die Essays zu überarbeiten
  - gpt-5-mini
  - gemini-2.5-flash
  - claude-haiku
- Fünf Arten von Überarbeitungen wurden angewendet
  - allgemeine Überarbeitung
  - minimale Überarbeitung
  - Grammatiküberarbeitung
  - Vervollständigung
  - Erweiterung
- LLM-generierte Entwürfe und menschlich überarbeitete Fassungen wurden in mehreren Dimensionen verglichen
  - Bedeutung
  - Wortschatzgebrauch
  - Verteilung der Wortarten
  - emotionaler Ton
  - stilistische Merkmale
Analyse der ICLR-2026-Reviews
- Analysiert wurden 18.000 Peer-Review-Reviews der ICLR 2026
- Ausgewählt wurden Papers mit jeweils einem vollständig von Menschen verfassten und einem vollständig von LLMs generierten Review
- Ein LLM-as-a-Judge-Klassifikator wurde verwendet, um die in jedem Review genannten Stärken und Schwächen zu identifizieren
- Die von Menschen und LLMs vergebenen Bewertungen wurden verglichen

Das Paradox von Nutzerzufriedenheit und Verlust der eigenen Stimme

Nutzer, die LLMs intensiv einsetzten, gaben an, dass ihre Essays nicht ihre eigene Stimme widerspiegelten
Gleichzeitig äußerten sie Zufriedenheit mit dem Ergebnis – ein Paradox der Präferenz
Nutzer brachten Zufriedenheit zum Ausdruck, berichteten aber zugleich von signifikanten Einbußen bei Kreativität und Stimme
RLHF optimiert Präferenzen, reicht aber nicht aus, um Kreativität und Bedeutung zu bewahren

Eine gemeinsame Verschiebungsrichtung im Bedeutungsraum

Die von Menschen geschriebenen Essays der Kontrollgruppe sind breit über den Embedding-Raum verteilt
Diese Verteilung spiegelt die Vielfalt individueller Perspektiven, Schreibstile und Argumentationsweisen wider
Von LLMs geschriebene Essays ballen sich dicht in Bereichen, die von menschlich geschriebenen Essays nicht besetzt werden
LLM-Überarbeitungen erzeugen große Bedeutungsverschiebungen, und auch ihre Richtung ist stark gemeinsam
LLM-überarbeitete Fassungen verschieben sich in Regionen des Raums, die zuvor von keinem menschlich geschriebenen Essay besetzt waren
Das gilt als Beleg dafür, dass LLMs Bedeutung anders verschieben als menschliche Editoren

Veränderungen bei Schlussfolgerung und Position

LLM-Nutzer schrieben zur Frage „Führt Geld zu Glück?“ neutralere Essays
Diese Essays neigten dazu, eine klare Position zu vermeiden
Das zeigt sich als grundlegende Veränderung der Position der Argumentation selbst

Veränderungen bei Wortschatz und Grammatik

LLM-Redaktion verändert die verwendeten Wörter weitaus stärker als menschliche Redaktion
Der individuelle lexikalische Fingerabdruck jedes Autors wird von dem von LLMs bevorzugten Wortschatz überschrieben
LLMs wählen einen formelleren Stil
Auch in der Verteilung der Wortarten zeigen sich Veränderungen
- der Gebrauch von Nomen und Adjektiven nimmt zu
- der Gebrauch von Pronomen nimmt ab
Der Rückgang von Pronomen wird als Signal dafür interpretiert, dass Ich-Form und erfahrungsbasierte Argumentation abnehmen und unpersönlichere Sprache zunimmt

Mehr emotionale, analytische, logische und statistische Sprache

Schreiben mit LLMs erhöht den Anteil emotionaler Sprache
Im Vergleich zwischen menschlicher und LLM-Redaktion zeigt sich sowohl bei positiver als auch bei negativer Emotion ein deutlicher Anstieg
Dieser Anstieg tritt selbst dann auf, wenn nur minimale Änderungen und Expertenfeedback vorgegeben wurden
In der LIWC-Analyse zeigen die LLM-überarbeiteten Fassungen von ArgRewrite-v2 mehr Sprache, die auf formellere, logischere und hierarchischere Denkmuster hinweist
In der Nutzerstudie verwendeten Menschen häufiger Argumentation, die mit persönlicher Erfahrung verbunden ist
Von LLMs geschriebene Essays verwenden häufiger statistische und logische Argumentation
Von LLMs beeinflusste Essays zitieren zudem Expertenmeinungen, was in menschlich geschriebenen Essays selten ist

Verzerrte Bewertungskriterien in wissenschaftlichen Institutionen

Wenn LLMs im wissenschaftlichen Review-Prozess eingesetzt werden, vergeben sie 10 % höhere Bewertungen als Menschen
Menschliche und LLM-Reviews unterscheiden sich darin, welche Kriterien sie als Stärken und Schwächen betrachten
Menschliche Reviews behandeln die folgenden Punkte häufiger
- mit 32 % höherer Wahrscheinlichkeit Klarheit als Stärke
- mit 58 % höherer Wahrscheinlichkeit Klarheit als Schwäche
- mit 32 % höherer Wahrscheinlichkeit die Relevanz der Forschung
LLM-Reviews behandeln die folgenden Punkte häufiger
- mit 136 % höherer Wahrscheinlichkeit Reproduzierbarkeit
- mit 84 % höherer Wahrscheinlichkeit Skalierbarkeit
Die Unterschiede in den Bewertungskriterien zwischen Menschen und LLMs können beeinflussen, welche wissenschaftlichen Arbeiten als gültig anerkannt und gefördert werden

Fazit

Die Ergebnisse zeigen ein problematisches Muster, bei dem KI Sprache und kulturelle Institutionen subtil verzerrt
KI-generierte Inhalte sind bereits in viele Bereiche eingedrungen
- Parlamentsreden
- Songtexte
- Filmdrehbücher
- gesprochene Sprache
- Nachrichten an Kollegen und geliebte Menschen
Menschen, die stark auf KI angewiesen sind, erkennen zwar, dass KI ihre Stimme und Kreativität verringert, sind mit den Ergebnissen aber dennoch genauso zufrieden
Die leichte Nutzbarkeit und die Möglichkeit, die eigene Karriere voranzubringen, dürften Menschen weiterhin dazu verleiten, KI-generierte Texte zu produzieren
Wie die ICLR-Daten zeigen, dürfte auch im professionellen Kontext der Anreiz bestehen bleiben, KI-generierte Texte als eigene Texte einzureichen

1 Kommentare

GN⁺ 2 시간 전

Lobste.rs-Kommentare

Das ist wirklich verstörend auf eine fast unangenehme Weise. Besonders das Beispiel, in dem ein LLM die Argumentation zu autonomen Fahrzeugen verändert hat, ist ziemlich schockierend
Dass ein LLM eine neutrale Haltung einnimmt, überrascht mich überhaupt nicht. Ich verstehe das Kernziel gängiger LLM-Produkte im Grunde so, dass sie „bekannte“ Wahrheiten wiedergeben und dem Nutzer helfen sollen, darüber hinaus aber eine vage mittlere Position einnehmen
Ich kann absolut nicht nachvollziehen, warum Menschen für das Schreiben oder Redigieren wertvoller Texte zu LLMs greifen
- Selbst bei einer wohlwollenden Interpretation, bei der jemand den Entwurf komplett selbst schreibt und das LLM nur bittet, „nach Problemen zu schauen“, verstehe ich nicht, wie man bei der anschließenden Prüfung der Änderungen übersehen kann, dass das Ergebnis eine andere Bedeutung bekommen hat
  „Unangenehm“ trifft es genau
- Soweit ich weiß, scheint Musks Grok absichtlich voreingenommen gebaut worden zu sein oder gewesen zu sein
- Für Assistenten oder Korrektoratsredakteure ist das eine gute professionelle Praxis
  Ich verstehe nicht, warum es schlecht sein soll, LLMs in diese Richtung zu trainieren
Die Seite lädt in meiner Umgebung durchgängig nicht richtig. Es gibt ein Preprint
Das Häufigkeitsdiagramm ist geradezu atemberaubend und sieht ehrlich gesagt fast genau so aus, wie ich es erwartet hätte
Man kann es als Geschenk auffassen. Die Dinge auf der linken Seite sind jetzt starke Wörter, und die auf der rechten Seite werden zunehmend zu bedeutungslosen Wörtern
- Ich weiß nicht, welches Diagramm gemeint ist. Ich habe auf der Seite keins gesehen
Als ich versucht habe, Claude als Korrekturlektor zu verwenden, habe ich das oft gesehen. Ich musste den Prompt mehrfach überarbeiten, damit es sich nur auf Rechtschreibung, Grammatik und Zeichensetzung konzentriert
Die Tendenz, die Bedeutung zu verändern, dürfte damit zusammenhängen, wie Embeddings funktionieren
Die Handlungsmacht und Verantwortung der Nutzer fehlt in erstaunlich vielen Diskussionen über AI/LLMs
Wenn man davon ausgeht, dass der Nutzer erwachsen ist, dann ist die Verwendung eines LLM eine aktive Entscheidung. Man kann entscheiden, ob man die Ausgabe verwendet oder nicht und auf welche Weise
Wenn AI die Politik, Kultur, Wissenschaft oder sogar die Art, wie wir mit Freunden und Familie kommunizieren, „grundlegend verändert“, dann deshalb, weil Menschen sich dafür entschieden haben und AI ihnen diese Entscheidung erleichtert hat
Nur weil Nutzer vielleicht keine eigenen Meinungen oder Vorlieben hatten, verschwindet die Tatsache nicht, dass eine Entscheidung getroffen wurde

Wie LLMs unsere Schriftsprache verzerren

Überblick über die Studie

Zentrale Ergebnisse

LLM-Redaktion verschiebt Texte in eine andere Richtung als menschliche Redaktion

Methodik und Datensätze

Menschliche Nutzerstudie

ArgRewrite-v2

Analyse der ICLR-2026-Reviews

Das Paradox von Nutzerzufriedenheit und Verlust der eigenen Stimme

Eine gemeinsame Verschiebungsrichtung im Bedeutungsraum

Veränderungen bei Schlussfolgerung und Position

Veränderungen bei Wortschatz und Grammatik

Mehr emotionale, analytische, logische und statistische Sprache

Verzerrte Bewertungskriterien in wissenschaftlichen Institutionen

Fazit

Verwandte Beiträge

1 Kommentare

Lobste.rs-Kommentare