Wie LLMs unsere Schriftsprache verzerren
(sites.google.com)- LLMs steigern die Effizienz bei der Schreibassistenz, aber wenn sie menschliche Texte überarbeiten, verändern sie Schlussfolgerungen, Positionen und Argumentationstypen und erzeugen Bedeutungsverschiebungen, die anders verlaufen als bei menschlicher Redaktion
- In einer Nutzerstudie gaben Personen, die LLMs häufig nutzten, an, mit dem Ergebnis zufrieden zu sein, zugleich aber, dass ihre Stimme und Kreativität statistisch signifikant abgenommen hätten – ein Paradox der Präferenz
- Als 86 von Menschen geschriebene Essays aus ArgRewrite-v2 mit drei LLMs (gpt-5-mini, gemini-2.5-flash, claude-haiku) überarbeitet wurden, veränderten sich Wortwahl und Bedeutung selbst bei Anweisungen zu minimalen Änderungen oder reiner Grammatikkorrektur stark
- Von LLMs verfasste oder überarbeitete Texte verschieben sich zu einem formelleren, unpersönlicheren Stil; Nomen, Adjektive sowie emotionale, logische und statistische Sprache nehmen zu, während Pronomen und auf persönlicher Erfahrung basierende Argumentation abnehmen
- In einer Analyse von 18.000 Peer-Review-Reviews der ICLR 2026 wurden 21 % der Reviews als KI-generiert eingestuft; sie vergaben 10 % höhere Bewertungen als menschliche Reviews und fokussierten stärker auf Reproduzierbarkeit und Skalierbarkeit
Überblick über die Studie
- LLMs werden von weltweit mehr als 1 Milliarde Menschen genutzt, und ihr häufigster Einsatzzweck ist Schreibassistenz
- LLMs können große Effizienzgewinne bringen, doch es stellt sich die Frage, ob sie tatsächlich die Texte schreiben, die Nutzer wollen
- Viele Nutzer erkennen zwar das „Gefühl“ eines LLM-Stils, nehmen aber kaum wahr, wie stark LLMs die Bedeutung eines Textes verzerren können
- Analysiert wurden drei Arten von Material
- menschliche Nutzerstudien
- ein Datensatz mit von Menschen geschriebenen argumentativen Essays
- Reviews einer führenden Machine-Learning-Konferenz
- Das Forschungsmaterial wird als Paper und Code bereitgestellt
Zentrale Ergebnisse
- LLMs verändern die Schlussfolgerungen von Texten und damit auch Position und Argumentationstyp
- Nutzer gaben an, mit den Ergebnissen zufrieden zu sein, berichteten aber zugleich von statistisch signifikanten Einbußen bei ihrer Stimme und Kreativität – ein Paradox der Präferenz
- Selbst wenn LLMs nur zu einfacher Grammatikkorrektur angewiesen werden, verursachen sie größere Bedeutungsverschiebungen als menschliche Redaktion
- Auch in den Reviews der International Conference of Learning Representations (ICLR) 2026 zeigte sich der Einfluss
- 21 % der Peer-Review-Reviews wurden als KI-generiert eingestuft
- Diese Reviews fokussierten bei den Gründen für Annahme oder Ablehnung eines Papers auf wissenschaftliche Kriterien, die sich signifikant von denen menschlicher Reviews unterschieden
- Je stärker LLMs in die Gesellschaft integriert werden, desto eher können solche subtilen Bedeutungsverschiebungen Politik, Kultur, Wissenschaft und sogar die Kommunikation mit Freunden und Familie verändern
- Untersucht wurde argumentative Schreibarbeit, doch die Ergebnisse könnten sich auch auf andere Formen des Schreibens und der Kommunikation verallgemeinern lassen
LLM-Redaktion verschiebt Texte in eine andere Richtung als menschliche Redaktion
- Wenn LLMs menschliche Texte überarbeiten, entstehen stark homogenisierte Veränderungen, die sich deutlich davon unterscheiden, wie dieselben Essays nach menschlicher Bearbeitung aussehen würden
- Die kontrafaktische Analyse vergleicht das Ergebnis einer LLM-Überarbeitung eines Textes mit dem Ergebnis einer menschlichen Überarbeitung desselben Textes
- Bei menschlicher Redaktion
- wird der erste Entwurf als hellgrauer Punkt dargestellt
- wird der zweite Entwurf nach Expertenfeedback als dunkelgrauer Punkt dargestellt
- wird die Veränderung durch eine PCA-Projektion im semantischen Embedding-Raum von MiniLM-L6 visualisiert
- Bei LLM-Redaktion
- erhielten die ursprünglich von Menschen geschriebenen Essays Expertenfeedback und verschiedene Prompts
- selbst bei der Anweisung zu minimalen Änderungen entstanden große Veränderungen in allen Essays
- die Richtung der Veränderung entfernte sich konsistent von menschlichen Schreibweisen
- Beispiele aus dem Datensatz ArgRewrite-v2 zeigen, wie Schreiben mit LLMs die Schlussfolgerung eines Essays verändert und die menschliche Stimme entfernt
Methodik und Datensätze
-
Menschliche Nutzerstudie
- Um die Auswirkungen der LLM-Nutzung auf den Schreibprozess zu erfassen, wurde eine Nutzerstudie durchgeführt
- 55 Personen konnten LLMs nutzen, 45 Personen hatten keinen Zugang zu LLMs
- Da viele Teilnehmende während der Sitzung freiwillig auf LLMs verzichteten, wurden die Ergebnisse nach der tatsächlichen Nutzungsentscheidung konditioniert
- Es wurden zwei Gruppen gebildet
- LLM-Influenced: Personen, die kein LLM nutzten oder es nur zur Informationssuche einsetzten
- LLM: Personen, die LLMs umfassend nutzten
- Die Gruppeneinteilung erfolgte vorab vor Bewertung und Analyse
- Zur Einteilung wurden Gesprächsprotokolle, die finalen Essays und selbstberichtete Nutzungswerte verwendet
-
ArgRewrite-v2
- Verwendet wurden 86 von Menschen geschriebene Essays, die 2021 erhoben wurden
- Diese Texte entstanden, bevor LLMs breit öffentlich verfügbar waren
- Drei produktive LLMs wurden per Prompt angewiesen, die Essays zu überarbeiten
- gpt-5-mini
- gemini-2.5-flash
- claude-haiku
- Fünf Arten von Überarbeitungen wurden angewendet
- allgemeine Überarbeitung
- minimale Überarbeitung
- Grammatiküberarbeitung
- Vervollständigung
- Erweiterung
- LLM-generierte Entwürfe und menschlich überarbeitete Fassungen wurden in mehreren Dimensionen verglichen
- Bedeutung
- Wortschatzgebrauch
- Verteilung der Wortarten
- emotionaler Ton
- stilistische Merkmale
-
Analyse der ICLR-2026-Reviews
- Analysiert wurden 18.000 Peer-Review-Reviews der ICLR 2026
- Ausgewählt wurden Papers mit jeweils einem vollständig von Menschen verfassten und einem vollständig von LLMs generierten Review
- Ein LLM-as-a-Judge-Klassifikator wurde verwendet, um die in jedem Review genannten Stärken und Schwächen zu identifizieren
- Die von Menschen und LLMs vergebenen Bewertungen wurden verglichen
Das Paradox von Nutzerzufriedenheit und Verlust der eigenen Stimme
- Nutzer, die LLMs intensiv einsetzten, gaben an, dass ihre Essays nicht ihre eigene Stimme widerspiegelten
- Gleichzeitig äußerten sie Zufriedenheit mit dem Ergebnis – ein Paradox der Präferenz
- Nutzer brachten Zufriedenheit zum Ausdruck, berichteten aber zugleich von signifikanten Einbußen bei Kreativität und Stimme
- RLHF optimiert Präferenzen, reicht aber nicht aus, um Kreativität und Bedeutung zu bewahren
Eine gemeinsame Verschiebungsrichtung im Bedeutungsraum
- Die von Menschen geschriebenen Essays der Kontrollgruppe sind breit über den Embedding-Raum verteilt
- Diese Verteilung spiegelt die Vielfalt individueller Perspektiven, Schreibstile und Argumentationsweisen wider
- Von LLMs geschriebene Essays ballen sich dicht in Bereichen, die von menschlich geschriebenen Essays nicht besetzt werden
- LLM-Überarbeitungen erzeugen große Bedeutungsverschiebungen, und auch ihre Richtung ist stark gemeinsam
- LLM-überarbeitete Fassungen verschieben sich in Regionen des Raums, die zuvor von keinem menschlich geschriebenen Essay besetzt waren
- Das gilt als Beleg dafür, dass LLMs Bedeutung anders verschieben als menschliche Editoren
Veränderungen bei Schlussfolgerung und Position
- LLM-Nutzer schrieben zur Frage „Führt Geld zu Glück?“ neutralere Essays
- Diese Essays neigten dazu, eine klare Position zu vermeiden
- Das zeigt sich als grundlegende Veränderung der Position der Argumentation selbst
Veränderungen bei Wortschatz und Grammatik
- LLM-Redaktion verändert die verwendeten Wörter weitaus stärker als menschliche Redaktion
- Der individuelle lexikalische Fingerabdruck jedes Autors wird von dem von LLMs bevorzugten Wortschatz überschrieben
- LLMs wählen einen formelleren Stil
- Auch in der Verteilung der Wortarten zeigen sich Veränderungen
- der Gebrauch von Nomen und Adjektiven nimmt zu
- der Gebrauch von Pronomen nimmt ab
- Der Rückgang von Pronomen wird als Signal dafür interpretiert, dass Ich-Form und erfahrungsbasierte Argumentation abnehmen und unpersönlichere Sprache zunimmt
Mehr emotionale, analytische, logische und statistische Sprache
- Schreiben mit LLMs erhöht den Anteil emotionaler Sprache
- Im Vergleich zwischen menschlicher und LLM-Redaktion zeigt sich sowohl bei positiver als auch bei negativer Emotion ein deutlicher Anstieg
- Dieser Anstieg tritt selbst dann auf, wenn nur minimale Änderungen und Expertenfeedback vorgegeben wurden
- In der LIWC-Analyse zeigen die LLM-überarbeiteten Fassungen von ArgRewrite-v2 mehr Sprache, die auf formellere, logischere und hierarchischere Denkmuster hinweist
- In der Nutzerstudie verwendeten Menschen häufiger Argumentation, die mit persönlicher Erfahrung verbunden ist
- Von LLMs geschriebene Essays verwenden häufiger statistische und logische Argumentation
- Von LLMs beeinflusste Essays zitieren zudem Expertenmeinungen, was in menschlich geschriebenen Essays selten ist
Verzerrte Bewertungskriterien in wissenschaftlichen Institutionen
- Wenn LLMs im wissenschaftlichen Review-Prozess eingesetzt werden, vergeben sie 10 % höhere Bewertungen als Menschen
- Menschliche und LLM-Reviews unterscheiden sich darin, welche Kriterien sie als Stärken und Schwächen betrachten
- Menschliche Reviews behandeln die folgenden Punkte häufiger
- mit 32 % höherer Wahrscheinlichkeit Klarheit als Stärke
- mit 58 % höherer Wahrscheinlichkeit Klarheit als Schwäche
- mit 32 % höherer Wahrscheinlichkeit die Relevanz der Forschung
- LLM-Reviews behandeln die folgenden Punkte häufiger
- mit 136 % höherer Wahrscheinlichkeit Reproduzierbarkeit
- mit 84 % höherer Wahrscheinlichkeit Skalierbarkeit
- Die Unterschiede in den Bewertungskriterien zwischen Menschen und LLMs können beeinflussen, welche wissenschaftlichen Arbeiten als gültig anerkannt und gefördert werden
Fazit
- Die Ergebnisse zeigen ein problematisches Muster, bei dem KI Sprache und kulturelle Institutionen subtil verzerrt
- KI-generierte Inhalte sind bereits in viele Bereiche eingedrungen
- Parlamentsreden
- Songtexte
- Filmdrehbücher
- gesprochene Sprache
- Nachrichten an Kollegen und geliebte Menschen
- Menschen, die stark auf KI angewiesen sind, erkennen zwar, dass KI ihre Stimme und Kreativität verringert, sind mit den Ergebnissen aber dennoch genauso zufrieden
- Die leichte Nutzbarkeit und die Möglichkeit, die eigene Karriere voranzubringen, dürften Menschen weiterhin dazu verleiten, KI-generierte Texte zu produzieren
- Wie die ICLR-Daten zeigen, dürfte auch im professionellen Kontext der Anreiz bestehen bleiben, KI-generierte Texte als eigene Texte einzureichen
1 Kommentare
Lobste.rs-Kommentare
Das ist wirklich verstörend auf eine fast unangenehme Weise. Besonders das Beispiel, in dem ein LLM die Argumentation zu autonomen Fahrzeugen verändert hat, ist ziemlich schockierend
Dass ein LLM eine neutrale Haltung einnimmt, überrascht mich überhaupt nicht. Ich verstehe das Kernziel gängiger LLM-Produkte im Grunde so, dass sie „bekannte“ Wahrheiten wiedergeben und dem Nutzer helfen sollen, darüber hinaus aber eine vage mittlere Position einnehmen
Ich kann absolut nicht nachvollziehen, warum Menschen für das Schreiben oder Redigieren wertvoller Texte zu LLMs greifen
„Unangenehm“ trifft es genau
Ich verstehe nicht, warum es schlecht sein soll, LLMs in diese Richtung zu trainieren
Die Seite lädt in meiner Umgebung durchgängig nicht richtig. Es gibt ein Preprint
Das Häufigkeitsdiagramm ist geradezu atemberaubend und sieht ehrlich gesagt fast genau so aus, wie ich es erwartet hätte
Man kann es als Geschenk auffassen. Die Dinge auf der linken Seite sind jetzt starke Wörter, und die auf der rechten Seite werden zunehmend zu bedeutungslosen Wörtern
Als ich versucht habe, Claude als Korrekturlektor zu verwenden, habe ich das oft gesehen. Ich musste den Prompt mehrfach überarbeiten, damit es sich nur auf Rechtschreibung, Grammatik und Zeichensetzung konzentriert
Die Tendenz, die Bedeutung zu verändern, dürfte damit zusammenhängen, wie Embeddings funktionieren
Die Handlungsmacht und Verantwortung der Nutzer fehlt in erstaunlich vielen Diskussionen über AI/LLMs
Wenn man davon ausgeht, dass der Nutzer erwachsen ist, dann ist die Verwendung eines LLM eine aktive Entscheidung. Man kann entscheiden, ob man die Ausgabe verwendet oder nicht und auf welche Weise
Wenn AI die Politik, Kultur, Wissenschaft oder sogar die Art, wie wir mit Freunden und Familie kommunizieren, „grundlegend verändert“, dann deshalb, weil Menschen sich dafür entschieden haben und AI ihnen diese Entscheidung erleichtert hat
Nur weil Nutzer vielleicht keine eigenen Meinungen oder Vorlieben hatten, verschwindet die Tatsache nicht, dass eine Entscheidung getroffen wurde