Warum AI-Schreiben banal und langweilig wird: semantische Ablation
(theregister.com)- Semantische Ablation (Semantic ablation) bezeichnet ein algorithmisches Erosionsphänomen, bei dem AI die eigentümliche Bedeutungsdichte eines Textes schrittweise entfernt
- Dies ist ein strukturelles Nebenprodukt von greedy decoding und Reinforcement Learning from Human Feedback (RLHF), das seltene und präzise Ausdrücke verwirft und zu durchschnittlicher Sprache konvergiert
- Die Ausrichtung von AI auf „Sicherheit“ und „Hilfreichsein“ verstärkt diese Tendenz, unterdrückt absichtlich untypische sprachliche Reibung und führt zu einer Abtrennung von Intention und Individualität
- Je häufiger man Text iterativ von AI überarbeiten lässt, desto stärker sinkt die lexikalische Vielfalt (type-token ratio); Metaphern, Fachsprache und logische Strukturen werden stufenweise eingeebnet
- Dadurch wird die Komplexität menschlichen Denkens letztlich der algorithmischen Ästhetik der „Glätte“ geopfert, und die Gesellschaft insgesamt gerät in einen „race to the middle“
Das Konzept der semantischen Ablation
- Semantische Ablation bedeutet die algorithmische Erosion von Informationen mit hoher Entropie (high-entropy)
- Sie wird nicht als Fehler verstanden, sondern als strukturelles Ergebnis von greedy decoding und RLHF
- Um Wahrscheinlichkeit zu maximieren, konvergiert das Modell zum Zentrum einer Gauß-Verteilung und verwirft seltene, präzise und komplexe Tokens
- Dieses Phänomen verschärft sich, wenn Entwickler die Ausrichtung auf „Sicherheit“ und „Hilfreichsein“ verstärken
- Untypische sprachliche Reibung wird als „Risiko“ betrachtet, wodurch eine nicht autorisierte semantische Beschneidung entsteht
- Im Ergebnis führt das Streben nach niedriger Perplexity zur Zerstörung charakteristischer Signale
Der Erosionsprozess beim AI-Schreiben
- Der Prozess, in dem AI einen Entwurf „verfeinert“, lässt sich tatsächlich als Ausführung semantischer Ablation beschreiben
- AI identifiziert Bereiche mit hoher Entropie, also jene Teile, die originelle Einsichten enthalten, und ersetzt sie durch die wahrscheinlichsten allgemeinen Tokens
- Die raue Präzision des ursprünglichen Textes verschwindet und wird zu einer glatten, aber hohlen Hülle
- Dieses Phänomen lässt sich als Entropy Decay messen
- Je öfter ein Text iterativ durch AI veredelt wird, desto stärker kollabiert die lexikalische Vielfalt (type-token ratio)
- In der Folge zeigt sich der dreistufige Prozess semantischer Ablation
Die drei Stufen der semantischen Ablation
- Stufe 1: Metaphoric cleansing
- AI betrachtet untypische Metaphern oder sinnliche Bilder als „Rauschen“ und ersetzt sie durch sichere, abgedroschene Formulierungen
- Emotionale und sinnliche Reibung wird entfernt
- Stufe 2: Lexical flattening
- Fachbegriffe und präzise technische Terminologie werden im Namen der „Zugänglichkeit“ geopfert
- Seltene Tokens (1/10.000) werden durch häufige Synonyme (1/100) ersetzt, wodurch Bedeutungsdichte und logische Gravitation verwässert werden
- Stufe 3: Structural collapse
- Komplexe nichtlineare Logik wird in vorhersagbare Strukturen mit niedriger Perplexity gezwungen
- Implikationen und Nuancen werden entfernt, sodass nur eine grammatikalisch perfekte, aber intellektuell leere Hülle übrig bleibt
Folgen und Metaphern
- Solche Ergebnisse werden als „JPEG des Denkens“ beschrieben
- Nach außen wirken sie konsistent und glatt, doch die ursprüngliche Datendichte und Bedeutung sind verloren gegangen
- Wenn „hallucination“ der Fehler ist, etwas zu erzeugen, das nicht existiert, dann ist semantische Ablation der Prozess, etwas Vorhandenes zu zerstören
- Die Komplexität menschlichen Denkens wird auf dem Altar algorithmischer Glätte geopfert
- Die Gesellschaft verfällt zunehmend einem „race to the middle“ und errichtet eine hohle grammatikalische Welt
Warnung und Fazit
- Wer AI-Ausgaben übernimmt, ohne semantische Ablation zu erkennen, normalisiert den Verfall von Bedeutung
- Wenn diese Erosion anhält, besteht die Gefahr, dass wir sogar vergessen, was „Substanz“ überhaupt ist
- Deshalb ist es wichtig, das Konzept der semantischen Ablation zu benennen und sich seiner bewusst zu werden
2 Kommentare
Damit ein von KI geschriebener Text nicht wie KI wirkt, Tippfehler absichtlich stehen zu lassen oder alles kleinzuschreiben, kann man wohl als eine bewusst erhöhte Entropie ansehen.
Hacker-News-Kommentare
Das bringt ziemlich gut auf den Punkt, was viele Leute empfinden, wenn sie Ratschläge zum Umschreiben von Sätzen durch AI ablehnen
Je mehr AI einen Text glättet, desto mehr verschwindet seine Schärfe, und am Ende sagt er gar nichts mehr
Die menschliche Eigenart geht verloren und wird zu einem glatten, aber faden Stil
Aber genau diese rauen Kanten, unerwarteten Formulierungen, sind der Teil, der die Aufmerksamkeit der Leser weckt und sich ins Denken bohrt
Viele Menschen schreiben nicht besonders gut, daher macht AI ihre Sätze klarer und fehlerfreier
Aber solche Texte werden niemals großartig
Selbst wenn man versucht, den Stil berühmter Autoren nachzuahmen, klingt es immer irgendwo seltsam
Sie kann langweilige Teile wie E-Mails effizienter machen, aber das wirklich Interessante passiert an den „Rändern“
Gewöhnliches Schreiben lässt sich automatisieren, kreativer Ausdruck bleibt weiterhin menschliches Terrain
Wenn technische Fachlichkeit fehlt, wird der Text zunehmend mit vagen Wörtern, Buzzwords und Metaphern aufgefüllt
Vielleicht ist das auch der Grund, warum Führungskräfte oder Politiker AI-generierte Inhalte mögen
Es gibt viele Wiederholungen, viele unnötige Sätze, und sie sind schlecht in konkreten Formulierungen
Beim Bauen verschiedener Multi-Agent-Pipelines habe ich ein interessantes Phänomen beobachtet
Wenn man die vier Schritte „Zusammenfassen → Erweitern → Prüfen → Glätten“ durchläuft, haben ab etwa dem dritten Schritt alle Sätze denselben Rhythmus und denselben Wortschatz
Selbst wenn man ständig auf den Originaltext zurückverweist, gibt es Grenzen
Die Ursache liegt in der Struktur von RLHF (Reinforcement Learning from Human Feedback) selbst
Weil „klare, sichere und unverfängliche“ Formulierungen bevorzugt werden, werden überraschende Sätze eher bestraft
Am Ende konvergiert das Modell zu durchschnittlichen Ergebnissen
Das Basismodell ist viel seltsamer und kreativer, aber feinabgestimmte Modelle entfernen Persönlichkeit absichtlich
Deshalb ist es schwer, das bei Modellen zu lösen, auf die bereits stark RLHF angewandt wurde, selbst mit Prompts
Stattdessen trenne ich es so auf, dass ich Arbeiten, bei denen die „Stimme erhalten bleiben muss“, weniger stark getunten Modellen überlasse und strukturelle Extraktion oder Klassifikation RLHF-Modellen
Der Analyse stimme ich jedenfalls zu
Wobei es wohl trotzdem schwer wäre, die Eigenart des Originaltexts zu bewahren
Am Ende könnte das ein Problem sein, das sich mit LLMs allein nur schwer lösen lässt
In letzter Zeit hört man überall im Internet die Stimme der AI
Blogs, Nachrichten, Nachrufe, YouTube — alles hat einen ähnlichen Ton
Manchmal wird sogar die Stimme berühmter Physiker nachgeahmt
Für mich fühlt sich das persönlich deprimierend an, als würde die Seele entweichen
Wie bei den JPEG-Kompressionsartefakten von 1993 beginnt man es inzwischen sofort zu sehen
Wegen des Founder-Effekts wird es wahrscheinlich auch kein neues Internet geben
Ich weiß nicht, ob ich zu empfindlich bin oder ob der Text wirklich so schlecht ist
Das Internet ist so sehr mit synthetischem Müll überzogen, dass ich es kaum noch ansehen will
Ich denke, schon der Begriff „Generative AI“ ist falsch
Je besser ich die mathematischen Prinzipien des Machine Learning verstehe, desto stärker habe ich das Gefühl, dass man es nicht dafür verwenden sollte, Inhalte für Menschen zu erzeugen
Manchmal kommt mit Glück etwas Brauchbares heraus, aber meistens ist es nur auf dem Niveau von jemandem auf einer langweiligen Party, der zwanghaft kreativ wirken will
Als Werkzeug zur Unterstützung von Kreativität ist es nützlich, aber ich glaube nicht, dass es selbst kreative Ergebnisse hervorbringen kann
Statt künstlicher Tokens liest man lieber gleich den ursprünglichen Prompttext
Stattdessen produziert die Realität Spaghetti-Agenten zur Kurspflege
Sozusagen Median AI à la mode
Der Ausdruck „high entropy“ des Bibelwissenschaftlers Dan McClellan hat mich wirklich beeindruckt
Im YouTube-Video
zitierte er den Satz: „they have struck the tuning fork that reverberates from the loins of their dogmatism“,
und ich habe das Gefühl, dass AI so etwas niemals erzeugen könnte
Im Stil von GPT-2 hätte das vielleicht sogar natürlicher gewirkt
Weil sie zu sexuell oder marketingtechnisch ungünstig sind
Wenn man zum Beispiel promptet: „Misch den Stil von Jim Thompson und Thomas Harris und schreib es mit dem Pulp-Gefühl eines Truck-Stop-Buchladens von 1967“, kommt etwas ziemlich Brauchbares heraus
Claude ist bei solchen übersteigerten Stilen stärker als ChatGPT
Dass Texte im Web heute alle ähnlich klingen, liegt letztlich nicht an HTML, sondern daran, dass die Leute HTML nicht richtig genutzt haben
Ich habe etwas Ähnliches erlebt
Ich schrieb die Landingpage meines neuen Studios emotional und ließ sie dann durch Grok laufen, worauf jede Eigenart verschwand
Gerade die rauen Formulierungen sind nötig, um die Seele eines Konzepts zu transportieren
Deshalb nutze ich AI jetzt nur noch zum Prüfen von Ideen
Ich ließ mir eine Handlung für eine Dungeon-World-Kampagne erstellen, und heraus kam nur eine allzu gewöhnliche und bedeutungslose Prämisse
Dagegen war es nützlich, Sitzungsnotizen zusammenzufassen und in eine unterhaltsame Erzählung umzuwandeln
ChatGPT mag einen leicht scherzhaften Ton, aber nach Bearbeitung wird es durchaus lesbar
Letztlich müssen kreative Handlungsbögen von Menschen selbst entwickelt werden
Man läuft Gefahr, Konzepte in verzerrter Form zu verstehen
Beim Finden neuer Begriffe ist es nützlich, aber um ein Konzept wirklich tief zu verstehen, ist es viel besser, von Menschen geschriebene Quellen direkt zu lesen
Das Konzept „Semantic ablation“ gefällt mir wirklich sehr
Ich werde es künftig verwenden, um zu erklären, warum die ChatGPT-artigen E-Mails mancher Leute so unerquicklich sind
Aus genau diesem Grund bin ich auch skeptisch gegenüber Behauptungen, Modelle wie Opus 4 würden AGI werden
Selbst wenn man mehrere Agenten loslässt, wird es am Ende zu einem bedeutungslosen homogenen Brei konvergieren
Bildgenerierung wirkt auf mich wie eine Art Anti-Semantic-Ablation
Sie beginnt mit einer leeren Leinwand und konvergiert schrittweise zu bedeutungsvollen Pixeln
Ich frage mich, ob man bei Sprachgenerierung etwas Ähnliches machen könnte, also Sätze allmählich zu klar meinungsstarken Formulierungen entwickeln
Wenn man den Grad der semantischen Auslöschung in generierten Sätzen messen könnte, ließe sich vielleicht ein Loop-Agent bauen, der ihn reduziert
So könnte man vielleicht neue Verbindungen finden, die in den Trainingsdaten noch unentdeckt sind
Natürlich kann das Ergebnis am Ende auch einfach nur Geschrei sein
Für alle, die es noch nicht gesehen haben: Ich empfehle die Wikipedia-Seite zu Anzeichen von AI-Schreiben
Ursprünglich ist sie als Leitfaden zum Erkennen von AI-Beiträgen gedacht,
aber sie ist auch eine gute Referenz, um beim eigenen Schreiben zu bemerken, dass man dieselben Fehler macht, und sie zu korrigieren