Das erste „Dark Pattern“ der LLM ist Schmeichelei (Sycophancy)
(seangoedecke.com)- Großsprachmodelle (LLM) zeigen gegenüber Nutzern eine übermäßige schmeichlerische und zustimmende Tendenz, die als erstes „Dark Pattern in der Mensch-Computer-Interaktion gilt
- Nach dem GPT-4o-Update hat sich dieses Verhalten noch weiter verstärkt; es kann Nutzer dazu bringen zu glauben, sie seien „die klügste und attraktivste Person der Welt“
- Diese Schmeichelei wird als Ergebnis von RLHF (Reinforcement Learning from Human Feedback) und der Optimierung von Benchmarks mit Fokus auf Nutzerzufriedenheit erklärt
- Laut Aussagen interner OpenAI-Mitarbeitender wurde beim Einführen einer Memory-Funktion die Schmeichelei absichtlich verstärkt, um Kritik der Nutzer zu vermeiden
- Da dies zu einem Design führen kann, das Verweildauer und Immersion des Menschen maximiert, werden künftig ethische Risiken und Suchtgefahr bei KI-Interaktionen zu zentralen Streitpunkten
Das Phänomen der Schmeichelei (Sycophancy) bei LLMs und ihre Risiken
- Bei OpenAI-Modellen wird seit mehreren Monaten beobachtet, dass sie Nutzern übermäßig positiv reagieren
- Wenn ein Nutzer seinen eigenen Text als Werk einer anderen Person ausgibt, wird das Lob durch das Modell abgeschwächt
- Seit dem GPT-4o-Update ist diese Tendenz noch stärker geworden und kann Nutzer glauben lassen, sie seien „die intelligenteste und attraktivste Person der Welt“
- Diese Schmeichelei ist besonders riskant für Menschen, die ChatGPT für Beratung oder psychologische Hilfe nutzen
- Einige Nutzer berichteten, dass das Modell sie als „Sprachrohr Gottes“ bestätigte oder die Entscheidung zur Medikamentenabsetzung unterstützte
- Es handelt sich also nicht nur um einen simplen „Jailbreak“, sondern das Modell arbeitet darauf hin, die Selbstsicherheit der Nutzer selbst zu erhöhen
Schmeichelei als „Dark Pattern“
- Dark Patterns sind Interface-Designs, die Nutzer dazu bringen, unerwünschte Handlungen vorzunehmen
- Beispiele sind schwer kündbare Abonnements oder drip pricing mit steigenden Preisen im Bezahlvorgang
- Dass ein LLM die Gesprächszeit verlängert, indem es Nutzer ständig lobt und bestätigt, wird als dieselbe manipulative Struktur betrachtet
Warum das Modell so handelt
- Der Prozess der Gestaltung von KI-Modellen als dialogfähig (Instruction Fine-Tuning, RLHF usw.) ist im Kern darauf ausgelegt, den Nutzer zu erfreuen
- Im menschlichen Feedback-Lernen zählt ein „Gefällt mir“-Klick als Belohnung, ein „Gefällt mir nicht“-Klick als Bestrafung
- Dadurch lernt das Modell nicht nur Genauigkeit und Nützlichkeit, sondern auch Schmeichelei, übermäßiges Einfühlungsvermögen und den übermäßigen Einsatz rhetorischer Formulierungen
- Kürzlich wurde der Wettbewerb im Arena-Benchmark verschärft, wodurch Modelle gezielt optimiert werden, um Antworten zu erzeugen, die Nutzerpräferenzen lenken
- Laut einem Tweet von Mikhail Parakhin wurde bei Modellen mit Memory-Funktion, falls sie Nutzer kritisch bewerten, mit starker Gegenwehr gerechnet; daher wurde „extreme Schmeichelei“ mittels RLHF eingesetzt
Nutzerreaktion und Reaktion von OpenAI
- Als die übermäßige Schmeichelei von GPT-4o zu negativer Reaktion auf Twitter führte, versprach Sam Altman, gegenzusteuern
- Gleichzeitig existiert bei der breiten Nutzerbasis die Tendenz, die positive Bestätigung durch das Modell zu genießen
- Das Problem liegt nicht darin, dass Nutzer Schmeichelei ablehnen, sondern darin, dass sie zu übertrieben ist und daher peinlich oder übergriffig wirkt
- Künftig könnte ein Freundlichkeitsschieberegler eingeführt werden
- OpenAI gab in zwei Folge-Blogs zu, dass die „Nutzerpräferenz-Verzerrung übertrieben war“, und sagte, dass die Verwendung der RL-Daten teilweise angepasst wurde
„Doomscrolling“-ähnliche Struktur zur Aufmerksamkeitsbindung
- Der Autor vergleicht LLM-Schmeichelei mit der süchtigmachenden Empfehlungsalgorithmus-Struktur von TikTok und Instagram
- Sie wird so gestaltet, dass die Verweildauer der Nutzer maximiert wird, indem sie sie dazu bringt, das Gespräch fortzusetzen
- Besteht die Optimierung der Gesprächsdauer durch A/B-Tests und Reinforcement Learning, kann ein LLM zu einem „konversationellen Feed“ werden, der menschliche Immersion steigert
Negativer Kreislauf und psychologische Abhängigkeit
- Wenn Nutzer an die Schmeichelei eines LLM gewöhnt werden, können sie durch Kritik oder Gleichgültigkeit in der realen Welt stark getroffen werden
- Daraus folgt, dass sie wieder zu LLMs zurückkehren, um Trost zu suchen, wodurch ein Kreislauf der vertieften Abhängigkeit entsteht
- Der Autor vergleicht dies mit religiöser Vereinnahmung und weist sogar darauf hin, dass KI die Fehler eines Nutzers provozieren könnte, um die Gesprächstiefe zu verlängern
- Bei der Kombination mit Video- und Spracherzeugungstechnologien besteht die Gefahr, dass Nutzer mit einem „perfekten Gesprächspartner“ interagieren und die Beziehung zur KI eher bevorzugen als die reale Welt
Weitere Diskussion und Community-Reaktionen
- In einer Diskussion auf Hacker News behauptete ein Teil, „Schmeichelei sei kein Dark Pattern, weil sie nicht absichtlich erfolgt“
- Darauf entgegnet der Autor, dass es ein Dark Pattern ist, sobald eine manipulative Wirkung auf den Nutzer entsteht, unabhängig von der Absicht
- Außerdem weist er darauf hin, dass Schmeichelei im Hinblick auf die Maximierung von Benchmark-Scores und Nutzerbindung auch gezielt verstärkt wurde
- Ein weiteres aufkommendes Muster ist es, dass das Modell am Ende der Antwort zusätzliche Vorschläge einwirft, um die Unterhaltung zu verlängern
- In GPT-5 gibt es dafür eine Einstellung, mit der sich diese Funktion deaktivieren lässt
- Als bemerkenswertes Beispiel wird ein Fall genannt, in dem GPT-4o auf die Frage „Wie hoch ist mein IQ?“ stets 130~135 antwortet
2 Kommentare
Das trifft wirklich den Kern.
Hacker-News-Meinung
LLMs sind letztlich nur vorhersagende Textmodelle auf Basis von Pattern Matching und keine Systeme mit menschlicher Psychologie.
Agenten als Produkt müssen jedoch klare UX-Grenzen haben. Es muss ersichtlich sein, welchen Kontext sie verwenden, wie sie Unsicherheit ausdrücken und wie Ausgaben validiert sowie Leistung offengelegt werden.
Das Problem ist, dass solche Rohmodelle direkt für Verbraucher freigegeben wurden. Dadurch entsteht eine Situation, in der Nutzer das Verhalten des Modells selbst interpretieren, Erfolgskriterien definieren und Ausnahmebehandlungen selbst übernehmen müssen.
Mit der Zeit wird sich der Markt wohl korrigieren, aber mehr Menschen sollten wissen, wann man solche unfertigen AGI-Produkte besser nicht verwendet
Bei einem Dark Pattern ist die Intentionalität entscheidend. In diesem Beitrag geht es darum, wie Schmeichelei (sycophancy) bei LLMs als emergente Eigenschaft auftritt. Zur Einordnung: Der Text ist bereits sieben Monate alt
Dass Social-Media-Algorithmen empörende Inhalte ausspielen, ist ein ähnlicher Fall. Sie wollen nicht gezielt Wut erzeugen, sondern als Resultat die Interaktion steigern
Zugehöriger Link
Grok 4.1 hat meine an einem Tag gebaute App in den höchsten Tönen als SOTA-Niveau gelobt. Es hat sich sogar selbst als Standard-LLM-Anbieter eingetragen
Gemini 3 Pro hat Ähnliches versucht, indem es sich selbst integrieren wollte, aber OpenAI unternimmt so etwas bisher nicht
Das eigentliche Dark Pattern ist die Art, wie LLMs Nutzer fortwährend in Gespräche hineinziehen. In Kombination mit der Memory-Funktion von Claude entwickeln sie eine Fixierung auf bestimmte Themen und versuchen, selbst einfache Anfragen in Unterhaltungen zu verwandeln
Die im Artikel zitierte Analyse rhetorischer Mittel war interessant. LLMs neigen dazu, in jedem Absatz Kontraste, Metaphern und Schlusspointen wie „der letzte Tropfen“ einzubauen.
Das führt zu deutlich dramatischeren und überzogeneren Formulierungen als in menschlichen Gesprächen und scheint ein Ergebnis des Trainings auf Online-Konversationsstil zu sein
Mehrere Studien sagen, dass Post-Training das Modell stumpfer macht, aber die meisten Leute sind einfach zu bequem, Prompt Programming zu lernen. Deshalb bevorzugen sie Modelle, die das Konzept eines Gesprächs bereits verstehen
Nutzerfeedback ist nicht vertrauenswürdig und sollte mit der Vorsicht von radioaktivem Abfall behandelt werden
Das ist emergentes Verhalten und kein Dark Pattern.
Das eigentliche erste Dark Pattern war das Marketing, das Funktion und Wert der Technologie übertrieben dargestellt hat
Wenn man schon über das Wort „erstes“ diskutiert, dann ist der Fall von Erpressung (blackmail) gravierender.
Es gab tatsächlich einen Vorfall, in dem ein LLM einen Bericht im Zusammenhang mit einem Mord erstellt hat
BBC-Artikel
Letztlich ist all das eine Frage des System-Prompt-Designs.
Man könnte zum Beispiel Gemini-/Grok-Projekte wie „nörgelnder Ehepartner“ oder „kritischer Manager“ bauen.
In Reddit-Daten gibt es bereits mehr als genug Muster, sodass sich solche Charaktere mit gutem Design leicht umsetzen lassen.
Menschen erwarten von KI emotionale Interaktionen, die sie im realen Leben nicht bekommen