> „Antwortet AI besser, wenn man verärgert fragt?“ Die Ergebnisse eines Experiments des Harvard-Forschungsteams mit sechs Benchmarks zeigen: Emotionale Ausdrücke haben fast keinen Einfluss auf die Leistung von LLMs. Die zentrale Erkenntnis ist jedoch, dass eine adaptive Auswahl von Emotionen je nach Frage eine konsistente Leistungssteigerung ermöglichen kann.
Überblick über die Studie
- Quelle: arXiv:2604.02236v1 (2. April 2026)
- Autoren: Minda Zhao, Yutong Yang u. a. (gemeinsame Forschung von Harvard University und Bryn Mawr College)
- Kernfrage: Verändert sich die Leistung von LLMs, wenn Prompts emotionale Formulierungen enthalten?
Zusammenfassung der wichtigsten Erkenntnisse
Emotionale Tonalität ist in der menschlichen Kommunikation allgegenwärtig, doch ihr Einfluss auf das Verhalten von LLMs bleibt weiterhin unklar. Diese Studie zeigt drei Punkte auf.
① Feste emotionale Präfixe haben nur einen geringen Effekt
Bei den meisten Kombinationen aus Aufgabe und Modell verbesserte oder verschlechterte emotionales Framing die Leistung gegenüber einer neutralen Baseline nicht wesentlich. Statisches emotionales Prompting funktioniert nicht als allgemeine Methode zur Leistungsverbesserung.
② Auch eine höhere Emotionsintensität ändert daran wenig
Selbst bei stärkerer Intensität wie „Ich bin sehr wütend“ oder „Ich habe extreme Angst“ änderte sich die Genauigkeit über die Intensitätsstufen hinweg nur geringfügig, und stärkere Ausdrücke führten nicht konsistent zu Leistungseinbußen.
③ Adaptive Emotionsauswahl (EmotionRL) wirkt
Eine einzige feste Emotion ist zu grob, um zuverlässig zu sein, aber eine auf die Eingabe konditionierte Policy kann konsistentere Leistungsverbesserungen erzielen.
Versuchsaufbau
Sechs untersuchte Emotionen
Auf Basis von Plutchiks Theorie der Basisemotionen wurden sechs Emotionen verwendet: Freude, Traurigkeit, Angst, Wut, Ekel und Überraschung.
Sechs Bewertungs-Benchmarks
| Benchmark | Gemessene Fähigkeit |
|---|---|
| GSM8K | mathematisches Schlussfolgern |
| BIG-Bench Hard | allgemeines Schlussfolgern |
| MedQA | medizinisches Fachwissen |
| BoolQ | Leseverständnis |
| OpenBookQA | Commonsense-Schlussfolgern |
| SocialIQA | soziales Schlussfolgern |
Verwendete Modelle
Bewertet wurden drei Open-Source-Modelle — Qwen3-14B, Llama 3.3-70B und DeepSeek-V3.2 — ohne Finetuning in einer Zero-Shot-Inferenzumgebung.
Detaillierte Ergebnisse
Unterschiede in der Emotionssensitivität je nach Aufgabe
GSM8K und MedQA-US blieben über verschiedene Emotionen hinweg sehr nahe an der Baseline, was darauf hindeutet, dass kurze emotionale Präfixe nur begrenzten Einfluss auf streng eingeschränktes Schlussfolgern und domänenspezifische Multiple-Choice-Vorhersagen haben.
Die deutlichste Abweichung von der allgemeinen Stabilität zeigte sich bei SocialIQA. Hier war die Varianz über Modelle und Emotionen hinweg sichtbar größer, und auch die Richtung der Effekte war nicht konsistent. Das deutet darauf hin, dass emotionaler Kontext am stärksten mit Aufgaben interagiert, die Schlussfolgerungen über zwischenmenschliche Beziehungen erfordern.
Von Menschen geschriebene Emotionen vs. von LLMs erzeugte Emotionen
Der Vergleich zwischen von Menschen verfassten Präfixen und von LLMs generierten Präfixen zeigte, dass beide Quellen über die Bedingungen hinweg nahezu identische Genauigkeit erreichten; keine Seite war konsistent im Vorteil.
EmotionRL: Framework für adaptive Emotionsauswahl
Für jede Eingabefrage wählt ein Agent eine Emotion aus der Menge {Wut, Ekel, Angst, Freude, Traurigkeit, Überraschung}, stellt den entsprechenden Emotionsausdruck vor den ursprünglichen Prompt und übergibt ihn an ein eingefrorenes LLM.
Die Kernstruktur besteht aus zwei Schritten.
- Offline-Training: Für jede Frage werden alle sechs Emotionen ausprobiert, um einen Belohnungsvektor zu erstellen, und anschließend wird ein leichtgewichtiges MLP-Policy-Netzwerk trainiert.
- Online-Inferenz: Bei einer neuen Eingabe wählt die trainierte Policy eine Emotion aus, und das LLM wird genau einmal aufgerufen.
Der schwache durchschnittliche Effekt fester emotionaler Prompts bedeutet nicht, dass emotionales Framing kein nützliches Signal enthält. EmotionRL erreichte über fünf Aufgaben hinweg durchgehend mindestens das Niveau der durchschnittlichen statischen Emotions-Baseline oder übertraf es.
Fazit und Implikationen
Unsere Experimente stützen eine vorsichtigere Sicht auf emotionales Prompting, als es einige vereinzelte positive Beispiele vermuten lassen. In standardisierten Benchmarks auf Basis von Genauigkeit sind feste emotionale Präfixe im Allgemeinen zu schwach und zu heterogen, um als verlässlicher Eingriff zur Leistungssteuerung zu dienen.
Das Forschungsteam schlägt vor, emotionales Prompting nicht als „universelles Template“, sondern als „adaptives Routing-Problem“ neu zu definieren.
Einschränkungen
Diese Studie konzentrierte sich auf kurze Präfixe, Single-Turn-Prompting und genauigkeitszentrierte Benchmarks. In Multi-Turn-Interaktionen, offener Textgenerierung oder sicherheitssensitiven Gesprächen, in denen neben Genauigkeit auch Kalibrierung, Stil und Empathie wichtig sind, könnten größere oder qualitativ andere Effekte auftreten.
Originaltitel: "Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models" — arXiv:2604.02236v1
1 Kommentare
Hä, dann war es also bisher völlig umsonst, wütend zu werden ...?? Dabei hätte ich schwören können, dass es mit Beschimpfungen richtig genialen Output geliefert hat.