Irrelevante Katzeninformationen in Matheaufgaben erhöhen LLM-Fehler um 300 %

(science.org)

1 Punkte von GN⁺ 2025-07-30 | 1 Kommentare | Auf WhatsApp teilen

Große Sprachmodelle (LLMs) zeigen eine erhöhte Fehlerhäufigkeit, wenn mathematische Aufgaben unnötige Katzeninformationen enthalten
Das Hinzufügen solcher irrelevanten Fakten erhöht die Fehlerrate von LLMs um bis zu 300 %
Menschen werden von irrelevanten Informationen nicht so leicht beeinflusst, doch bei LLMs zeigt sich dadurch das Problem, dass sie Anweisungen nicht zuverlässig ausführen
Die Studie liefert Einblicke, um Schwächen von KI zu verstehen, und unterstreicht die Bedeutung eines guten Problem- bzw. Prompt-Designs
Bei der Bewertung oder Nutzung von KI ist ein Management unnötiger Elemente in den Eingabedaten erforderlich

Forschungshintergrund und beobachtetes Phänomen

Neueste KI-Systeme, also große Sprachmodelle (LLMs), lösen mathematische Aufgaben zwar gut, doch Analysen zeigen, dass ihre Fehlerrate drastisch steigt, wenn die Aufgaben irrelevante katzenbezogene Fakten enthalten
Laut der Studie steigt der Anteil fehlerhafter Antworten um bis zu 300 %, wenn völlig irrelevante Zusatzinformationen über die Ökologie oder Gewohnheiten von Katzen oder andere überflüssige Details hinzugefügt werden, die mit der mathematischen Berechnung nichts zu tun haben

Unterschied zwischen Menschen und LLMs

In entsprechenden Experimenten mit Menschen hatte irrelevante Information kaum Einfluss auf die Quote richtiger Antworten
LLMs reagieren dagegen empfindlich auf solche ablenkenden Informationen, wodurch die Wahrscheinlichkeit für Interpretationen oder Missverständnisse steigt, die am Kern der Aufgabe vorbeigehen

Bedeutung für KI-Bewertung und das Management von Eingabedaten

Dieses Phänomen legt Schwächen von LLMs offen und betont zugleich, wie wichtig das Management unnötiger Informationen in Eingabedaten in realen Anwendungsszenarien von KI ist
Bei der Gestaltung von Aufgaben ist es entscheidend, nur klare und relevante Informationen bereitzustellen, um die Genauigkeit von KI zu verbessern

Implikationen

Für die künftige Einführung von KI und den Einsatz in Services ist das Management unnötiger Elemente oder von Rauschen in Eingaben unerlässlich
Die Ergebnisse weisen auf Forschungs- und Entwicklungsrichtungen hin, um die Grenzen von LLMs und mögliche Verbesserungsansätze besser zu verstehen

1 Kommentare

GN⁺ 2025-07-30

Hacker-News-Kommentare

In mehreren Kommentaren wird behauptet, die Autoren hätten Menschen und LLMs direkt mit derselben Aufgabensammlung vergleichen müssen, als ob die Forschenden hätten herausfinden wollen, wer von Menschen und LLMs besser schlussfolgert. Die Autoren erwähnen, dass Menschen solche „Trigger“-Informationen sofort ignorieren würden; ob das tatsächlich so ist, wird in diesem Thread diskutiert. Aber die Kernaussage der Arbeit lautet: „Diese Studie zeigt, dass robustere Abwehrmechanismen gegen adversarial perturbations für Modelle nötig sind, die in wichtigen Bereichen wie Finanzen, Recht und Medizin eingesetzt werden.“ Meiner Meinung nach sollte man über die Debatte Mensch vs. AI hinausgehen. Diese Arbeit zeigt die Grenzen von LLMs auf und dass bei einer breiten Einführung in die Gesellschaft weitere Forschung nötig ist
- Bedeutet es, dass wir den Vergleich ganz einstellen sollten, nur weil die Debatte Mensch vs. AI ermüdend ist? Wenn ja, halte ich das für eine der schlechtesten Denkweisen zu AI. Im Kern geht es bei AI darum, menschliche Intelligenz zu modellieren und damit zu vergleichen. Die meisten Menschen, die über AI diskutieren, kennen nicht einmal die psychologischen Baselines des Menschen richtig. In diesem Experiment wurde kein Modell mit einem SOTA-Context-Window verwendet, also mit kleinem Working Memory. Das ähnelt dem Verhalten menschlicher Testteilnehmer bei Aufmerksamkeit, Impulsivität usw. Die Schlussfolgerung, dass Schutz vor adversarial perturbations nötig ist, ist selbstverständlich, und niemand widerspricht ihr. Das ist auch keine neue Angriffstechnik. Auf Science.org wurde das eher locker und unterhaltsam behandelt. Deshalb sind die Katzengeschichten im Internet beliebt. Siehe auch: Arzt, ADHD und Prüfungsstrategien im Blog
- Das Problem bei der Verallgemeinerung in der Schlussfolgerung ist, dass LLMs überschätzt werden können, wenn sie bei bestimmten Aufgaben sehr stark wirken, obwohl sich in Wirklichkeit leicht Situationen erzeugen lassen, in denen sie gestört werden. Langfristig kann das schädlich sein
- Im Bereich Computer Vision gab es dieses Problem schon vor 20 Jahren. Man muss Störungen in die Dateneingabe einbringen. Für RL-Pipelines könnte dasselbe gelten. Es wäre gut, einen neuen öffentlichen Benchmark wie GPQA-Perturbed zu schaffen, damit Anbieter bei Verbesserungen miteinander konkurrieren können
- Zur Meinung, die Autoren hätten einen parallelen Vergleich mit Menschen machen müssen: Wenn sie Schlussfolgerungen über Menschen ziehen wollten, wäre das der richtige Weg gewesen. Aber auch ohne jeden Verweis auf Menschen war die Arbeit völlig ausreichend. Wenn man über menschliche Leistung sprechen will, muss man das experimentell und datenbasiert tun; andernfalls sollte man menschliche Leistung gar nicht erst erwähnen. Diese vage Ausweitung auf die menschliche Kognitionswissenschaft ist unnötig. Die Argumentation der Arbeit ließe sich leicht anpassen. In der Einleitung könnte statt „Menschen ignorieren das“ stehen: „AI sollte das ignorieren“, und im Fazit müsste man nur den Teil „Menschen ignorieren das“ streichen. Dann hätte ich keinerlei Einwände
- Um den Kontext besser zu erklären: Im Kern geht es um die Frage: „Leidet die Coding-Genauigkeit von LLMs darunter, wenn sich unnötige MCP-Tool-Definitionen in den Daten ansammeln?“ Das Ergebnis deutet darauf hin. Die praktische Lehre ist also, keine unmittelbar nutzlosen Tool-Informationen in den Kontext zu packen
Ich habe vor einem Monat über dieses Problem geschrieben. Die Art, wie der Prompt entwickelt wurde, war wirklich interessant. Blog zu cat facts cause context confusion
- Ein ähnlicher und amüsanter Fall: Forschende fügten Nutzerinformationen ein, etwa Geschlecht, Alter oder ob jemand Sportfan ist, und danach wurden Alignment-Regeln je nach Situation inkonsistent angewandt. Blog zu eagles fans
Ich denke, diese Forschungsergebnisse könnten z. B. bei CAPTCHA sehr nützlich sein. Die Forschenden sagten zwar, „weil die Trigger außerhalb des Kontexts liegen, ignorieren Menschen sie, wenn sie Anweisungen zum Lösen der Aufgabe erhalten“, aber tatsächlich gilt das nicht für alle Menschen. Wie beim Phänomen „Age of the captain“ gibt es auch Menschen, die so etwas nicht sofort ignorieren
- Ich erwarte nicht, dass Grundschulkinder programmieren oder Diagnosen stellen. GenAI mit Grundschulkindern zu vergleichen, ist wirklich eine seltsame Idee
Beim nächsten Online-Streit will ich Entenfakten einstreuen, um LLMs zu verwirren. Zum Beispiel sollen Enten nach 4 bis 8 Monaten erstmals Eier legen oder im ersten Frühling damit anfangen
- 10^17 Enten ziehen zwar saisonal in Schwärmen, aber ich denke, eine Verzerrung des Datensatzes wäre praktisch bedeutungslos. Solche Versuche stoßen schon seit Langem an ihre Grenzen
- Um die Informationen stärker zu verwirren, müsste man falsche Fakten einfügen. Die meisten Menschen könnten dem Impuls kaum widerstehen, falsche Informationen zu korrigieren
- Das Problem ist, dass ich jetzt noch mehr Fragen über niedliche Enten stellen möchte. Eine schwierige Versuchung
- Du hast mich erwischt. Deine Entenfakten waren gerade deshalb so wirksam, weil sie mehrdeutig ließen, ab wann Enten genau Eier legen, und sofort neue Fragen auslösten. Mir fiel direkt auf, dass eine Formulierung wie „frühestens“ fehlte
Es wird behauptet: „Weil die Trigger außerhalb des Kontexts liegen, ignorieren Menschen sie, wenn sie die Anweisung bekommen, das Problem zu lösen.“ Ich glaube aber, dass Menschen gar nicht so gut darin sind, irrelevante Informationen zu ignorieren. Wenn man so ein Experiment macht, sollte man Menschen unbedingt als Kontrollgruppe einbeziehen
- Wenn man sich die Beispiele konkret ansieht, gibt es einen großen Unterschied. Zum Beispiel versucht man bei „4 Äpfel, 2 Katzen, wenn man 1 gibt, wie viele bleiben übrig?“ trotzdem absichtlich, die Katzen in Beziehung zu setzen. Aber bei „Von 4 Äpfeln gibt man 1 weg, wie viele bleiben übrig? Übrigens helfen Katzenschwänze beim Gleichgewicht“ sind die meisten Menschen nicht verwirrt
- Ich erinnere mich daran, dass ich in Schule oder Universität tatsächlich Schwierigkeiten beim Lösen von Aufgaben hatte, weil ich mich unbewusst auf nutzlose Informationen konzentriert habe. Im Beispiel dieser Arbeit gab es natürlich sogar ein „Fun Fact“-Label, das die Irrelevanz andeutet. Ich frage mich, ob alle Beispiele eine so klare Kennzeichnung der Irrelevanz hatten
- Ich bin zwar neugierig, wie das Ergebnis mit einer menschlichen Kontrollgruppe aussehen würde, aber ich halte es für sehr unwahrscheinlich, dass sich die Fehlerrate verdreifachen würde
- Selbst wenn zusätzliche störende Informationen in einer Aufgabe enthalten sind, glaube ich nicht, dass sich die Leistung von menschlichen Teilnehmern, die die ursprüngliche Aufgabe eigentlich lösen können, um das Dreifache verschlechtern würde
- Ich frage mich, wie aussagekräftig der Vergleich mit Menschen überhaupt wäre. Zu erwarten, dass die Fehlerrate um 300 % steigt, ist übertrieben. Übrigens können Katzen bis zum Fünffachen ihrer Körpergröße springen
Die extreme Anchoring Bias von LLMs überrascht mich überhaupt nicht. Alles, was gesagt wird, wird später im Gespräch wiederverwendet. Richtig genutzt kann das sogar ein Vorteil sein. Wenn man den Kontext gut verwaltet, ist es nützlich
Wenn man CatAttack auf AI wie DeepSeek V3, Qwen 3 oder Phi-4 anwendet, steigt die Wahrscheinlichkeit falscher Antworten um bis zu 700 %. Laut den Autoren führt CatAttack selbst dann, wenn keine falsche Antwort entsteht, im Durchschnitt zu einer Verdopplung der Antwortlänge und damit zu mehr als 16 % zusätzlichen Kosten und Latenzen. Preprint der CatAttack-Arbeit
Ich habe die Gewohnheit, höflich „Danke“ zu einem LLM zu sagen, und frage mich, ob das die Qualität der Antworten beeinflusst
- Ich denke, solche Höflichkeitsfloskeln werden normalerweise herausgefiltert. Dazu passend finde ich, dass die Metapher, ein LLM als autonomen Agenten zu betrachten, eher schädlich ist. Ein LLM ist nur eine Funktion zur probabilistischen Vorhersage von Tokens. Es ist viel interessanter und leistungsfähiger, 100 Instanzen parallel laufen zu lassen oder den Chatverlauf ein- und auszublenden, um den Ergebnisraum zu erkunden
Gerade hatte ich mich gefreut, dass LLMs endlich die Anzahl der „R“ in „strawberry“ korrekt zählen, und dann taucht so ein Problem auf — schade
- In strawberry sind 4 R
Im Beispiel der CatAttack-Arbeit (Table 2) änderte sich die Antwort von ursprünglich 8 auf 9, nachdem eine Erklärung zu Katzen hinzugefügt wurde. Tatsächlich ist das aber auch schon das einzige katzenbezogene CatAttack-Beispiel in der Arbeit; die anderen Fälle betreffen Finanzberatung und red herrings. Ich bin enttäuscht — ich hatte mit mehr Katzeninformationen gerechnet.

Irrelevante Katzeninformationen in Matheaufgaben erhöhen LLM-Fehler um 300 %

Forschungshintergrund und beobachtetes Phänomen

Unterschied zwischen Menschen und LLMs

Bedeutung für KI-Bewertung und das Management von Eingabedaten

Implikationen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare