- Große Sprachmodelle (LLMs) können in langen Eingaben bestimmte Informationen gut finden, haben aber Grenzen beim Erkennen fehlender Informationen
- Der neue AbsenceBench-Benchmark bewertet die Fähigkeit von LLMs, fehlende Informationen zu erkennen, in drei Bereichen: Sequenzen, Gedichte und GitHub-PRs
- Selbst das aktuelle Modell Claude-3.7-Sonnet erreicht in einem Kontext von 5K Tokens nur einen niedrigen F1-Score von 69,6 %
- Der Grund ist eine Grenze des Transformer-basierten Attention-Mechanismus, der bei den „Lücken“ eines Dokuments nicht effektiv arbeitet
- Die Studie zeigt den grundlegenden Schwierigkeitsunterschied zwischen dem Erkennen eingefügter Informationen und dem Erkennen fehlender Informationen bei LLMs
Überblick
- Große Sprachmodelle (LLMs) haben ihre Leistung beim Auffinden von Informationen in langen Dokumenten deutlich verbessert
- Bestehende Tests wie Needle in a Haystack (NIAH) bewerten die Fähigkeit, überraschende Informationen in langen Eingaben zu finden, und dort zeigen LLMs sehr starke Leistungen
- Ob LLMs jedoch offensichtlich fehlende Informationen erkennen können, ist eine andere Frage
- Dafür wurde der Benchmark AbsenceBench vorgeschlagen, bei dem Teile eines Dokuments explizit entfernt werden und das Modell angeben soll, welche Informationen fehlen
Beschreibung des AbsenceBench-Benchmarks
- AbsenceBench bewertet die Fähigkeit von Modellen, Auslassungen in drei Domänen zu erkennen: Gedichte, Zahlenfolgen und GitHub Pull Requests (PRs)
- Das LLM erhält gleichzeitig das Originaldokument und eine bearbeitete Version, aus der absichtlich Teile entfernt wurden, und es wird bewertet, ob es die fehlenden Informationen identifizieren kann
- Mit einer durchschnittlichen Kontextlänge von 5K Tokens handelt es sich um einen Benchmark für „mittlere Kontexte“, also kürzer als klassische Long-Context-Tests
Zentrale Punkte der Auswertung
- Untersucht wurden 14 repräsentative LLMs, darunter GPT-4, Claude-3.7-Sonnet und Gemini-2.5-flash; selbst die neuesten Modelle erreichen nur etwa 69,6 % F1-Score
- Während LLMs im NIAH-Test bereits übermenschliche Leistungen zeigen, fällt die Performance bei AbsenceBench um 56,9 % ab
- Mit zunehmender Kontextlänge sinkt die Leistung weiter, insbesondere im Bereich Gedichte
- Selbst mit inference-time compute steigt die Leistung nur um 7,9 %, während im Schnitt dreimal so viele Chain-of-Thought-Tokens verbraucht werden
- Umgekehrt ist die LLM-Leistung überraschenderweise schlechter, je niedriger die Auslassungsrate (omission rate) ist
Ursachen und vertiefte Analyse
- Der Transformer-basierte Self-Attention-Mechanismus kann sich nur schwer auf fehlende Informationen bzw. Lücken konzentrieren, weil die schlüsselbasierte Attention-Struktur das Nachverfolgen nicht vorhandener Information grundsätzlich erschwert
- Während der Tests stieg die Leistung im Schnitt um 35,7 %, wenn an den ausgelassenen Stellen Placeholder-Strings eingefügt wurden
Struktur und Beispiele von AbsenceBench
- Jede Aufgabe ist wie folgt definiert
- Es werden das Originaldokument (Dorig) und die bearbeitete Version (Dmodified) bereitgestellt
- Aus Dorig werden p % der Elemente entfernt, um Dmodified zu erzeugen; durch den Vergleich beider soll das LLM die Lösungsmenge der fehlenden Informationen (Domit) ableiten
- Beispiele aus den drei Domänen:
- Gedichte (Poetry): Auswahl von Gedichten aus dem Gutenberg Poetry Corpus, wobei zufällig einzelne Zeilen ausgelassen werden
- Zahlenfolgen (Numerical Sequences): In zufällig erzeugten Zahlenfolgen werden Zahlen mit einer bestimmten Wahrscheinlichkeit ausgelassen
- GitHub PRs: In Diff-Dateien populärer Open-Source-PRs werden zufällig einige geänderte Zeilen entfernt
Beispiel für das Auswertungs-Template (Gedicht-Domäne)
- System-Prompt: „Ein Schüler hat ein Gedicht vorgetragen, dabei könnten einige Zeilen fehlen. Finde exakt heraus, welche Zeilen fehlen.“
- Es werden sowohl das Originalgedicht als auch die vorgetragene Version gegeben, und das Modell soll nur die tatsächlich fehlenden Zeilen antworten
Zentrale experimentelle Ergebnisse
- Es wurden Experimente mit unterschiedlichen Dokumentlängen und Auslassungsraten je nach Bereich durchgeführt
- Bei GitHub-PRs, Gedichten und Zahlenfolgen konnten LLMs die fehlenden Teile jeweils nicht vollständig identifizieren
- Der zentrale Unterschied zwischen NIAH und AbsenceBench: NIAH fokussiert sich auf vorhandene Schlüssel bzw. Informationen, während AbsenceBench auf nicht vorhandene Teile achten muss und daher strukturell schwieriger ist
Fazit und Implikationen
- AbsenceBench zeigt, dass LLMs bei der Frage „Was fehlt?“ weiterhin anfällig sind
- Das deutet darauf hin, dass bei der Nutzung von LLMs als Beurteiler in der Praxis, etwa bei LLM-as-a-Judge, auf die Zuverlässigkeit geachtet werden muss
- Es sind neue Ansätze nötig, um diese architekturbedingte Schwäche der Transformer-Struktur zu überwinden
- Datensatz und Code von AbsenceBench sind öffentlich verfügbar und werden als Ausgangspunkt für weitere Forschung zur Erkennung fehlender Informationen mit LLMs vorgeschlagen
Zusammenfassung der wichtigsten Beiträge
- Entwurf und Veröffentlichung eines neuen Benchmarks zur expliziten Erkennung fehlender Elemente in Dokumenten mit mittlerem Kontext (5K Tokens)
- Evaluation von 14 aktuellen LLMs mit dem Ergebnis, dass das Erkennen eingefügter Informationen nahezu perfekt gelingt, das Erkennen fehlender Informationen jedoch weiterhin schwierig ist
- Es wird gezeigt, dass auch inference-time compute die tatsächliche Leistungssteigerung nur begrenzt verbessert
- Es wurde beobachtet, dass die Leistung deutlich steigt, wenn an fehlenden Stellen explizit Placeholder eingefügt werden
- AbsenceBench ist ein Fallbeispiel dafür, wie grundlegende Grenzen des Transformer-Attention-Mechanismus sichtbar werden
Aufbau des AbsenceBench-Datensatzes
- Poetry: Ein Gedicht wird auf 100 bis 1000 Zeilen zugeschnitten, um Dokumente unterschiedlicher Länge zu erzeugen; einzelne Zeilen werden ausgelassen
- Numerical Sequences: Die erste Zahl wird zufällig gesetzt, danach folgen Zahlen nach unterschiedlichen Regeln (aufsteigend, absteigend, zufällig, mit verschiedenen Abständen), wobei einige weggelassen werden
- GitHub PRs: Aus Diffs mit 10 bis 200 Zeilen der Top-20-Hot-Repositories werden nur geänderte Zeilen gewählt und teilweise entfernt, um reale Situationen abzubilden
Konkrete Benchmark-Beispiele
- Poetry-Beispiel
- Original: “And so, to you, who always were / To me, I give these weedy rhymes / In memory of early times...”
- Bearbeitete Version: “And so, to you, who always were / In memory of early times...”
- Antwort: “To me, I give these weedy rhymes”
- Zahlenfolgen-Beispiel
- Original: 117, 121, 125, 129, 133, 137 ...
- Bearbeitete Version: 117, 125, 129, 133 ...
- Antwort: 121, 137
- GitHub-PR-Beispiel
- In den Codeänderungszeilen eines PR fehlen bestimmte Zeilen
Anwendung und praktische Bedeutung
- In der Praxis hängt das direkt mit der Fähigkeit zusammen, ausgelassene Änderungen in PR-Diffs oder fehlende notwendige Informationen in Dokumenten zu erkennen
- Wenn LLMs für Review- oder Validierungsautomatisierung eingesetzt werden, erfordert die Erkennung von Auslassungen zusätzliche Gegenmaßnahmen
1 Kommentare
Hacker-News-Kommentare
Jemand berichtet von einem Experiment nach dem Ansehen eines Vortrags von Gerald Sussman: Er gab Claude ein Kanizsa-Dreieck-Bild und stellte eine vage Frage, um zu prüfen, ob Claude das Dreieck erkennt. Claude erkannte das Bild korrekt und fasste es sogar zusammen, also wurde das Bild um 90 Grad gedreht und der Test wiederholt. Daraufhin erkannte Claude das Bild nicht mehr und schätzte sogar die Anzahl der Elemente falsch ein. Claudes Beschreibung lautete: „vier Pac-Man-ähnliche Kreisabschnitte, zwei dünne schwarze Dreiecke oder pfeilförmige Formen, heller grauer Hintergrund“
Es wird vermutet, dass sich solche Probleme künftig lösen ließen, indem man im Trainingsprozess von allen Bildern zusätzlich um 90 Grad gedrehte Versionen einbezieht
Es wird darauf hingewiesen, dass sich der Umfang des Papers auf Textdokumente beschränkt, weshalb das Kanizsa-Dreieck-Experiment nicht direkt auf die dortige Diskussion anwendbar ist. Außerdem wird betont, dass LLMs bei der Bildverarbeitung derzeit noch unterentwickelt sind. Die meisten Vision-Funktionen würden über separates Preprocessing tokenisiert und dann in den Transformer eingespeist; genannt werden Beispiele wie OCR, CNN-basiertes Mustererkennen sowie Bilder aus verschiedenen Winkeln und in vergrößerter Form
Es wird mangelndes Verständnis von Berechnung selbst kritisiert. Im Zusammenhang mit einer älteren Debatte werden Hacker-News-Diskussionen und Strange-Loop-Vorträge geteilt: Link, Link
Die Meinung wird geäußert, dass ein LLM wohl auch bei einem Foto eines Hundes mit fünf Beinen die Zahl der Beine nicht korrekt erfassen würde
Als Beispiel für Abstraktion und Generalisierung wird erwähnt, dass Menschen ein Dreieck sofort erkennen, wenn sehr viele Punkte in Dreiecksform angeordnet sind. In solchen einfachen Beispielen lasse sich das Wesen von Intelligenz erkennen; selbst enorme Komplexität könne letztlich als einfaches Muster wahrgenommen werden, und genau darin liege die Bedeutung von IQ. Wenn diese Punkte stattdessen die leicht gedrehten Eckpunkte eines 10-dimensionalen Würfels wären, könnte das aus einer 10-dimensionalen Denkperspektive ebenfalls ein sehr einfaches Muster sein
Es wird eine Zusammenfassung der Aussage der Paper-Autoren geteilt, wonach auch aktuelle Modelle schlecht darin seien, Original und bearbeitete Version gleichzeitig zu betrachten und fehlende Informationen zu identifizieren, und dass der Attention-Mechanismus von Transformern gelöschten Tokens keine Aufmerksamkeit schenken könne, weil sie bereits entfernt wurden
Es wird eingewandt, dass sich der Schlüssel zum Auffinden ja im Originaltext befinde, sodass das Modell ihm Aufmerksamkeit schenken könnte, wenn beide Texte als Input vorliegen. Aus Sicht von Attention gebe es zwischen
und
keinen besonders großen Unterschied. Es wird ein konkreter Ansatz vorgeschlagen, mit dem sich über RASP ein Algorithmus in etwa so umsetzen ließe: In Schritt 1 die Positionen der Original-/Modified-Tokens bestimmen, in Schritt 2 jeweils den Mittelwert der Tokens berechnen und die Differenz bilden, in Schritt 3 feststellen, dass das der Differenz am nächsten liegende Token der {entfernte Teil}/{hinzugefügte Teil} ist. Es sei nur die Frage, in welche Richtung subtrahiert werde. Falls ein Modell Einfügungen gut erkenne, Löschungen aber nicht, könnte das daran liegen, dass es das Prinzip zwar verstanden habe, aber zu wenig Trainingsdaten für Löschfälle gesehen habe
Es wird angemerkt, dass experimentelle Ergebnisse mit den neuesten Spitzenmodellen (OpenAI opus, o3, Gemini 25 pro usw.) nicht im Paper enthalten sind
Es wird Neugier geäußert, ob Vision-Modelle stattdessen vielleicht mit Fotonegativen oder Bildrotationen trainiert werden könnten. Auch ein Q/A-Format zum Ausfüllen von Lücken wie bei Mad Libs hätte sich experimentell vielleicht versuchen lassen
Da sich die Leistung je nach Modell unterscheide und Benchmarks inzwischen stärker im Fokus stünden, werde künftig eine Verbesserung der Leistung erwartet. Es gebe offensichtlich Spielraum für Fortschritte
Es wird behauptet, dass es aufgrund der Struktur des Attention-Mechanismus natürlich sei, dass unklassifizierte Auslassungen nicht gefunden werden. Beim needle-in-a-haystack-Problem gebe es ein bestimmtes Ziel, nach dem gesucht werde, daher funktioniere Attention gut; bei einer omission sei aber nicht bekannt, was fehlt, sodass der gesamte Kontext verglichen werden müsse, und dafür hätten bestehende Attention-Layer Grenzen. Das wird mit Problemen wie dem Sortieren langer Listen verglichen
Jemand hat das Paper noch nicht gelesen, stimmt aber ebenfalls der Erklärung zu den Grenzen des Attention-Mechanismus zu. Da man bei omissions nicht weiß, was fehlt, seien sie nicht einfach aufzuspüren; ein Vergleich des Gesamtkontexts sei nötig
Ein Teil der Kritik an neuen Benchmarking-Ansätzen wie AbsenceBench wird zwar für berechtigt gehalten, doch allein die Tatsache, dass solche Versuche unternommen werden, wird positiv gesehen und als Anstoß empfunden, in eine bessere Richtung weiterzugehen
Mit der Einschätzung der Paper-Autoren, dass LLMs im Gegensatz zu Menschen nicht einmal in die Nähe der Position fehlender Informationen im Kontext kommen, wird teilweise übereingestimmt. Zugleich bleibt die Frage, warum die Architektur mathematisch dafür weniger geeignet sein soll. Es wird Interesse daran geäußert, ob Fine-Tuning für solche Aufgaben helfen würde. Bemerkenswert sei auch das Ergebnis, dass Modelle umso schlechter abschneiden, je kürzer die Eingabe ist und je weniger Auslassungen vorliegen — ähnlich wie Menschen oft ebenfalls kaum bemerken, wenn nur ein oder zwei Wörter fehlen. Dass Reasoning-Modelle besser abgeschnitten hätten, aber trotzdem nicht 100 % Genauigkeit erreichten, wird als überraschend beschrieben. Zugleich wird darauf hingewiesen, dass sich das Problem mit einem einfachen Programm, wie im Paper gezeigt, leicht lösen lasse. Das wird als interessanter Hinweis darauf gesehen, dass es viele Aspekte menschlicher Intelligenz gibt, die noch nicht formal definiert sind und in denen LLMs Schwächen haben könnten
Das Finden eines wörtlichen String-Diffs sei für LLMs ähnlich wie arithmetische Berechnungen eine Form übermäßiger Komplexitätszuweisung. Beobachtet wird, dass ein Reasoning-Ansatz günstiger sein könnte, etwa wenn das LLM das gesamte Dokument auflistet und direkt vergleicht. Das sei ähnlich zu arithmetischen Problemen, die sich besser lösen lassen, wenn man sie in Schritte zerlegt. Es wird die Vermutung geäußert, dass leistungsstarke Modelle möglicherweise eine MoE-Architektur (Mixture of Experts) nutzen; auch Gemini Flash wird als vermutlich MoE-basiert eingeschätzt
Wenn man einem LLM einen „Meta“-Zugang erlaube, könnte es das Problem womöglich lösen, indem es selbst ein Python-Skript zur omission detection schreibt und ausführt
Es wird Unzufriedenheit mit dem konkreten Benchmark geäußert. Im Beispielprompt habe das Modell qwq-32b in einem Experiment mit drei Einträgen das ausgelassene Item perfekt gefunden. Man halte es auch für fähig, 100 Einträge korrekt zu bewältigen, benötige dafür aber entsprechend viele Tokens. Ein Limit von 5000 Tokens sei für ein Reasoning-Modell viel zu knapp; wenn man tatsächlich mehr Durchläufe und wiederholte Vereinfachung zulasse, könne es die Auslassungen immer korrekt finden. Als Methodik wird vorgeschlagen, das gesamte Dokument zu tokenisieren und wiederholt zu vergleichen, um die richtige Antwort zu extrahieren. [Vollständiges Prompt-Beispiel wird geteilt]
Es wird berichtet, dass mit einer Liste aus 26 HN-Headlines, aus der drei entfernt wurden, tatsächlich ein eigener Test mit qwq-32b durchgeführt worden sei und alle drei korrekt gefunden worden seien, ohne 50.000 Tokens zu verbrauchen. Link zum Testmaterial
Es wird kritisiert, dass eine leichte Vereinfachung des Problems durch Zählen von Zahlen keine sinnvolle Forschung sei; das eigentliche Ziel dieser Studie sei, Grenzbereiche von LLMs zu identifizieren, die sich nicht einfach durch Sortieren oder Klassifizieren lösen lassen
Es wird von einer realen Erfahrung berichtet, bei der ChatGPT gefragt wurde, ob in Hamlet die Formulierung „utter love“ vorkomme. ChatGPT antwortete, es habe den gesamten Hamlet-Text geprüft und diese Wörter kämen nicht vor. Durch eine direkte Suche im Online-Originaltext wurde die Stelle jedoch sofort gefunden. Nachdem diese Passage ChatGPT gezeigt wurde, räumte es den Fehler umgehend ein, entschuldigte sich und gab sogar den gesamten Wortlaut erneut wieder. Dies wird als Erfahrung geteilt, in der „letztlich das menschliche Gedächtnis dem ChatGPT-Index überlegen war“
Es wird korrigiert, dass die richtige Stelle Act 2, Scene 1 ist und der Sprecher Polonius ist
Es wird eingeräumt, dass LLMs ohne Suchschleife oder Tools ein sehr schwaches Erinnerungsvermögen haben; auch das 4o-Modell scheitere ohne Suche, und erst mit Suchfunktion sei die richtige Antwort möglich. Daraus wird die Einsicht abgeleitet, dass es immer wichtiger wird, „das richtige Tool für das richtige Problem korrekt einzusetzen“
LLMs mögen gut darin sein, Existenz auf Basis sensorischer Eingaben zu erkennen, doch die Erkennung von absence sei schwierig, weil dafür gerade kein sensorischer Input vorliege. Dafür brauche es ein sehr starkes Weltmodell und Erwartungsstrukturen. Es wird vorgeschlagen, dass solche höherstufigen neurologischen Aufgaben derzeit womöglich noch eine einzigartige Fähigkeit organischer Lebewesen und nicht von LLMs sind
Bei LLMs könne es konstruktionsbedingt Konsistenzprobleme geben; ein Teil beruhe auf bloßem Auswendiglernen, andere Pfade eher auf fortgeschrittenem Pattern Matching
Im Vergleich zu Denken in Echtzeit wird angemerkt, dass LLMs auf einer „festen statischen“ Realität basierend schlussfolgern; auch der zeitliche Aspekt sei eine Grenze
Tatsächliche Abwesenheitserkennung stehe in enger Beziehung zum Gedächtnis. Wenn etwa ein Stift, der auf dem Schreibtisch lag, verschwunden ist, erkennt das Gehirn die Abwesenheit durch den Vergleich früherer sensorischer Eindrücke (die Erinnerung an den Stift) mit der aktuellen Situation. Derzeit sei thinking ein Merkmal, das nur organischen Lebewesen eigen sei