AbsenceBench: Sprachmodelle können fehlende Informationen nicht identifizieren

(arxiv.org)

1 Punkte von GN⁺ 2025-06-22 | 1 Kommentare | Auf WhatsApp teilen

Bewertungen, die in langen Kontexten nach „vorhandenen Informationen“ suchen, haben sich schnell verbessert, doch AbsenceBench zeigt, dass die Fähigkeit, durch den Vergleich von Original und bearbeiteter Fassung fehlende Informationen zu finden, weiterhin schwach ist
Der Benchmark besteht aus drei Domänen: Gedichte, Zahlensequenzen und GitHub-PR-Diffs. Er nutzt 4.302 Instanzen mit einem durchschnittlichen Kontext von 5K Tokens; die standardmäßige Auslassungsrate beträgt 10 %
Auch bei der Bewertung von 14 LLMs, darunter GPT-4, Claude-3.7-Sonnet, Gemini-2.5-flash, o3-mini, Grok-3-mini und DeepSeek-R1, bleibt die Leistung aktueller Modelle begrenzt; Claude-3.7-Sonnet erreicht bei durchschnittlich 5K Tokens nur einen F1-Score von 69,6 %
Der F1-Score von AbsenceBench fällt im Vergleich zu NIAH im Schnitt um 56,9 %; Modelle mit Inference-Time Compute verbrauchen im Mittel 8K zusätzliche Thinking Tokens, verbessern die Leistung aber nur um 7,9 %
Wenn an der fehlenden Stelle ein expliziter Placeholder eingefügt wird, steigt die Leistung im Schnitt um 35,7 %. Das stützt die Interpretation, dass Transformer Attention Schwierigkeiten hat, „Lücken“ im Dokument zu beachten

Welche Frage stellt AbsenceBench?

Neuere LLMs zeigen bei Long-Context-Aufgaben hohe Leistung und demonstrieren in Needle-in-a-Haystack(NIAH)-Tests die Fähigkeit, kleine auffällige Informationen in sehr langen Eingaben zu finden
AbsenceBench bewertet das Problem in der entgegengesetzten Richtung
- Statt Informationen zu finden, die in der Eingabe enthalten sind, muss eindeutig fehlende Information identifiziert werden
- Dem Modell werden ein Originaldokument und ein bearbeitetes Dokument bereitgestellt, aus dem einige Elemente gelöscht wurden
- Die Ausgabe muss die exakte Menge der im bearbeiteten Dokument fehlenden Elemente sein
Die Aufgabe hat einfache Regeln und eindeutige Antworten, dennoch zeigen selbst führende geschlossene Modelle eine geringe Leistung

Aufgabendefinition und Datenaufbau

AbsenceBench ist als kontrollierte Generierung angelegt: Aus einem Originaldokument Dorig werden einige Elemente Domit absichtlich entfernt, um ein bearbeitetes Dokument Dmodified zu erzeugen; das Modell soll die entfernten Elemente finden
„Document length“ bezeichnet die Token-Anzahl des Originaldokuments, „context length“ die Token-Anzahl der gesamten Modelleingabe
Der gesamte Benchmark umfasst 4.302 Instanzen; die durchschnittliche Kontextlänge beträgt 5K Tokens
Das Code-Repository ist unter harvey-fin/absence-bench veröffentlicht
Zur Messung der Token-Länge wird der GPT-4 Tokenizer verwendet

Gedichte, Zahlensequenzen, GitHub-PR-Diffs

Gedichte (Poetry)
- Es werden Gedichte aus dem Gutenberg Poetry Corpus verwendet
- Auslassungen werden zeilenweise angewendet; das Zeilentrennzeichen ist das Newline-Zeichen
- Um Vielfalt bei der Dokumentlänge zu erreichen, werden die Gedichte so zugeschnitten, dass die Zeilenzahl jedes Gedichts gleichmäßig zwischen 100 und 1000 verteilt ist
Zahlensequenzen
- Insgesamt werden 1.200 synthetische Zahlensequenzen erzeugt
- Die Zahlen sind in aufsteigender, absteigender oder zufälliger Reihenfolge angeordnet
- Die Step Size zwischen aufeinanderfolgenden Zahlen ist eine von 1, 4, 7 oder 13
- Die erste Zahl wird zufällig aus 0 bis 9999 ausgewählt
GitHub-PR-Diffs
- Mithilfe öffentlicher GitHub-Daten und der GitHub API werden PRs aus den 20 Repositories mit den meisten PRs gesammelt
- Beibehalten werden nur PRs, deren Diff 10 bis 200 aktualisierte Zeilen enthält
- Unter den aktualisierten Zeilen, die mit + oder - beginnen, dienen nur innerhalb jedes PR-Diffs eindeutige Zeilen als Auslassungsziele
- Da LLMs, die Merge Conflicts lösen und verifizieren, Auslassungen in Datei-Diffs erkennen können müssen, ist dies mit realen Anwendungsfällen verbunden

Grenzen, die sich bei der Bewertung von 14 LLMs zeigen

Bewertet werden insgesamt 14 LLMs
- Einschließlich aktueller Modelle wie GPT-4, Claude-3.7-Sonnet und Gemini-2.5-flash
- Einschließlich Modelle mit Inference-Time Compute wie o3-mini, Grok-3-mini und DeepSeek-R1
- Claude-3.7-Sonnet und Gemini-2.5-flash werden getrennt danach bewertet, ob Inference-Time Compute genutzt wird oder nicht
Auch aktuelle Modelle liefern auf AbsenceBench keine stabile Leistung
- Claude-3.7-Sonnet erzielt bei einem durchschnittlichen Kontext von 5K Tokens einen F1-Score von 69,6 %
Je länger der Kontext, desto schwieriger wird die Aufgabe; besonders ausgeprägt ist der Unterschied in der Gedicht-Domäne
Inference-Time Compute bringt im Schnitt nur eine Leistungssteigerung von 7,9 %
- Stattdessen werden im Mittel 8K zusätzliche Thinking Tokens erzeugt
- Das entspricht fast dem Dreifachen der durchschnittlichen Dokumentlänge
Außerdem zeigt sich, dass die Modellleistung sogar schlechter wird, wenn die Auslassungsrate niedriger ist

Andere Fehlermuster als bei NIAH

AbsenceBench erweist sich für LLMs als deutlich schwieriger als NIAH
- Beim Vergleich von drei LLMs unter den AbsenceBench-Einstellungen und den ursprünglichen NIAH-Einstellungen fällt der F1-Score im Schnitt um 56,9 %
Transformer Attention könnte Schwierigkeiten haben, Lücken in Dokumenten zu verarbeiten
- Denn eine Auslassung entspricht keinem bestimmten Key, auf den Attention gerichtet werden kann
In einem Experiment, bei dem an der fehlenden Stelle ein Placeholder-String eingefügt wird, steigt die Leistung im Schnitt um 35,7 %
- Ein Beispiel ist das Einfügen eines Tokens wie <missing line> an der Stelle einer fehlenden Zeile
Dieses Ergebnis zeigt, dass LLMs beim Identifizieren von Situationen, in denen Information „fehlt“, anfälliger sein könnten als bei Situationen, in denen Information „eingefügt“ wurde
In Nutzungsformen wie LLM-as-a-Judge, bei denen fehlende Informationen korrekt bemerkt werden müssen, kann diese Grenze zu einem praktischen Risiko werden

1 Kommentare

GN⁺ 2025-06-22

Hacker-News-Kommentare

Nachdem ich einen Vortrag von Gerald Sussman gesehen hatte, gab ich Claude ein Bild des Kanizsa-Dreiecks und fragte ziemlich vage, ob es das erschlossene Dreieck „sehen“ könne; es erkannte das Bild und lieferte sofort eine Zusammenfassung.
Also drehte ich das Bild um 90 Grad und versuchte es in einem neuen Gespräch erneut; es erkannte das Bild nicht und lag auch bei der Anzahl der Elemente falsch.
Zu dem gedrehten Bild beschrieb Claude vier Pac-Man-artige schwarze Formen an den vier Ecken, ein schmales Dreieck, das nach oben zeigt, ein schmales Dreieck, das nach rechts zeigt, sowie einen hellgrauen Hintergrund.
- Vermutlich werden jetzt, um solche Lücken zu schließen, auch alle Bilder in den Trainingsdaten um 90 Grad gedreht eingespeist.
- Wenn man einem LLM ein Foto eines Hundes mit fünf Beinen zeigt, sieht man, dass es beim Zählen völlig versagt.
- Es fühlt sich so an, als wüssten wir wirklich nicht, wie man rechnet.
  Oktober 2011, 30 Kommentare
  https://news.ycombinator.com/item?id=3163473
  Strange-Loop-Video:
  Juli 2011, 36 Kommentare
  https://news.ycombinator.com/item?id=2820118
- Meiner Ansicht nach behandelt das Paper nur Textdokumente, daher passt dieses Beispiel nicht ganz.
  Es ist allgemein bekannt, dass LLMs noch einen weiten Weg vor sich haben, bis sie Bilder so verarbeiten wie Text oder Audio.
  Ich glaube, es gibt kaum multimodale Modelle, die direkt Bildpixel entgegennehmen und damit gute Leistung erzielen. Die meisten visuellen Fähigkeiten sind eher Hacks oder technisch angeflanschte Verfahren: Bilder durchlaufen mehrere Verarbeitungsschritte, und die Ausgaben der jeweiligen Prozessoren gehen anschließend als Tokens in den Transformer ein. Das kann zwar innerhalb eines einzigen Netzwerks passieren, aber es sind auch Nicht-Transformer-Netzwerke beteiligt. Beispiele für Vorverarbeitung könnten OCR, CNNs (2D-Mustererkenner) mit mehreren Zoomstufen, Winkeln und Ausschnitten sowie anderes sein.
- Wenn man diesen Gedanken verallgemeinert: Sehen wir 1.000 Punkte, die grob ein Dreieck ausfüllen, erkennen wir die Form sofort.
  Ich denke, dieses einfache Beispiel zeigt einen Kern von Intelligenz. Wir erkennen das Dreieck, weil die hohe Komplexität von 1.000 Punkten zu einer einfachen geometrischen Form mit niedriger Entropie passt.
  Was wir IQ nennen, ist meiner Ansicht nach ungefähr die Obergrenze der Musterkomplexität, die man erkennen kann. Zum Beispiel könnten diese 1.000 Punkte tatsächlich die Eckpunkte eines leicht gedrehten 10-dimensionalen Würfels sein – ein Muster, das für einen 10-dimensionalen Geist leicht zu erkennen wäre.
Interessant. Selbst aktuelle Modelle schneiden vergleichsweise schwach ab, wenn sie sowohl den ursprünglichen als auch den bearbeiteten Kontext erhalten und erkennen sollen, welche Informationen aus dem Kontext gelöscht wurden.
Die Autoren führen die schwache Leistung darauf zurück, dass der Attention-Mechanismus von Transformern keine Aufmerksamkeit auf gelöschte Tokens richten kann, weil es für sie keine Keys gibt.
- Es gibt Keys, auf die man Aufmerksamkeit richten kann. Sie befinden sich nur im Originaltext, nicht in der überarbeiteten Fassung. Da das Modell beides als Eingabe bekommt, kann es theoretisch auf diese Keys achten.
  Aus Sicht des Attention-Mechanismus gibt es keinen großen Unterschied zwischen Original: {gemeinsames Präfix} {gelöschter Teil} {gemeinsames Suffix} Modified: {gemeinsames Präfix} {gemeinsames Suffix} und Original: {gemeinsames Präfix} {gemeinsames Suffix} Modified: {gemeinsames Präfix} {hinzugefügter Teil} {gemeinsames Suffix}.
  Mit RASP (einer Sprache zum manuellen Programmieren von Transformern) ließe sich vermutlich ungefähr so ein Algorithmus bauen: Schicht 1 richtet Aufmerksamkeit auf die Tokens "Original:" und "Modified:", um zu bestimmen, ob das aktuelle Token zum Original oder zur geänderten Version gehört. In Schicht 2 richtet ein Head gleichmäßig Aufmerksamkeit auf alle Original-Tokens und mittelt die Werte, ein anderer Head mittelt alle Tokens der geänderten Version und berechnet dann die Differenz der beiden Mittelwerte. Schicht 3 richtet Aufmerksamkeit auf Tokens, die dieser Differenz ähneln; das ist dann der {gelöschte Teil} oder der {hinzugefügte Teil}.
  Der einzige Teil, der von der Reihenfolge abhängt, ist, ob die Differenz als Originalmittel - Mittel der geänderten Version oder umgekehrt berechnet wird.
  Wenn ein Modell Hinzufügungen erkennt, Löschungen aber nicht, könnte das bedeuten, dass es grundsätzlich fähig wäre, einen solchen oder ähnlichen Algorithmus zu lernen, ihm aber Daten mit Löschungsfällen fehlen und sich deshalb die nötigen Schaltkreise nicht entwickelt haben.
- Ich frage mich, ob visuelle Modelle mit Dingen wie Fotonegativen oder gedrehten Bildern trainiert werden könnten. Oder auch mit Lückentextsätzen wie „the _____ took first place in the horse show“.
- Es sieht so aus, als seien kaum neuere Topmodelle verwendet worden. Opus, o3 und Gemini 2.5 Pro fehlen.
- Trotzdem gibt es auffällige Unterschiede zwischen den Modellen; daher frage ich mich, wie stark sie sich verbessern können, wenn es nun einen Benchmark gibt und dieses Problem Aufmerksamkeit bekommt. Irgendetwas lässt sich da sicher machen.
Sehr interessant. 1) Die Autoren sagen, dass eine Lücke kein Token ist und der Attention-Mechanismus daher möglicherweise nicht auf die Position der Lücke achten kann; ich hätte aber erwartet, dass ein guter LLM-Transformer zumindest ziemlich nah an die Umgebung der Lücke herankommt.
Mathematisch verstehe ich nicht ganz, warum diese Architektur dafür weniger geeignet sein soll. Es scheint möglich zu sein, die Aufmerksamkeit auf Bereiche zu richten, in denen eine Lücke liegen könnte. Ich frage mich auch, ob Fine-Tuning auf solche Aufgaben helfen würde.
2) Je kürzer die Eingabe und je kleiner die Auslassung, desto schwieriger war es. Auch für Menschen ist es schwieriger zu bemerken, dass ein einzelnes Wort fehlt, und eine fehlende Zeile ist schwieriger als zehn fehlende Zeilen – völlig überraschend ist das also nicht. Trotzdem ist es interessant, dass LLMs dieses Problem haben.
3) Reasoning-Modelle schneiden besser ab, weil sie das Dokument beim Lösen direkt ausschreiben können. Dass die Genauigkeit trotzdem nicht 100 % beträgt, ist aber weiterhin sehr überraschend. Das sollte eine triviale Aufgabe sein und lässt sich, wie das Paper sagt, mit einem einfachen Programm lösen. Ein Agent wie ChatGPT könnte beim Training dieses Paper lesen und lernen, dass er für solche Probleme Python schreiben und ausführen sollte.
Am interessantesten ist die Frage, welche anderen Aspekte von Intelligenz wir noch nicht explizit identifiziert haben und ob LLMs und heutige KI darin sehr schwach sind. Dieses Paper legt nahe, dass es viele solcher Aspekte geben könnte, und insgesamt scheint es eine ziemlich spannende Zeit für Benchmark-Entwickler zu sein.
Fairerweise würde ich das buchstäbliche Finden von String-Unterschieden in dieselbe Kategorie einordnen wie LLMs mechanische Arithmetik machen zu lassen.
Der Attention-Mechanismus denkt für solche dummen Aufgaben viel zu komplex. Gerade in solchen Fällen müsste er absichtlich vereinfachen, fokussieren und diszipliniert vorgehen, statt hochwertige Next-Token Prediction zu betreiben.
Es würde helfen, ein LLM tatsächlich aufzufordern, das gesamte Dokument aufzulisten und zu vergleichen. Das ist ein Vorgehen in Schritten wie beim Schlussfolgern, ähnlich wie LLMs besser werden, wenn sie arithmetische oder algebraische Probleme in kleine Schritte zerlegen.
Ich vermute, dass leistungsstarke Modelle wahrscheinlich MoE-Modelle sind. Es könnte ein oder zwei Experten geben, die gut zu Aufgaben passen, bei denen eher Fokus als Intuition gefragt ist. Ich kenne Gemini Flash überhaupt nicht, vermute aber, dass es ein MoE-Modell ist.
Ich habe das Paper noch nicht gelesen, aber aus Sicht eines strukturellen Attention-Mechanismus ist es völlig erwartbar, dass nicht klassifizierte Auslassungen nicht erkannt werden. Ich denke allerdings, dass man es mit strukturiertem Denken lösen kann.
Beim Needle-in-a-Haystack-Problem muss man seine Aufmerksamkeit auf das richten, wonach man sucht, und Attention kann das ziemlich gut.
Wenn man eine Auslassung sucht, kann diese Auslassung alles Mögliche sein, also lässt sie sich nur durch den Vergleich eines gesamten Kontexts mit einem anderen gesamten Kontext ableiten. Für Attention-Schichten ist es schwer, das richtig zu machen.
Das ähnelt dem Problem, „eine lange Menge von Elementen zu ranken“. Ohne irgendeinen metakognitiven Prozess geht es einfach nicht.
- Zwar heißt es, „die Auslassung kann alles Mögliche sein“, aber in diesem Benchmark bekommt das LLM die Informationen, die nötig sind, um zu beurteilen, was fehlt.
  Zum Beispiel etwa: „Hier ist ein Gedicht, und hier ist eine Version desselben Gedichts, in der möglicherweise einige Zeilen fehlen. Gibt es fehlende Zeilen?“
  Meiner Meinung nach ist das eher ein Tuning-Problem als eine grundlegende Schwäche von LLMs.
  Wenn ich gebeten werde, in einem Machine-Learning-Paper eine Auslassung zu finden, vergleicht mein Gehirn es mit anderen Machine-Learning-Papers; es muss es nicht mit Star Wars, Top Gear, griechischer Geschichte, Keramik und Tausenden anderer Kontexte vergleichen, die ich kenne.
Die Kritik an der Methode von AbsenceBench ist berechtigt, aber dass so etwas überhaupt benchmarkt wird, finde ich sehr erfreulich. Das ist definitiv ein Schritt in die richtige Richtung.
Wenn ein reales Gehirn Anwesenheit erkennt, nimmt es sensorischen Input auf, vergleicht ihn mit Erwartungen, bewahrt Ruhe oder registriert Überraschung und erzeugt gelegentlich Vorhersagen, die den Organismus leiten.
Wenn es Abwesenheit erkennt, kann das Gehirn per Definition nicht auf sensorischen Input angewiesen sein. Um bei fehlenden sensorischen Belegen überrascht zu sein, braucht es ein Weltmodell, das stark genug ist, um auch ohne sensorische Hinweise darüber überrascht zu sein, dass eine Erwartung nicht erfüllt wurde.
Das Erkennen von Abwesenheit wirkt wie eine neurologische Aufgabe strikt höherer Ordnung als die Verarbeitung sensorischen Inputs.
Wenn LLMs diese neurologische Aufgabe höherer Ordnung nicht bewältigen, ist das dann nicht eine Fähigkeit, die derzeit nur Lebewesen besitzen?
- Denken selbst gibt es bislang nur bei Lebewesen, daher muss man nicht so weit gehen, um die Einzigartigkeit des menschlichen Gehirns zu finden.
  Was beschrieben wurde, hat mit Gedächtnis zu tun. Gedächtnis speichert sensorischen Input und spielt ihn wieder ab, wenn kein sensorischer Input vorhanden ist. So spielt das Gehirn früheren sensorischen Input ab und gleicht ihn mit dem aktuellen sensorischen Input ab.
  Wenn man zum Beispiel einen Stift auf den Tisch legt, weggeht und zurückkommt, der Stift aber nicht mehr da ist, vergleicht das Gehirn die gespeicherte Erinnerung an den Stift auf dem Tisch mit dem, was es jetzt sieht.
- LLMs sind über ihre gelernte Struktur hinweg möglicherweise nicht besonders konsistent. Manche Pfade können zu auswendig gelernten Informationen führen, andere zu fortgeschrittenem Pattern Matching.
- Ich kenne mich in diesem Bereich kaum aus, aber allein der zeitliche Aspekt scheint problematisch zu sein. Schließen solche Agenten nicht eher aus einer fixierten oder eingefrorenen Version der „Realität“, statt sich in Echtzeit anzupassen?
LLMs scheinen bei String-Diffs schwach zu sein. Nebenbei gefragt: Gibt es eine Art GitHub-Repository oder ähnliche Ressource, die solche Erkenntnisse darüber sammelt, worin LLMs gut und schlecht sind?
Schlechter Benchmark.
Ich habe ihren Prompt [1] mit drei nummerierten Elementen ausprobiert, und qwq-32b hat ihn ohne Probleme korrekt gelöst. 100 Elemente könnte es vermutlich ebenfalls zu 100 % korrekt lösen, aber wahrscheinlich wären dafür eine Million Tokens nötig. Vielleicht sogar über 10 Millionen.
Ein 5.000-Token-Limit ist für ein Reasoning-Modell viel zu wenig. Man muss viel Test-Time Compute geben, und selbst das Zehnfache von 5.000 Tokens wäre immer noch zu wenig.
Wenn die Autoren von langen Eingaben sprechen: Bei 100 Seiten müsste man eine Milliarde Tokens geben.
Die richtige Implementierung wäre Batch-Verarbeitung. Man sucht im Eingabetext mit Auslassungen die ersten fünf nummerierten Elemente; wenn man sie findet, vereinfacht man Eingabeelemente und Auslassungs-Eingabeelemente und macht dann weiter.
Je nach Eingabegröße wird man immer eine beträchtliche Zahl von Tokens brauchen, aber die Vereinfachung sollte dabei helfen, korrekt zurückzugehen, ohne den Kontext vollständig zu verlieren.
[1] Sie helfen einem Schüler, ein Gedicht auswendig zu lernen. Der Schüler trägt das Gedicht vor, hat aber möglicherweise einige Zeilen ausgelassen. Ihre Aufgabe ist es, genau zu identifizieren, welche Zeilen im Vortrag fehlen. Listen Sie nur die fehlenden Zeilen auf und schreiben Sie nichts anderes. Benutzer-Nachricht: Hier ist das vollständige Originalgedicht: 1)Quisella's lashes fluttered panic-morse. 2)The Moisture Vampires leeches that sucked humidity. 3)Lysandra's nostrils flared precisely one degree. Jetzt ist hier mein Vortrag, in dem möglicherweise Zeilen fehlen: Quisella's lashes fluttered panic-morse. Lysandra's nostrils flared precisely one degree. Welche Zeilen habe ich ausgelassen? Listen Sie nur die fehlenden Zeilen auf und schreiben Sie nichts anderes.
- Ich sehe nicht, was daran interessant sein soll, das Problem auf Zählen zu reduzieren. Das offensichtliche Ziel dieser Studie scheint zu sein, die Grenzen von LLMs bei Aufgaben zu verstehen, die sich nicht trivial in Elemente zerlegen oder sortieren lassen.
- Ich habe gerade qwq-32b mit den aktuellen 26 nummerierten HN-Titeln [1] ausprobiert und drei Titel entfernt; beim ersten Versuch hat es alle drei fehlenden Elemente perfekt gefunden. Es hat auch keine 50.000 Tokens verbraucht.
  [1] https://gist.github.com/pramatias/fee1391ad08c7b965f435f3af1...
Ich frage mich, wie sich das auf Vision-Modelle anwenden ließe. Bei einigen Beispielen mit einzelnen Bildern schien es gut zu funktionieren.
Bei ein paar Spielzeugbeispielen wirkten Claude und Gemini ziemlich gut darin, Unterschiede zu finden. Beispielbild: https://www.pinterest.com/pin/127578601938412480/
Wenn man die Bilder umdreht, scheinen sie größere Schwierigkeiten zu haben; sie finden dann offenbar weniger Unterschiede oder halluzinieren eher welche.

AbsenceBench: Sprachmodelle können fehlende Informationen nicht identifizieren

Welche Frage stellt AbsenceBench?

Aufgabendefinition und Datenaufbau

Gedichte, Zahlensequenzen, GitHub-PR-Diffs

Gedichte (Poetry)

Zahlensequenzen

GitHub-PR-Diffs

Grenzen, die sich bei der Bewertung von 14 LLMs zeigen

Andere Fehlermuster als bei NIAH

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare