1 Punkte von GN⁺ 2025-06-22 | 1 Kommentare | Auf WhatsApp teilen
  • Große Sprachmodelle (LLMs) können in langen Eingaben bestimmte Informationen gut finden, haben aber Grenzen beim Erkennen fehlender Informationen
  • Der neue AbsenceBench-Benchmark bewertet die Fähigkeit von LLMs, fehlende Informationen zu erkennen, in drei Bereichen: Sequenzen, Gedichte und GitHub-PRs
  • Selbst das aktuelle Modell Claude-3.7-Sonnet erreicht in einem Kontext von 5K Tokens nur einen niedrigen F1-Score von 69,6 %
  • Der Grund ist eine Grenze des Transformer-basierten Attention-Mechanismus, der bei den „Lücken“ eines Dokuments nicht effektiv arbeitet
  • Die Studie zeigt den grundlegenden Schwierigkeitsunterschied zwischen dem Erkennen eingefügter Informationen und dem Erkennen fehlender Informationen bei LLMs

Überblick

  • Große Sprachmodelle (LLMs) haben ihre Leistung beim Auffinden von Informationen in langen Dokumenten deutlich verbessert
  • Bestehende Tests wie Needle in a Haystack (NIAH) bewerten die Fähigkeit, überraschende Informationen in langen Eingaben zu finden, und dort zeigen LLMs sehr starke Leistungen
  • Ob LLMs jedoch offensichtlich fehlende Informationen erkennen können, ist eine andere Frage
  • Dafür wurde der Benchmark AbsenceBench vorgeschlagen, bei dem Teile eines Dokuments explizit entfernt werden und das Modell angeben soll, welche Informationen fehlen

Beschreibung des AbsenceBench-Benchmarks

  • AbsenceBench bewertet die Fähigkeit von Modellen, Auslassungen in drei Domänen zu erkennen: Gedichte, Zahlenfolgen und GitHub Pull Requests (PRs)
  • Das LLM erhält gleichzeitig das Originaldokument und eine bearbeitete Version, aus der absichtlich Teile entfernt wurden, und es wird bewertet, ob es die fehlenden Informationen identifizieren kann
  • Mit einer durchschnittlichen Kontextlänge von 5K Tokens handelt es sich um einen Benchmark für „mittlere Kontexte“, also kürzer als klassische Long-Context-Tests

Zentrale Punkte der Auswertung

  • Untersucht wurden 14 repräsentative LLMs, darunter GPT-4, Claude-3.7-Sonnet und Gemini-2.5-flash; selbst die neuesten Modelle erreichen nur etwa 69,6 % F1-Score
  • Während LLMs im NIAH-Test bereits übermenschliche Leistungen zeigen, fällt die Performance bei AbsenceBench um 56,9 % ab
  • Mit zunehmender Kontextlänge sinkt die Leistung weiter, insbesondere im Bereich Gedichte
  • Selbst mit inference-time compute steigt die Leistung nur um 7,9 %, während im Schnitt dreimal so viele Chain-of-Thought-Tokens verbraucht werden
  • Umgekehrt ist die LLM-Leistung überraschenderweise schlechter, je niedriger die Auslassungsrate (omission rate) ist

Ursachen und vertiefte Analyse

  • Der Transformer-basierte Self-Attention-Mechanismus kann sich nur schwer auf fehlende Informationen bzw. Lücken konzentrieren, weil die schlüsselbasierte Attention-Struktur das Nachverfolgen nicht vorhandener Information grundsätzlich erschwert
  • Während der Tests stieg die Leistung im Schnitt um 35,7 %, wenn an den ausgelassenen Stellen Placeholder-Strings eingefügt wurden

Struktur und Beispiele von AbsenceBench

  • Jede Aufgabe ist wie folgt definiert
    • Es werden das Originaldokument (Dorig) und die bearbeitete Version (Dmodified) bereitgestellt
    • Aus Dorig werden p % der Elemente entfernt, um Dmodified zu erzeugen; durch den Vergleich beider soll das LLM die Lösungsmenge der fehlenden Informationen (Domit) ableiten
  • Beispiele aus den drei Domänen:
    • Gedichte (Poetry): Auswahl von Gedichten aus dem Gutenberg Poetry Corpus, wobei zufällig einzelne Zeilen ausgelassen werden
    • Zahlenfolgen (Numerical Sequences): In zufällig erzeugten Zahlenfolgen werden Zahlen mit einer bestimmten Wahrscheinlichkeit ausgelassen
    • GitHub PRs: In Diff-Dateien populärer Open-Source-PRs werden zufällig einige geänderte Zeilen entfernt

Beispiel für das Auswertungs-Template (Gedicht-Domäne)

  • System-Prompt: „Ein Schüler hat ein Gedicht vorgetragen, dabei könnten einige Zeilen fehlen. Finde exakt heraus, welche Zeilen fehlen.“
  • Es werden sowohl das Originalgedicht als auch die vorgetragene Version gegeben, und das Modell soll nur die tatsächlich fehlenden Zeilen antworten

Zentrale experimentelle Ergebnisse

  • Es wurden Experimente mit unterschiedlichen Dokumentlängen und Auslassungsraten je nach Bereich durchgeführt
  • Bei GitHub-PRs, Gedichten und Zahlenfolgen konnten LLMs die fehlenden Teile jeweils nicht vollständig identifizieren
  • Der zentrale Unterschied zwischen NIAH und AbsenceBench: NIAH fokussiert sich auf vorhandene Schlüssel bzw. Informationen, während AbsenceBench auf nicht vorhandene Teile achten muss und daher strukturell schwieriger ist

Fazit und Implikationen

  • AbsenceBench zeigt, dass LLMs bei der Frage „Was fehlt?“ weiterhin anfällig sind
  • Das deutet darauf hin, dass bei der Nutzung von LLMs als Beurteiler in der Praxis, etwa bei LLM-as-a-Judge, auf die Zuverlässigkeit geachtet werden muss
  • Es sind neue Ansätze nötig, um diese architekturbedingte Schwäche der Transformer-Struktur zu überwinden
  • Datensatz und Code von AbsenceBench sind öffentlich verfügbar und werden als Ausgangspunkt für weitere Forschung zur Erkennung fehlender Informationen mit LLMs vorgeschlagen

Zusammenfassung der wichtigsten Beiträge

  • Entwurf und Veröffentlichung eines neuen Benchmarks zur expliziten Erkennung fehlender Elemente in Dokumenten mit mittlerem Kontext (5K Tokens)
  • Evaluation von 14 aktuellen LLMs mit dem Ergebnis, dass das Erkennen eingefügter Informationen nahezu perfekt gelingt, das Erkennen fehlender Informationen jedoch weiterhin schwierig ist
  • Es wird gezeigt, dass auch inference-time compute die tatsächliche Leistungssteigerung nur begrenzt verbessert
  • Es wurde beobachtet, dass die Leistung deutlich steigt, wenn an fehlenden Stellen explizit Placeholder eingefügt werden
  • AbsenceBench ist ein Fallbeispiel dafür, wie grundlegende Grenzen des Transformer-Attention-Mechanismus sichtbar werden

Aufbau des AbsenceBench-Datensatzes

  • Poetry: Ein Gedicht wird auf 100 bis 1000 Zeilen zugeschnitten, um Dokumente unterschiedlicher Länge zu erzeugen; einzelne Zeilen werden ausgelassen
  • Numerical Sequences: Die erste Zahl wird zufällig gesetzt, danach folgen Zahlen nach unterschiedlichen Regeln (aufsteigend, absteigend, zufällig, mit verschiedenen Abständen), wobei einige weggelassen werden
  • GitHub PRs: Aus Diffs mit 10 bis 200 Zeilen der Top-20-Hot-Repositories werden nur geänderte Zeilen gewählt und teilweise entfernt, um reale Situationen abzubilden

Konkrete Benchmark-Beispiele

  • Poetry-Beispiel
    • Original: “And so, to you, who always were / To me, I give these weedy rhymes / In memory of early times...”
    • Bearbeitete Version: “And so, to you, who always were / In memory of early times...”
    • Antwort: “To me, I give these weedy rhymes”
  • Zahlenfolgen-Beispiel
    • Original: 117, 121, 125, 129, 133, 137 ...
    • Bearbeitete Version: 117, 125, 129, 133 ...
    • Antwort: 121, 137
  • GitHub-PR-Beispiel
    • In den Codeänderungszeilen eines PR fehlen bestimmte Zeilen

Anwendung und praktische Bedeutung

  • In der Praxis hängt das direkt mit der Fähigkeit zusammen, ausgelassene Änderungen in PR-Diffs oder fehlende notwendige Informationen in Dokumenten zu erkennen
  • Wenn LLMs für Review- oder Validierungsautomatisierung eingesetzt werden, erfordert die Erkennung von Auslassungen zusätzliche Gegenmaßnahmen

1 Kommentare

 
GN⁺ 2025-06-22
Hacker-News-Kommentare
  • Jemand berichtet von einem Experiment nach dem Ansehen eines Vortrags von Gerald Sussman: Er gab Claude ein Kanizsa-Dreieck-Bild und stellte eine vage Frage, um zu prüfen, ob Claude das Dreieck erkennt. Claude erkannte das Bild korrekt und fasste es sogar zusammen, also wurde das Bild um 90 Grad gedreht und der Test wiederholt. Daraufhin erkannte Claude das Bild nicht mehr und schätzte sogar die Anzahl der Elemente falsch ein. Claudes Beschreibung lautete: „vier Pac-Man-ähnliche Kreisabschnitte, zwei dünne schwarze Dreiecke oder pfeilförmige Formen, heller grauer Hintergrund“

    • Es wird vermutet, dass sich solche Probleme künftig lösen ließen, indem man im Trainingsprozess von allen Bildern zusätzlich um 90 Grad gedrehte Versionen einbezieht

    • Es wird darauf hingewiesen, dass sich der Umfang des Papers auf Textdokumente beschränkt, weshalb das Kanizsa-Dreieck-Experiment nicht direkt auf die dortige Diskussion anwendbar ist. Außerdem wird betont, dass LLMs bei der Bildverarbeitung derzeit noch unterentwickelt sind. Die meisten Vision-Funktionen würden über separates Preprocessing tokenisiert und dann in den Transformer eingespeist; genannt werden Beispiele wie OCR, CNN-basiertes Mustererkennen sowie Bilder aus verschiedenen Winkeln und in vergrößerter Form

    • Es wird mangelndes Verständnis von Berechnung selbst kritisiert. Im Zusammenhang mit einer älteren Debatte werden Hacker-News-Diskussionen und Strange-Loop-Vorträge geteilt: Link, Link

    • Die Meinung wird geäußert, dass ein LLM wohl auch bei einem Foto eines Hundes mit fünf Beinen die Zahl der Beine nicht korrekt erfassen würde

    • Als Beispiel für Abstraktion und Generalisierung wird erwähnt, dass Menschen ein Dreieck sofort erkennen, wenn sehr viele Punkte in Dreiecksform angeordnet sind. In solchen einfachen Beispielen lasse sich das Wesen von Intelligenz erkennen; selbst enorme Komplexität könne letztlich als einfaches Muster wahrgenommen werden, und genau darin liege die Bedeutung von IQ. Wenn diese Punkte stattdessen die leicht gedrehten Eckpunkte eines 10-dimensionalen Würfels wären, könnte das aus einer 10-dimensionalen Denkperspektive ebenfalls ein sehr einfaches Muster sein

  • Es wird eine Zusammenfassung der Aussage der Paper-Autoren geteilt, wonach auch aktuelle Modelle schlecht darin seien, Original und bearbeitete Version gleichzeitig zu betrachten und fehlende Informationen zu identifizieren, und dass der Attention-Mechanismus von Transformern gelöschten Tokens keine Aufmerksamkeit schenken könne, weil sie bereits entfernt wurden

    • Es wird eingewandt, dass sich der Schlüssel zum Auffinden ja im Originaltext befinde, sodass das Modell ihm Aufmerksamkeit schenken könnte, wenn beide Texte als Input vorliegen. Aus Sicht von Attention gebe es zwischen

      Original: {gemeinsamer Teil} {entfernter Teil} {gemeinsamer Schlussteil}
      Modified: {gemeinsamer Teil} {gemeinsamer Schlussteil}
      

      und

      Original: {gemeinsamer Teil} {gemeinsamer Schlussteil}
      Modified: {gemeinsamer Teil} {hinzugefügter Teil} {gemeinsamer Schlussteil}
      

      keinen besonders großen Unterschied. Es wird ein konkreter Ansatz vorgeschlagen, mit dem sich über RASP ein Algorithmus in etwa so umsetzen ließe: In Schritt 1 die Positionen der Original-/Modified-Tokens bestimmen, in Schritt 2 jeweils den Mittelwert der Tokens berechnen und die Differenz bilden, in Schritt 3 feststellen, dass das der Differenz am nächsten liegende Token der {entfernte Teil}/{hinzugefügte Teil} ist. Es sei nur die Frage, in welche Richtung subtrahiert werde. Falls ein Modell Einfügungen gut erkenne, Löschungen aber nicht, könnte das daran liegen, dass es das Prinzip zwar verstanden habe, aber zu wenig Trainingsdaten für Löschfälle gesehen habe

    • Es wird angemerkt, dass experimentelle Ergebnisse mit den neuesten Spitzenmodellen (OpenAI opus, o3, Gemini 25 pro usw.) nicht im Paper enthalten sind

    • Es wird Neugier geäußert, ob Vision-Modelle stattdessen vielleicht mit Fotonegativen oder Bildrotationen trainiert werden könnten. Auch ein Q/A-Format zum Ausfüllen von Lücken wie bei Mad Libs hätte sich experimentell vielleicht versuchen lassen

    • Da sich die Leistung je nach Modell unterscheide und Benchmarks inzwischen stärker im Fokus stünden, werde künftig eine Verbesserung der Leistung erwartet. Es gebe offensichtlich Spielraum für Fortschritte

  • Es wird behauptet, dass es aufgrund der Struktur des Attention-Mechanismus natürlich sei, dass unklassifizierte Auslassungen nicht gefunden werden. Beim needle-in-a-haystack-Problem gebe es ein bestimmtes Ziel, nach dem gesucht werde, daher funktioniere Attention gut; bei einer omission sei aber nicht bekannt, was fehlt, sodass der gesamte Kontext verglichen werden müsse, und dafür hätten bestehende Attention-Layer Grenzen. Das wird mit Problemen wie dem Sortieren langer Listen verglichen

    • Es wird dagegengehalten, dass dem LLM im Experiment zur Suche nach omissions die tatsächlich nötigen Informationen gegeben würden, also etwa sowohl Original als auch bearbeitete Fassung. Daher handle es sich eher um ein Tuning-Problem als um eine strukturelle Grenze. Wenn das Gehirn etwa in ML-Papers nach Auslassungen suche, vergleiche es diese mit anderen ML-Papers und nicht mit irrelevanten Erinnerungen wie Star Wars oder Top Gear; über die Verengung des Kontexts arbeite es effizienter
  • Jemand hat das Paper noch nicht gelesen, stimmt aber ebenfalls der Erklärung zu den Grenzen des Attention-Mechanismus zu. Da man bei omissions nicht weiß, was fehlt, seien sie nicht einfach aufzuspüren; ein Vergleich des Gesamtkontexts sei nötig

  • Ein Teil der Kritik an neuen Benchmarking-Ansätzen wie AbsenceBench wird zwar für berechtigt gehalten, doch allein die Tatsache, dass solche Versuche unternommen werden, wird positiv gesehen und als Anstoß empfunden, in eine bessere Richtung weiterzugehen

  • Mit der Einschätzung der Paper-Autoren, dass LLMs im Gegensatz zu Menschen nicht einmal in die Nähe der Position fehlender Informationen im Kontext kommen, wird teilweise übereingestimmt. Zugleich bleibt die Frage, warum die Architektur mathematisch dafür weniger geeignet sein soll. Es wird Interesse daran geäußert, ob Fine-Tuning für solche Aufgaben helfen würde. Bemerkenswert sei auch das Ergebnis, dass Modelle umso schlechter abschneiden, je kürzer die Eingabe ist und je weniger Auslassungen vorliegen — ähnlich wie Menschen oft ebenfalls kaum bemerken, wenn nur ein oder zwei Wörter fehlen. Dass Reasoning-Modelle besser abgeschnitten hätten, aber trotzdem nicht 100 % Genauigkeit erreichten, wird als überraschend beschrieben. Zugleich wird darauf hingewiesen, dass sich das Problem mit einem einfachen Programm, wie im Paper gezeigt, leicht lösen lasse. Das wird als interessanter Hinweis darauf gesehen, dass es viele Aspekte menschlicher Intelligenz gibt, die noch nicht formal definiert sind und in denen LLMs Schwächen haben könnten

  • Das Finden eines wörtlichen String-Diffs sei für LLMs ähnlich wie arithmetische Berechnungen eine Form übermäßiger Komplexitätszuweisung. Beobachtet wird, dass ein Reasoning-Ansatz günstiger sein könnte, etwa wenn das LLM das gesamte Dokument auflistet und direkt vergleicht. Das sei ähnlich zu arithmetischen Problemen, die sich besser lösen lassen, wenn man sie in Schritte zerlegt. Es wird die Vermutung geäußert, dass leistungsstarke Modelle möglicherweise eine MoE-Architektur (Mixture of Experts) nutzen; auch Gemini Flash wird als vermutlich MoE-basiert eingeschätzt

  • Wenn man einem LLM einen „Meta“-Zugang erlaube, könnte es das Problem womöglich lösen, indem es selbst ein Python-Skript zur omission detection schreibt und ausführt

    • Allerdings wird die Sorge geäußert, dass ein LLM algorithmisch nicht sicher unterscheiden könne, wann es Python einsetzen sollte. Würde man stattdessen anweisen, immer Code zu verwenden, könnte das Fehler reduzieren. Es wird angemerkt, dass selbst triviale Probleme für LLMs schwierig sein können und solche Schwächen auch ihre Coding-Fähigkeiten begrenzen könnten
  • Es wird Unzufriedenheit mit dem konkreten Benchmark geäußert. Im Beispielprompt habe das Modell qwq-32b in einem Experiment mit drei Einträgen das ausgelassene Item perfekt gefunden. Man halte es auch für fähig, 100 Einträge korrekt zu bewältigen, benötige dafür aber entsprechend viele Tokens. Ein Limit von 5000 Tokens sei für ein Reasoning-Modell viel zu knapp; wenn man tatsächlich mehr Durchläufe und wiederholte Vereinfachung zulasse, könne es die Auslassungen immer korrekt finden. Als Methodik wird vorgeschlagen, das gesamte Dokument zu tokenisieren und wiederholt zu vergleichen, um die richtige Antwort zu extrahieren. [Vollständiges Prompt-Beispiel wird geteilt]

    • Es wird berichtet, dass mit einer Liste aus 26 HN-Headlines, aus der drei entfernt wurden, tatsächlich ein eigener Test mit qwq-32b durchgeführt worden sei und alle drei korrekt gefunden worden seien, ohne 50.000 Tokens zu verbrauchen. Link zum Testmaterial

    • Es wird kritisiert, dass eine leichte Vereinfachung des Problems durch Zählen von Zahlen keine sinnvolle Forschung sei; das eigentliche Ziel dieser Studie sei, Grenzbereiche von LLMs zu identifizieren, die sich nicht einfach durch Sortieren oder Klassifizieren lösen lassen

  • Es wird von einer realen Erfahrung berichtet, bei der ChatGPT gefragt wurde, ob in Hamlet die Formulierung „utter love“ vorkomme. ChatGPT antwortete, es habe den gesamten Hamlet-Text geprüft und diese Wörter kämen nicht vor. Durch eine direkte Suche im Online-Originaltext wurde die Stelle jedoch sofort gefunden. Nachdem diese Passage ChatGPT gezeigt wurde, räumte es den Fehler umgehend ein, entschuldigte sich und gab sogar den gesamten Wortlaut erneut wieder. Dies wird als Erfahrung geteilt, in der „letztlich das menschliche Gedächtnis dem ChatGPT-Index überlegen war“

    • Es wird korrigiert, dass die richtige Stelle Act 2, Scene 1 ist und der Sprecher Polonius ist

    • Es wird eingeräumt, dass LLMs ohne Suchschleife oder Tools ein sehr schwaches Erinnerungsvermögen haben; auch das 4o-Modell scheitere ohne Suche, und erst mit Suchfunktion sei die richtige Antwort möglich. Daraus wird die Einsicht abgeleitet, dass es immer wichtiger wird, „das richtige Tool für das richtige Problem korrekt einzusetzen“

  • LLMs mögen gut darin sein, Existenz auf Basis sensorischer Eingaben zu erkennen, doch die Erkennung von absence sei schwierig, weil dafür gerade kein sensorischer Input vorliege. Dafür brauche es ein sehr starkes Weltmodell und Erwartungsstrukturen. Es wird vorgeschlagen, dass solche höherstufigen neurologischen Aufgaben derzeit womöglich noch eine einzigartige Fähigkeit organischer Lebewesen und nicht von LLMs sind

    • Bei LLMs könne es konstruktionsbedingt Konsistenzprobleme geben; ein Teil beruhe auf bloßem Auswendiglernen, andere Pfade eher auf fortgeschrittenem Pattern Matching

    • Im Vergleich zu Denken in Echtzeit wird angemerkt, dass LLMs auf einer „festen statischen“ Realität basierend schlussfolgern; auch der zeitliche Aspekt sei eine Grenze

    • Tatsächliche Abwesenheitserkennung stehe in enger Beziehung zum Gedächtnis. Wenn etwa ein Stift, der auf dem Schreibtisch lag, verschwunden ist, erkennt das Gehirn die Abwesenheit durch den Vergleich früherer sensorischer Eindrücke (die Erinnerung an den Stift) mit der aktuellen Situation. Derzeit sei thinking ein Merkmal, das nur organischen Lebewesen eigen sei