Rekursive Sprachmodelle (Recursive Language Models)

(arxiv.org)

2 Punkte von GN⁺ 2026-01-05 | Noch keine Kommentare. | Auf WhatsApp teilen

Es wurde eine neue Inferenzstrategie RLM (Recursive Language Model) vorgeschlagen, die es Large Language Models (LLMs) ermöglicht, sehr lange Eingabe-Prompts zu verarbeiten
RLM behandelt lange Prompts als Teil der externen Umgebung und erlaubt dem Modell, sie programmatisch zu durchsuchen, zu zerlegen und rekursiv aufzurufen
Dieser Ansatz überwindet die Grenzen des bisherigen Kontextfensters, verarbeitet Eingaben im Umfang von bis zu mehreren zehn Millionen Tokens und verbessert die Qualität gegenüber bestehenden LLMs deutlich
Experimente zeigen, dass RLMs auf Basis von GPT-5 und Qwen3-Coder bei verschiedenen Langtext-Aufgaben Leistungssteigerungen im zweistelligen Prozentbereich erzielen, bei ähnlichen oder niedrigeren Kosten
Der Ansatz gilt als allgemeine Methode, um die Grenzen der Verarbeitung langer Kontexte zu überwinden und die Inferenzfähigkeit von LLMs stark zu erweitern

Überblick über RLM

Recursive Language Model (RLM) ist so konzipiert, dass ein LLM lange Eingaben nicht direkt in das neuronale Netz einspeist, sondern sie als Variablen einer externen Umgebung behandelt und mit ihnen interagiert
- Der Eingabe-Prompt P wird als Variable in eine Python-REPL-Umgebung geladen, und das LLM durchsucht, zerlegt und ruft ihn per Code rekursiv auf
- Das LLM erkennt den Zustand der REPL-Umgebung (z. B. die String-Länge), beobachtet die Nebenwirkungen der Codeausführung und löst das Problem schrittweise
Diese Struktur löst das Problem, dass bestehende Kontextkomprimierungs-(compaction)- oder zusammenfassungsbasierte Ansätze Details verlieren
RLM wird als allgemeines Inferenzparadigma vorgestellt, das sowohl Eingabe- als auch Ausgabelänge skalieren kann

Bestehende LLMs zeigen aufgrund der Begrenzung des Kontextfensters bei langen Eingaben das Phänomen des context rot, bei dem die Leistung stark abfällt
Kontextkomprimierungs-(compaction)-Verfahren wiederholen ab einer bestimmten Länge Zusammenfassungen, sind aber für Aufgaben ungeeignet, die Zugriff auf feine Details erfordern
RLM kann die Eingabegröße über die Modellgrenzen hinaus erweitern, indem es den Prompt als externes Objekt behandelt

Bewertete Modelle: GPT-5 (OpenAI, 2025) und Qwen3-Coder-480B-A35B (Team, 2025)
Vergleichsverfahren:
- direkter Aufruf des Basis-LLM
- Summary agent
- suchbasierter Agent mit CodeAct + BM25
- RLM (mit REPL-Umgebung) und RLM (REPL, ohne rekursive Aufrufe)
In den GPT-5-Experimenten wurde GPT-5-mini für rekursive Aufrufe und GPT-5 als Root-Modell verwendet, um ein Gleichgewicht zwischen Leistung und Kosten zu erreichen

S-NIAH: einzelnes „needle-in-a-haystack“-Problem mit konstanten Verarbeitungskosten unabhängig von der Eingabelänge
BrowseComp-Plus: Multi-Hop-Fragebeantwortung über mehrere Dokumente hinweg, wobei die richtige Antwort unter 1000 Dokumenten enthalten ist
OOLONG: Langtext-Inferenzaufgabe, bei der fast alle Elemente der Eingabe semantisch transformiert und integriert werden müssen; die Verarbeitungskosten steigen linear mit der Eingabelänge
OOLONG-Pairs: Variante von OOLONG, die die Kombination von Informationen paarweise erfordert; die Verarbeitungskosten steigen quadratisch mit der Eingabelänge
LongBench-v2 CodeQA: Multiple-Choice-Aufgabe, die das Verständnis eines Code-Repositorys erfordert und selbst für aktuelle Modelle schwierig ist

RLM zeigt im Vergleich zu GPT-5 selbst bei langen Kontexten kaum Leistungsabfall
- GPT-5 verliert mit wachsender Eingabelänge und steigender Aufgabenkomplexität schnell an Leistung
- RLM verarbeitet auch Eingaben oberhalb der 272K-Token-Grenze (bis zu 10M+ Tokens) effektiv
Bei allen Langtext-Aufgaben erzielt RLM gegenüber anderen Methoden Leistungssteigerungen im zweistelligen Bereich
Auch die Kosteneffizienz bleibt erhalten: Die Kosten pro Anfrage sind ähnlich wie bei bestehenden Ansätzen oder sogar niedriger

Das effektive Kontextfenster eines LLM kann abhängig von der Aufgabenkomplexität kürzer sein als die physische Grenze
- Ein einfaches NIAH-Problem lässt sich auch bei 1M+ Tokens lösen
- Komplexe Aufgaben vom Typ OOLONG zeigen schon bei deutlich kürzeren Längen Leistungsabfälle
Daher müssen Informationsdichte der Aufgabe und Eingabelänge in ihrem Zusammenhang gemeinsam betrachtet werden

RLM erweitert die Inferenzfähigkeit von LLMs rekursiv und ermöglicht so die Verarbeitung von extrem langen Eingaben, die bestehende Modelle nicht bewältigen können
Die Behandlung des Prompts als Umgebungsobjekt ist die zentrale Innovation und löst strukturelle Grenzen der Langtextverarbeitung
Vorgestellt wird es als allgemeines Inferenz-Framework, das bei verschiedenen Modellen und Aufgaben ein Gleichgewicht zwischen Leistung, Kosten und Skalierbarkeit erreicht