2 Punkte von GN⁺ 2026-01-05 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Es wurde eine neue Inferenzstrategie RLM (Recursive Language Model) vorgeschlagen, die es Large Language Models (LLMs) ermöglicht, sehr lange Eingabe-Prompts zu verarbeiten
  • RLM behandelt lange Prompts als Teil der externen Umgebung und erlaubt dem Modell, sie programmatisch zu durchsuchen, zu zerlegen und rekursiv aufzurufen
  • Dieser Ansatz überwindet die Grenzen des bisherigen Kontextfensters, verarbeitet Eingaben im Umfang von bis zu mehreren zehn Millionen Tokens und verbessert die Qualität gegenüber bestehenden LLMs deutlich
  • Experimente zeigen, dass RLMs auf Basis von GPT-5 und Qwen3-Coder bei verschiedenen Langtext-Aufgaben Leistungssteigerungen im zweistelligen Prozentbereich erzielen, bei ähnlichen oder niedrigeren Kosten
  • Der Ansatz gilt als allgemeine Methode, um die Grenzen der Verarbeitung langer Kontexte zu überwinden und die Inferenzfähigkeit von LLMs stark zu erweitern

Überblick über RLM

  • Recursive Language Model (RLM) ist so konzipiert, dass ein LLM lange Eingaben nicht direkt in das neuronale Netz einspeist, sondern sie als Variablen einer externen Umgebung behandelt und mit ihnen interagiert
    • Der Eingabe-Prompt P wird als Variable in eine Python-REPL-Umgebung geladen, und das LLM durchsucht, zerlegt und ruft ihn per Code rekursiv auf
    • Das LLM erkennt den Zustand der REPL-Umgebung (z. B. die String-Länge), beobachtet die Nebenwirkungen der Codeausführung und löst das Problem schrittweise
  • Diese Struktur löst das Problem, dass bestehende Kontextkomprimierungs-(compaction)- oder zusammenfassungsbasierte Ansätze Details verlieren
  • RLM wird als allgemeines Inferenzparadigma vorgestellt, das sowohl Eingabe- als auch Ausgabelänge skalieren kann

Grenzen bestehender Ansätze

  • Bestehende LLMs zeigen aufgrund der Begrenzung des Kontextfensters bei langen Eingaben das Phänomen des context rot, bei dem die Leistung stark abfällt
  • Kontextkomprimierungs-(compaction)-Verfahren wiederholen ab einer bestimmten Länge Zusammenfassungen, sind aber für Aufgaben ungeeignet, die Zugriff auf feine Details erfordern
  • RLM kann die Eingabegröße über die Modellgrenzen hinaus erweitern, indem es den Prompt als externes Objekt behandelt

Experimentelles Setup

  • Bewertete Modelle: GPT-5 (OpenAI, 2025) und Qwen3-Coder-480B-A35B (Team, 2025)
  • Vergleichsverfahren:
    • direkter Aufruf des Basis-LLM
    • Summary agent
    • suchbasierter Agent mit CodeAct + BM25
    • RLM (mit REPL-Umgebung) und RLM (REPL, ohne rekursive Aufrufe)
  • In den GPT-5-Experimenten wurde GPT-5-mini für rekursive Aufrufe und GPT-5 als Root-Modell verwendet, um ein Gleichgewicht zwischen Leistung und Kosten zu erreichen

Evaluierungsaufgaben

  • S-NIAH: einzelnes „needle-in-a-haystack“-Problem mit konstanten Verarbeitungskosten unabhängig von der Eingabelänge
  • BrowseComp-Plus: Multi-Hop-Fragebeantwortung über mehrere Dokumente hinweg, wobei die richtige Antwort unter 1000 Dokumenten enthalten ist
  • OOLONG: Langtext-Inferenzaufgabe, bei der fast alle Elemente der Eingabe semantisch transformiert und integriert werden müssen; die Verarbeitungskosten steigen linear mit der Eingabelänge
  • OOLONG-Pairs: Variante von OOLONG, die die Kombination von Informationen paarweise erfordert; die Verarbeitungskosten steigen quadratisch mit der Eingabelänge
  • LongBench-v2 CodeQA: Multiple-Choice-Aufgabe, die das Verständnis eines Code-Repositorys erfordert und selbst für aktuelle Modelle schwierig ist

Zentrale Ergebnisse

  • RLM zeigt im Vergleich zu GPT-5 selbst bei langen Kontexten kaum Leistungsabfall
    • GPT-5 verliert mit wachsender Eingabelänge und steigender Aufgabenkomplexität schnell an Leistung
    • RLM verarbeitet auch Eingaben oberhalb der 272K-Token-Grenze (bis zu 10M+ Tokens) effektiv
  • Bei allen Langtext-Aufgaben erzielt RLM gegenüber anderen Methoden Leistungssteigerungen im zweistelligen Bereich
  • Auch die Kosteneffizienz bleibt erhalten: Die Kosten pro Anfrage sind ähnlich wie bei bestehenden Ansätzen oder sogar niedriger

Komplexitätsanalyse von Langtext-Aufgaben

  • Das effektive Kontextfenster eines LLM kann abhängig von der Aufgabenkomplexität kürzer sein als die physische Grenze
    • Ein einfaches NIAH-Problem lässt sich auch bei 1M+ Tokens lösen
    • Komplexe Aufgaben vom Typ OOLONG zeigen schon bei deutlich kürzeren Längen Leistungsabfälle
  • Daher müssen Informationsdichte der Aufgabe und Eingabelänge in ihrem Zusammenhang gemeinsam betrachtet werden

Fazit

  • RLM erweitert die Inferenzfähigkeit von LLMs rekursiv und ermöglicht so die Verarbeitung von extrem langen Eingaben, die bestehende Modelle nicht bewältigen können
  • Die Behandlung des Prompts als Umgebungsobjekt ist die zentrale Innovation und löst strukturelle Grenzen der Langtextverarbeitung
  • Vorgestellt wird es als allgemeines Inferenz-Framework, das bei verschiedenen Modellen und Aufgaben ein Gleichgewicht zwischen Leistung, Kosten und Skalierbarkeit erreicht

Noch keine Kommentare.

Noch keine Kommentare.