RAG ist nicht tot

(hamel.dev)

33 Punkte von GN⁺ 2025-07-17 | 1 Kommentare | Auf WhatsApp teilen

> Die Zukunft von RAG liegt nicht in „größeren Kontextfenstern“, sondern in besserem Retrieval

Die Aussage „RAG Is Dead“ trifft nur auf einfache RAG-Implementierungen nach Art von 2023 zu; das eigentliche Problem ist Single-Vector-basiertes Retrieval mit hohem Informationsverlust
Bestehende IR-Evaluierungsmetriken sind für RAG ungeeignet; es braucht neue Bewertungskriterien mit Fokus auf Faktenabdeckung, Vielfalt und Relevanz
Retriever für RAG entwickeln sich über einfaches Matching hinaus zu Systemen, die Anweisungen verstehen und auf Basis von Schlussfolgerungen relevante Dokumente auswählen
Late-Interaction-Modelle im ColBERT-Stil behalten Repräsentationen auf Token-Ebene ohne Informationskompression bei, sodass kleine Modelle große Modelle übertreffen können
Statt ein perfektes Embedding zu suchen, werden mehrere Indizes für unterschiedliche Repräsentationen und intelligente Routing-Strukturen zum neuen Standard

Why the future of RAG lies in better retrieval, not bigger context windows

Gegenrede zur Behauptung „RAG ist tot“

> Part 1. I don’t use RAG, I just retrieve documents - Nicht RAG selbst ist tot, sondern simples Vektor-Retrieval

Hamel und Ben Clavié argumentieren, dass RAG nicht tot ist und es vielmehr Zeit ist, dass sich Retrieval-Architekturen weiterentwickeln
Der Ansatz, Dokumente in eine Vector DB zu legen und per Kosinus-Ähnlichkeit zu suchen, ist überholt und führt zu hohem Informationsverlust
Da Informationen in LLMs nach dem Trainingszeitpunkt festgeschrieben sind, bleibt suchbasiertes Einspeisen von Informationen (RAG) weiterhin wichtig
Allein das Vergrößern des Kontextfensters ist ein ineffizienter Weg, um sämtliche Informationen einzuspeisen

Falsche Evaluierungsmetriken

> Part 2. Modern IR Evals For RAG - Erläutert, warum traditionelle IR-Evaluierungsmetriken nicht zu RAG passen, und stellt FreshStack vor

Nandan Thakur weist darauf hin, dass traditionelle Evaluierungsmetriken der Information Retrieval (IR) für RAG ungeeignet sind
- Benchmarks wie BEIR optimieren nur darauf, das erstplatzierte Dokument zu finden
- RAG muss Faktenabdeckung, verschiedene Perspektiven und kontextuelle Relevanz gemeinsam berücksichtigen
- Als neues Evaluierungssystem dafür wird FreshStack vorgeschlagen

Retriever, die schlussfolgern

> Part 3. Optimizing Retrieval with Reasoning Models - Entwurf von Retrievern, die Anweisungen verstehen und schlussfolgern können

Orion Wellers Rank1-System versteht komplexe Anweisungen wie „Dokumente, die Metaphern zum Datenschutz enthalten“
Statt bloßer Ähnlichkeitsberechnung erzeugt es einen expliziten Reasoning Trace, der die Grundlage für die Relevanzbewertung liefert
So können Dokumente, die mit bestehenden Suchsystemen nicht auffindbar wären, auf Basis von Verständnis und Schlussfolgerung gefunden werden

Das Potenzial von Late-Interaction-Modellen

> Part 4. Late Interaction Models For RAG - Strukturen wie ColBERT erhalten Repräsentationen ohne Informationsverlust

Antoine Chaffin zeigt mit Late-Interaction-basierten Modellen wie ColBERT, dass
- Dokumente nicht in einen einzelnen Vektor komprimiert werden, sondern Informationen auf Token-Ebene erhalten bleiben
- es dadurch sogar Fälle gibt, in denen ein Modell mit 150M Parametern bei der Schlussfolgerungsleistung besser ist als ein 7B-Modell
Entscheidend ist eine Repräsentationsstruktur, die Informationen nicht verwirft, sondern bewahrt

Nicht eine Karte, sondern mehrere Karten sind nötig

> Part 5. RAG with Multiple Representations - Bessere Retrieval-Leistung durch mehrere Indizes für unterschiedliche Zwecke

Bryan Bischof und Ayush Chaurasia weisen darauf hin, dass ein einziges Embedding nicht ausreicht, um unterschiedliche Retrieval-Ziele abzudecken
- Beispiel: bei der Bildsuche
  - textuelle Beschreibung
  - poetische Interpretation
  - ähnliche Bilder
    werden jeweils in unterschiedlichen Indizes gesucht
Fazit: Nicht nach dem perfekten Embedding suchen, sondern ein System aus mehreren Indizes plus intelligentem Routing für verschiedene Repräsentationsformen aufbauen

Die künftige Strategie für RAG

Die Zukunft von RAG wird durch die folgenden vier Punkte beschrieben:

Neue Evaluierungskriterien auf Basis des jeweiligen Nutzungszwecks aufbauen
Retriever, die Anweisungen verstehen und schlussfolgern
Strukturen, die Informationen ohne Kompression direkt repräsentieren
Indizes für unterschiedliche Zwecke kombinieren und intelligent routen

Annotated Notes From the Series

Die Reihe besteht aus fünf Teilen und bietet Zusammenfassungen der wichtigsten Folien mit Zeitstempeln. Siehe die Links zu den einzelnen Teilen

Teil	Titel	Beschreibung
Part 1	I don’t use RAG, I just retrieve documents	Nicht RAG selbst ist tot, sondern simples Vektor-Retrieval
Part 2	Modern IR Evals For RAG	Erläutert, warum traditionelle IR-Evaluierungsmetriken nicht zu RAG passen, und stellt FreshStack vor
Part 3	Optimizing Retrieval with Reasoning Models	Entwurf von Retrievern, die Anweisungen verstehen und schlussfolgern können
Part 4	Late Interaction Models For RAG	Strukturen wie ColBERT erhalten Repräsentationen ohne Informationsverlust
Part 5	RAG with Multiple Representations	Bessere Retrieval-Leistung durch mehrere Indizes für unterschiedliche Zwecke

1 Kommentare

ide127 2025-07-18

"Suche nicht nach dem perfekten Embedding, sondern nach einem Multi-Index- + intelligentes-Routing-System, das auf verschiedene Darstellungsformen abgestimmt ist"

Weil das eben nicht so einfach ist...