RAG ist nicht tot
(hamel.dev)> Die Zukunft von RAG liegt nicht in „größeren Kontextfenstern“, sondern in besserem Retrieval
- Die Aussage „RAG Is Dead“ trifft nur auf einfache RAG-Implementierungen nach Art von 2023 zu; das eigentliche Problem ist Single-Vector-basiertes Retrieval mit hohem Informationsverlust
- Bestehende IR-Evaluierungsmetriken sind für RAG ungeeignet; es braucht neue Bewertungskriterien mit Fokus auf Faktenabdeckung, Vielfalt und Relevanz
- Retriever für RAG entwickeln sich über einfaches Matching hinaus zu Systemen, die Anweisungen verstehen und auf Basis von Schlussfolgerungen relevante Dokumente auswählen
- Late-Interaction-Modelle im ColBERT-Stil behalten Repräsentationen auf Token-Ebene ohne Informationskompression bei, sodass kleine Modelle große Modelle übertreffen können
- Statt ein perfektes Embedding zu suchen, werden mehrere Indizes für unterschiedliche Repräsentationen und intelligente Routing-Strukturen zum neuen Standard
Why the future of RAG lies in better retrieval, not bigger context windows
Gegenrede zur Behauptung „RAG ist tot“
> Part 1. I don’t use RAG, I just retrieve documents - Nicht RAG selbst ist tot, sondern simples Vektor-Retrieval
- Hamel und Ben Clavié argumentieren, dass RAG nicht tot ist und es vielmehr Zeit ist, dass sich Retrieval-Architekturen weiterentwickeln
- Der Ansatz, Dokumente in eine Vector DB zu legen und per Kosinus-Ähnlichkeit zu suchen, ist überholt und führt zu hohem Informationsverlust
- Da Informationen in LLMs nach dem Trainingszeitpunkt festgeschrieben sind, bleibt suchbasiertes Einspeisen von Informationen (RAG) weiterhin wichtig
- Allein das Vergrößern des Kontextfensters ist ein ineffizienter Weg, um sämtliche Informationen einzuspeisen
Falsche Evaluierungsmetriken
> Part 2. Modern IR Evals For RAG - Erläutert, warum traditionelle IR-Evaluierungsmetriken nicht zu RAG passen, und stellt FreshStack vor
- Nandan Thakur weist darauf hin, dass traditionelle Evaluierungsmetriken der Information Retrieval (IR) für RAG ungeeignet sind
- Benchmarks wie BEIR optimieren nur darauf, das erstplatzierte Dokument zu finden
- RAG muss Faktenabdeckung, verschiedene Perspektiven und kontextuelle Relevanz gemeinsam berücksichtigen
- Als neues Evaluierungssystem dafür wird FreshStack vorgeschlagen
Retriever, die schlussfolgern
> Part 3. Optimizing Retrieval with Reasoning Models - Entwurf von Retrievern, die Anweisungen verstehen und schlussfolgern können
- Orion Wellers Rank1-System versteht komplexe Anweisungen wie „Dokumente, die Metaphern zum Datenschutz enthalten“
- Statt bloßer Ähnlichkeitsberechnung erzeugt es einen expliziten Reasoning Trace, der die Grundlage für die Relevanzbewertung liefert
- So können Dokumente, die mit bestehenden Suchsystemen nicht auffindbar wären, auf Basis von Verständnis und Schlussfolgerung gefunden werden
Das Potenzial von Late-Interaction-Modellen
> Part 4. Late Interaction Models For RAG - Strukturen wie ColBERT erhalten Repräsentationen ohne Informationsverlust
- Antoine Chaffin zeigt mit Late-Interaction-basierten Modellen wie ColBERT, dass
- Dokumente nicht in einen einzelnen Vektor komprimiert werden, sondern Informationen auf Token-Ebene erhalten bleiben
- es dadurch sogar Fälle gibt, in denen ein Modell mit 150M Parametern bei der Schlussfolgerungsleistung besser ist als ein 7B-Modell
- Entscheidend ist eine Repräsentationsstruktur, die Informationen nicht verwirft, sondern bewahrt
Nicht eine Karte, sondern mehrere Karten sind nötig
> Part 5. RAG with Multiple Representations - Bessere Retrieval-Leistung durch mehrere Indizes für unterschiedliche Zwecke
- Bryan Bischof und Ayush Chaurasia weisen darauf hin, dass ein einziges Embedding nicht ausreicht, um unterschiedliche Retrieval-Ziele abzudecken
- Beispiel: bei der Bildsuche
- textuelle Beschreibung
- poetische Interpretation
- ähnliche Bilder
werden jeweils in unterschiedlichen Indizes gesucht
- Beispiel: bei der Bildsuche
- Fazit: Nicht nach dem perfekten Embedding suchen, sondern ein System aus mehreren Indizes plus intelligentem Routing für verschiedene Repräsentationsformen aufbauen
Die künftige Strategie für RAG
Die Zukunft von RAG wird durch die folgenden vier Punkte beschrieben:
- Neue Evaluierungskriterien auf Basis des jeweiligen Nutzungszwecks aufbauen
- Retriever, die Anweisungen verstehen und schlussfolgern
- Strukturen, die Informationen ohne Kompression direkt repräsentieren
- Indizes für unterschiedliche Zwecke kombinieren und intelligent routen
Annotated Notes From the Series
Die Reihe besteht aus fünf Teilen und bietet Zusammenfassungen der wichtigsten Folien mit Zeitstempeln. Siehe die Links zu den einzelnen Teilen
| Teil | Titel | Beschreibung |
|---|---|---|
| Part 1 | I don’t use RAG, I just retrieve documents | Nicht RAG selbst ist tot, sondern simples Vektor-Retrieval |
| Part 2 | Modern IR Evals For RAG | Erläutert, warum traditionelle IR-Evaluierungsmetriken nicht zu RAG passen, und stellt FreshStack vor |
| Part 3 | Optimizing Retrieval with Reasoning Models | Entwurf von Retrievern, die Anweisungen verstehen und schlussfolgern können |
| Part 4 | Late Interaction Models For RAG | Strukturen wie ColBERT erhalten Repräsentationen ohne Informationsverlust |
| Part 5 | RAG with Multiple Representations | Bessere Retrieval-Leistung durch mehrere Indizes für unterschiedliche Zwecke |
1 Kommentare
"Suche nicht nach dem perfekten Embedding, sondern nach einem Multi-Index- + intelligentes-Routing-System, das auf verschiedene Darstellungsformen abgestimmt ist"
Weil das eben nicht so einfach ist...