- REFRAG, das erste Forschungsergebnis von Meta Superintelligence (MSI), verbessert die bestehende RAG-Architektur (Retrieval-Augmented Generation) grundlegend und erreicht eine 30-fach schnellere Antwortgeschwindigkeit mit einem neuen Ansatz
- Der Kern besteht darin, Dokumentfragmente nicht als Tokens, sondern in Form von „Chunk Embeddings“ umzuwandeln, die ein LLM direkt verstehen kann, und bei Bedarf mithilfe eines Policy-Netzwerks nur Teile davon wiederherzustellen
- Dadurch werden KV-Cache- und Attention-Kosten massiv reduziert und die Latenz bis zum ersten Token (TTFT) gesenkt, was die UX verbessert und zugleich Betriebskosten spart
- Das Paper konzentriert sich nicht auf Innovationen in der Modellarchitektur, sondern auf Effizienz auf System- und Anwendungsebene und zeigt damit eine technische Richtung auf, die sofort realisierbaren ROI verspricht
- Damit werden Leistungsgrenzen und Kostenprobleme großer Modelle umgangen und das Potenzial sichtbar, die Wirtschaftlichkeit künftiger AI-Produkte neu zu definieren
Hintergrund zur Veröffentlichung des ersten MSI-Papers
- Das Forschungsinstitut Meta Superintelligence (MSI) zog mit Spitzentalenten aus der Branche und außergewöhnlich hohen Gehältern große Aufmerksamkeit auf sich
- Dass MSI als erstes Paper ein praktisches Thema aus dem Bereich RAG (retrieval-augmented generation) gewählt hat, ist sehr ungewöhnlich
- Die Branche hatte erwartet, dass MSI sich auf Leistungssteigerungen von Foundation Models oder die Entwicklung neuer Architekturen konzentrieren würde; umso überraschender ist die Wahl eines praxisnahen Themas mit unmittelbarem wirtschaftlichem Effekt
- RAG ist eine zentrale Komponente kommerzieller Services wie AI-Agenten, Suche, Kundensupport und Zusammenfassungen, bei denen Antwortlatenz und Kosten das Geschäftsmodell direkt beeinflussen
- Das Paper zeigt einen Weg, Kosten und Latenzzeiten von RAG-basierten AI-Produkten massiv zu senken und damit sofort ROI (Return on Investment) zu erzeugen
Technische Struktur von REFRAG
- 1. Beim bisherigen RAG-Verfahren werden relevante Dokumente (Chunks) aus einer Vektor-DB abgerufen, und das LLM verarbeitet alle Chunks als vollständige Tokenform
- 2. In REFRAG werden Dokumente zunächst in Chunks aufgeteilt (etwa 128 Tokens); anschließend wandelt ein leichtgewichtiger Encoder jeden Chunk in einen einzelnen Embedding-Vektor um und projiziert ihn in den Embedding-Raum des LLM
- Diese Embeddings können im Voraus berechnet und gecacht werden
- 3. Wenn ein Nutzer eine Anfrage stellt, werden relevante Chunks abgerufen
- Die meisten Chunks werden in Embedding-Form an das LLM übergeben, und
- nur ein sehr kleiner Teil der vom RL-basierten Policy-Netzwerk ausgewählten Chunks wird als vollständige Token-Sequenz expandiert und weitergegeben
- 4. Dieses Policy-Netzwerk wird auf ein RL-Ziel (Reinforcement Learning) optimiert und wählt innerhalb eines begrenzten Budgets die Chunks aus, die expandiert werden sollen
- Es wird mit einer Belohnungsfunktion trainiert, die die Perplexity senkt und zugleich die Generierungsqualität erhält
- 5. Das LLM erzeugt dann Text, indem es die empfangene Token-Sequenz (Anfrage + expandierte Chunks) mit mehreren Platzhaltern aus Einzelvektoren (komprimierte Chunks) kombiniert
- Im Ergebnis kann das LLM mit „Anfrage + einigen rekonstruierten Tokens + mehreren Embedding-Vektoren“ dieselbe Ausgabe mit kürzerem Input erzeugen
- Dadurch werden Cache-Nutzung, Attention-Rechenaufwand und initiale Antwortzeit deutlich reduziert
Technische Bedeutung und zentrale Einsichten
- Der Kern des Papers ist, dass das Policy-Netzwerk innerhalb des RAG-Prozesses weniger wichtige Chunks effektiv komprimiert und nur wichtige Teile wieder ausschreibt
- Die wichtigere verborgene Einsicht ist: Wenn Embeddings bereits in den internen Schichten eines LLM entstehen, können sie direkt übergeben werden, ohne sie erneut in natürliche Sprache zurückzuübersetzen
- Das heißt, das LLM verarbeitet Daten direkt in einem Repräsentationsraum, den es bereits versteht, entfernt dadurch redundante Komprimierungsschritte und erhöht die Geschwindigkeit drastisch, ohne Genauigkeitsverlust
- Zusammenfassen lässt sich das als Perspektive: Man optimiert nicht die Tokens, sondern verändert das Konzept von Tokens selbst
Bedeutung in der heutigen AI-Value-Chain
- Vergleich zweier Innovationsvektoren im LLM-Bereich
- Innovation auf Modellebene: neue Architekturen, größere Modelle, neues Pretraining
- hohes Risiko, hohe Erträge, lange Zeitleisten, hoher Kapitalbedarf
- Effizienz auf Applikations-/Systemebene: Inference-Optimierung, Retrieval-Techniken, Orchestrierung
- geringeres Risiko, sofortiger ROI, direkte Monetarisierbarkeit
- REFRAG steht für Letzteres und liefert klaren ROI durch höheren Durchsatz pro GPU, geringere Betriebskosten und bessere UX
- Unternehmen und Produktteams können durch die praktische Einführung von REFRAG mehr Throughput pro GPU, niedrigere Infrastrukturkosten und stärkere UX direkt testen
- Dieser Ansatz lässt sich unabhängig von Retriever und Reranker kombinieren und daher flexibel in bestehende RAG-Pipelines integrieren
- Gerade angesichts des intensiveren Wettbewerbs im Vector-DB-Markt und Branchenbewegungen wie Verkaufsspekulationen rund um Pinecone ist mehr RAG-Effizienz ein hochaktuelles Forschungsthema
Erwartbare Grenzen
- Komplexität von Training und Engineering
- Encoder + Projektion müssen ergänzt werden, und das LLM muss darauf trainiert werden, Embeddings zu verstehen (rekonstruktives Pretraining + SFT)
- Die selektive Policy ist als RL-Problem stabil, erhöht aber die Entwicklungs-Komplexität
- Grenzen der Kompression
- Aggressive Kompression führt letztlich zu Qualitätsverlust in Downstream-Aufgaben
- Es gibt einen Trade-off zwischen Embedding-Größe und Expandierungsfrequenz
- Freshness-Problem
- Vorab berechnete Chunk-Embeddings eignen sich für statische Korpora
- Bei häufig veränderten Daten braucht es eine Pipeline zur Neuberechnung der Embeddings oder eine Hybridstrategie
- Zu berücksichtigende Punkte je nach Use Case
- Zusammenfassungen sind eher grob; Aufgaben mit kritischer Präzision (juristische Schlussfolgerungen, exakte Zitate, sensible medizinische Fakten) müssen sorgfältig evaluiert werden
- In solchen Fällen könnte ein niedrigeres Kompressionsbudget nötig sein
Fazit und Implikationen
- Die Kernfrage des Papers: „Was wäre, wenn wir nicht versuchen, Token-Kosten zu optimieren, sondern stattdessen eine völlig andere Art von Tokens verwenden?“
- REFRAG schlägt eine praktische Innovation vor, die die Stückkosten von AI-Produkten verändert, indem es „das Konzept der vom LLM gelesenen Tokens neu definiert“, die strukturellen Grenzen von RAG entschärft und
- Künftige Erweiterungsmöglichkeiten
- Wenn ein LLM auf der READ-Seite embedding-nativ werden kann, könnte es dann auch auf der WRITE-Seite embedding-nativ werden und Agenten insgesamt um das 30-Fache beschleunigen?
- Die Kosten pro Token von Embedding-Modellen sind nahezu null – wurde durch den Wechsel auf eine andere Architektur der Tokenpreis drastisch gesenkt? Welche Nachteile gibt es?
- REFRAG erinnert daran, dass nicht jede Innovation aus größeren Modellen kommt
- RAG im großen Maßstab günstiger und schneller zu machen, ist ein direkter Hebel für die Produktökonomie
- Die Branche wird Teams belohnen, die solche Erfolge operationalisieren
1 Kommentare
Hacker-News-Kommentare
Es wird erklärt, dass diese Arbeit nichts mit Superintelligence zu tun hat, sondern von einem Team stammt, das bereits vor der Umstrukturierung daran geforscht hat und die Veröffentlichung erst nach der Umbenennung erfolgte. Viele hatten erwartet, dass Meta keine Papers mehr veröffentlichen und wie OpenAI werden würde, doch Meta veröffentlicht weiterhin zügig Papers und stellt Open-Weight-Modelle bereit
Es wird betont, dass das, was Meta veröffentlicht, kein Open Source ist, sondern Open-Weight-Modelle. Sogar diese Gewichte werden unter Lizenzen veröffentlicht, die restriktiver sind als Apache 2
Es wird betont, dass MSL (das betreffende Team) nicht nur aus ein paar bekannten Namen besteht
In Diskussionen über RAG (Retrieval-Augmented Generation) herrscht Verwirrung darüber, dass der Begriff in unterschiedlichen Bedeutungen verwendet wird. Für mich ist RAG ein System, bei dem aus einem vordefinierten Dokumentenspeicher für jedes Dokumentfragment Vektor-Embeddings erzeugt werden und je nach Bedarf nur bestimmte Fragmente in den Kontext aufgenommen werden. Oder eine Funktion in einer LLM-Chat-Oberfläche, die per Keyword im Web sucht und vorübergehend nur kontextrelevante Dokumente einfügt. Ich frage mich, was passiert, wenn lange Kontextfenster unterstützt werden. Wenn man alle Informationen auf einmal in den Kontext packt, fürchte ich einen Verlust an Vielfalt; vielleicht hilft das der Konsistenz, aber letztlich bleibt es doch eine Form von RAG, zu entscheiden, welche Informationen behalten und welche verworfen werden. Ich würde dazu gern eine Erklärung von Fachleuten hören
Technisch ist RAG jede Methode, die die Generierung durch externe Suche unterstützt. Üblicherweise wird der Begriff aber enger für Ansätze mit Vector DB verwendet. Alles in große Kontextfenster zu legen, ist unpraktisch. Die Verarbeitung dauert länger, und wenn es zu viele Informationen gibt, fällt es dem Modell schwerer, die benötigten zu finden. Deshalb bleibt der „klassische“ RAG-Ansatz nützlich, wenn niedrige Latenz oder Speichergrenzen wichtig sind
Der Kern ist Adaptivität. Der Hauptunterschied zwischen RAG und Nicht-RAG besteht darin, ob man die Frage zum Zeitpunkt der Indexerstellung kennt und ob ein gegenseitiger Vergleich der abgerufenen Dokumente sowie eine Verfeinerung der Frage möglich sind. Nicht-RAG ist allgemeiner und leichter mit Deep Learning zu optimieren, etwa indem Frage und Dokumente gleichzeitig mit mehrschichtigen nicht-kausalen Transformern betrachtet werden. RAG ist dagegen schnell und günstig, aber weil es externe Tools nutzt, ist End-to-End-Training schwierig und erfordert eher belohnungsbasiertes Lernen wie RL. Bei RAG sind die Dokumente unabhängig, und beim Indexieren ist die Frage noch nicht bekannt. Es gibt auch hybride Ansätze, bei denen RAG-Ausgaben in Nicht-RAG eingespeist und kombiniert werden. Nicht-RAG braucht große Datensätze, aber wenn man das gesamte Web trainiert, verbessert sich die Leistung weiter. Verbesserungen in spezifischen Fällen sind dort sogar leichter. RAG hat Stärken bei Eingabekontrolle und strukturierten Daten und ist gut darin, Worst-Case-Szenarien zu vermeiden, aber Verbesserungen im Best Case sind schwieriger
Ich glaube nicht, dass man unendlich viele Informationen in den Kontext packen kann. Meiner Erfahrung nach wird GPT-5 schon nach ein paar Seiten schnell verwirrt. Selbst wenn man so viel hineingibt, merkt es sich das nicht
Ich glaube nicht, dass tatsächlich jemand sagt: „RAG ist tot.“ Das gesamte Internet in den LLM-Kontext zu packen, ist unmöglich, und je mehr man hineinlegt, desto höher werden nur die Kosten
Meta hatte Spitzenkräfte, scheint deren Potenzial aber nicht voll genutzt zu haben. Meiner Ansicht nach könnte das Unternehmen im AI-Wettbewerb weiter vorn liegen, wenn es sich weniger auf Leistungskennzahlen fixieren und Forschenden mehr Autonomie geben würde. Das neu zusammengestellte Team wirkt auf mich eher von Menschen geprägt, die gut im Strukturieren sind und sich stärker für Geld interessieren. Ehrlich gesagt ist diese Tendenz in jedem Big-Tech-Forschungslabor deutlich vorhanden. Diese Organisationen sind zu risikoscheu. Früher gab man Forschenden Freiheit, und deshalb gibt es das Silicon Valley von heute. Einschließlich mir selbst würden Hunderte ML-Forschende gern auch für deutlich weniger Gehalt arbeiten, wenn man ihnen Autonomie und Ressourcen gäbe. Meta sollte das Geld, das es derzeit investiert, breiter einsetzen und zu den Prinzipien zurückkehren, die das Silicon Valley groß gemacht haben
Meiner Meinung nach zeigt sich mit zunehmender Konkurrenz ein Phänomen, bei dem eher Menschen an der Spitze bleiben, die das System gut ausnutzen können, statt derjenigen mit der „echten“ Spitzenleistung. Das sieht man schon bei Bewerbungen bei GAFAM oder auch bei Tinder
Selbst wenn Unternehmenslabore Forschenden Freiheit geben, scheint das dem eigentlichen Geschäft nicht wirklich zu helfen. Beispiele wie Bell Labs oder Microsoft Research zeigen, dass dort zwar viel großartige Forschung entstand, aber nur sehr selten etwas direkt mit dem Kerngeschäft der Unternehmen verknüpft war. Die These ist, dass AI-Forschung Meta keinen realen Ertrag oder Wettbewerbsvorteil bringt, sondern vor allem das kollektive Wissen vergrößert. Aus Unternehmenssicht passt dieser Ansatz nicht gut. Und wer heute Forschender in der Wissenschaft wird, ist ebenfalls mit Studierendenbetreuung und Meetings ausgelastet
Ich habe Zweifel an der Aussage, dass sich die Entwicklung von AI verlangsamt habe. Nach welchem Maßstab wird das beurteilt? Wer das Feld tatsächlich verfolgt, kann dieser Behauptung kaum zustimmen
Selbst unter dem Druck bei Meta habe ich mich immer gefragt, ob Mathematiker mit so gewaltigen Gehältern überhaupt Zeit zum freien Denken haben
Die Wahl von Alex Wang fand ich interessant. Es gibt viele hervorragende CEOs von AI-Forschungslaboren, und Wang hat sicher beeindruckende Seiten, aber im Grunde war es vor allem MTurk plus gutes Timing am Markt. Als CEO, der AGI anführen soll, wirkt er nicht passend
Es ist überraschend, dass das Thema des ersten Papers des neuen Labors ein so praktisches und bodenständiges RAG-Thema war. Ich würde normalerweise erwarten, dass ein neues Labor anfangs erst einmal ein paar Papers zu Themen veröffentlicht, an denen die einzelnen Mitglieder ohnehin gearbeitet haben, und dass wirklich innovative Forschung erst dann kommt, wenn Teamwork und Synergien ausreichend gewachsen sind. Wenn man dem wichtigen „ersten Paper“ zu viel Bedeutung gibt, kann das den Start unnötig belasten
Ich frage mich, ob das Paper aus Metas Superintelligence-Team tatsächlich direkt dort konzipiert wurde oder ob es von Personen stammt, die schon vorher daran gearbeitet und es nach dem Teamwechsel veröffentlicht haben. Ich vermute eher Ersteres
Es wird eine YouTube-Erklärung zum RAG-Paper zusammengefasst und geteilt Videolink
In den Grafiken und Tabellen des Papers war nicht sofort ein Vergleich mit klassischen, einfachen statistischen Verfahren zur Kontextkompression wie TF-IDF oder bloßer Wortüberlappung zu sehen. In der Industrie sind solche einfachen Methoden sehr wichtig, wenn sie nahezu dieselbe Leistung bei einer 10-fachen Reduktion der Informationsmenge liefern
Ich hatte schon einmal eine ähnliche Idee und habe sie implementiert. Künftig braucht es ein Framework, das dies vereinfacht, damit LLMs verschiedene Embedding-Formate leichter verarbeiten können
Es wird ein Link zu einem Open-Source-Projekt rund um RAG vorgestellt REFRAG
Der Artikeltitel ist zu reißerisch; gewünscht wird ein informativerer Titel, der weniger auf Klicks abzielt