LEAF: 97 % der OpenAI-Embedding-Leistung mit 23M Parametern, läuft nur auf der CPU

LEAF (Lightweight Embedding Alignment Framework) ist ein von MongoDB Research entwickeltes Embedding-Modell, das mithilfe von Knowledge Distillation eine innovative Lösung für die Kosten- und Geschwindigkeitsprobleme von RAG-(Retrieval-Augmented Generation)-Systemen bietet. Während bei bestehenden leistungsstarken Embedding-Modellen GPU-Server unverzichtbar sind, ermöglicht LEAF mit einem kleinen Modell im Umfang von 23M Parametern 97 % der Leistung von OpenAIs text-embedding-3-large und kann dabei ausschließlich auf der CPU laufen.

Hintergrund und Problemstellung

In RAG-Systemen darf die Dokumentenindizierung langsam sein, Nutzeranfragen müssen jedoch innerhalb weniger hundert Millisekunden beantwortet werden.
Der Einsatz leistungsstarker Modelle macht GPU-Kosten zur Belastung, während ein Wechsel zu günstigeren Modellen zu Leistungseinbußen führt.
LEAF löst dieses Problem durch „Kompatibilität zwischen Lehrer- und Schüler-Modellen“.
Anders als bei herkömmlichen Distillation-Methoden werden nicht alle Layer ausgerichtet, sondern nur die endgültige Ausgabe, also das Embedding. Dadurch können Dokumente mit einem großen Teacher-Modell indiziert und Anfragen mit einem kleinen Student-Modell schnell auf der CPU verarbeitet werden; außerdem lassen sich bestehende Indizes bei einem Modellwechsel weiterverwenden.
Das Training ist ohne Beschriftung von Trainingsdaten auf nur einer A100-GPU möglich, was die Zugänglichkeit erhöht.

Veröffentlichte Modelle und Leistung

MongoDB hat zwei Modelle unter der Apache-2.0-Lizenz veröffentlicht:

mdbr-leaf-ir: Für Suche/RAG optimiertes Modell. Im BEIR-Benchmark erreicht es 53,55 Punkte (über OpenAI small mit 51,08 Punkten, 97 % von large mit 55,43 Punkten).
mdbr-leaf-mt: Allgemeines Modell (Klassifikation/Clustering). Im MTEB v2 erreicht es 63,97 Punkte (nahe an OpenAI small mit 64,56 Punkten) und liefert die beste Leistung unter Modellen mit weniger als 30M Parametern.

Diese Modelle verarbeiten auf einer CPU mit 2 Kernen 120 Anfragen pro Sekunde und benötigen nur 87 MB Speicher, wodurch ein Offline-Betrieb auf Smartphones oder IoT-Geräten möglich ist.

Fazit und Implikationen

LEAF reduziert die Abhängigkeit von GPUs, demokratisiert leistungsstarke Embeddings und fördert die Umsetzung von RAG in Startups oder Edge-Computing-Umgebungen.
Die Einschränkung liegt in einem Leistungsverlust von 3 % gegenüber dem Originalmodell, was in den meisten Praxisszenarien vernachlässigbar ist.
Modell und Trainingsrezept lassen sich über Hugging Face herunterladen, und Fine-Tuning mit Domänendaten ist unkompliziert möglich.

LEAF: 97 % der OpenAI-Embedding-Leistung mit 23M Parametern, läuft nur auf der CPU

Hintergrund und Problemstellung

Veröffentlichte Modelle und Leistung

Fazit und Implikationen

Verwandte Beiträge

1 Kommentare