- Empfehlungssysteme und Suche haben sich historisch weiterentwickelt, inspiriert von Sprachmodellen
- Word2vec → Lernen von Item-Embeddings (embeddingbasierte Suche)
- GRU, Transformer, BERT → Vorhersage des nächsten empfohlenen Items (Ranking)
- Auch das aktuelle Paradigma großer Sprachmodelle (LLMs) entwickelt sich in dieselbe Richtung weiter
- Wichtige Fortschritte
-
1. LLM-/multimodal verstärkte Modellarchitekturen
-
2. LLM-basierte Datengenerierung und -analyse
-
3. Scaling Laws, Transfer Learning, Wissensdistillation, LoRA
-
4. Integrierte Architektur für Suche und Empfehlungen
LLM-/multimodal verstärkte Modellarchitekturen
- Empfehlungsmodelle überwinden die Grenzen traditioneller ID-basierter Ansätze, indem sie Sprachmodelle (LLMs) und multimodale Inhalte einführen
- Kombination der Stärken von Verhaltensmodellierung und Inhaltsverständnis → Lösung von Cold-Start- und Long-Tail-Problemen
-
1. Semantic IDs (YouTube)
- Verwendung von aus Inhalten abgeleiteten Semantic IDs statt bestehender hashbasierter IDs
- Einführung eines zweistufigen Frameworks:
- Transformer-basierter Video-Encoder → erzeugt dichte Content-Embeddings
- RQ-VAE (Residual Quantization Variational AutoEncoder) → wandelt Embeddings in ganzzahlige Semantic IDs um
- RQ-VAE-Struktur:
- 256-dimensionaler latenter Raum, 8 Quantisierungsstufen, 2048 Codebook-Einträge pro Stufe
- Erzeugung von 2048-dimensionalen Embeddings mit einem Transformer-basierten VideoBERT-Backbone
- Ergebnis:
- Direkte dichte Embeddings schneiden schlechter ab als zufällige Hash-IDs
- N-Gram- und SPM-Ansätze (SentencePiece Model) liefern besonders in Cold-Start-Szenarien starke Ergebnisse
-
2. M3CSR (Kuaishou)
- Multimodale Content-Embeddings (visuell, Text, Audio) → Clustering mit K-means und Umwandlung in lernbaren IDs
- Dual-Tower-Architektur:
- Nutzerseitiger Tower: Modellierung des Nutzerverhaltens
- Item-seitiger Tower: Vorabberechnung und Indexierung von Item-Embeddings
- Trainingsprozess:
- Zusammenführung von ResNet- (visuell), Sentence-BERT- (Text) und VGGish- (Audio) Embeddings → K-means-Clustering (~1000 Cluster)
- Abbildung der Cluster-IDs auf lernbare Embeddings
- Ergebnis:
- In A/B-Tests Verbesserung bei Klicks um +3,4 %, Likes um +3,0 % und Follows um +3,1 %
- In Cold-Start-Szenarien Verbesserung bei Geschwindigkeit um +1,2 % und Coverage um +3,6 %
-
3. FLIP (Huawei)
- Alignment zwischen ID-basierten Empfehlungsmodellen und LLMs
- Gleichzeitiges Lernen aus maskierten Text- und Tabellendaten → multimodales Alignment
- Trainingsphasen:
- 1. Modalitätsumwandlung: Tabellendaten werden in Text umgewandelt
- 2. Vortraining für Modalitäts-Alignment: Rekonstruktion maskierter Texte und IDs
- 3. Adaptives Fine-Tuning: Optimierung der Gewichte beider Modelle für die Klickvorhersage
- Ergebnis:
- Bessere Leistung als ID-basierte, LLM-basierte sowie kombinierte ID+LLM-Modelle
- Maskierungsgrad und multimodales Alignment spielen eine wichtige Rolle für die Leistungsverbesserung
-
4. beeFormer
- Training eines Transformer-Modells auf Basis von Textinformationen und Nutzer-Item-Interaktionsdaten
- Einsatz eines auf ELSA (Scalable Linear Shallow Autoencoder) basierenden Decoders → stärkeres Lernen von Interaktionsmustern
- Trainingsprozess:
- Erzeugung von Embeddings mit dem Transformer → Lernen von Nutzerverhaltensmustern mit ELSA
- Einsatz von Gradient Checkpointing, größeren Batch-Größen und negative sampling, um das Training auf großen Katalogen zu optimieren
- Ergebnis:
- Bessere Leistung als bestehende Modelle wie mpnet-base-v2 und bge-m3
- Leistungssteigerungen beim domänenübergreifenden Transfer Learning beobachtet
-
5. CALRec (Google)
- Modellierung von Nutzer-Item-Interaktionen mit textbasierten Prompts
- Zweistufiges Fine-Tuning eines auf PaLM-2 XXS basierenden Modells
- Trainingsphasen:
- 1. Lernen über mehrere Kategorien: Erlernen allgemeiner Empfehlungsmuster
- 2. Lernen für spezifische Kategorien: Erlernen von Mustern, die auf Item-Kategorien spezialisiert sind
- Ergebnis:
- Auf dem Amazon Review Dataset bessere Leistung als ID- und textbasierte Modelle
- Lernen über mehrere Kategorien und kontrastives Lernen tragen zur Leistungsverbesserung bei
-
6. EmbSum (Meta)
- Erzeugung von Zusammenfassungen der Nutzerinteressen und Zusammenfassungen von Kandidaten-Items
- Einsatz von T5-small und Mixtral-8x22B-Instruct
- Komponenten:
- User Poly-Embeddings (UPE) → Embeddings für Nutzerinteressen
- Content Poly-Embeddings (CPE) → Item-Embeddings
- Erzeugung von Zusammenfassungen → Einspeisung in den Encoder → finale Empfehlung
- Ergebnis:
- Bessere Leistung als inhaltsbasierte Empfehlungsmodelle
- Sitzungsbasierte Gruppierung und Summarization Loss spielen eine wichtige Rolle für die Leistung
LLM-basierte Datengenerierung und -analyse
- LLMs werden eingesetzt, um Datenknappheit in Empfehlungs- und Suchsystemen zu lösen und die Datenqualität zu verbessern
- Wichtige Anwendungsfälle:
- Bing → Erzeugung von Webseiten-Metadaten und Verbesserung der Klickvorhersage
- Indeed → Filterung minderwertiger Job-Matches
- Yelp → Verbesserung des Verständnisses von Suchanfragen und Review-Highlights
- Spotify → Erzeugung explorativer Suchanfragen
- Amazon → Verbesserung von Playlist-Metadaten und Suchleistung
-
1. Recommendation Quality Improvement (Bing)
- Einsatz von GPT-4 zur Erzeugung hochwertiger Titel und Zusammenfassungen aus Webseiten
- Fine-Tuning des Mistral-7B-Modells mit Metadaten, die aus rund 2 Millionen Webseiten erzeugt wurden
- Training eines auf MiniLM basierenden Cross-Encoders, der Klickvorhersage und Qualitätsscores kombiniert
- Ergebnis:
- 31 % weniger Clickbait-Inhalte, 76 % weniger doppelte Inhalte
- 18 % mehr autoritative Inhalte, 48 % mehr Cross-Media-Empfehlungen
-
2. Expected Bad Match (Indeed)
- Fine-Tuning von GPT-3.5 mit menschlichen Review-Daten zum Aufbau eines Filtermodells für minderwertige Job-Matches (eBadMatch)
- Verbesserungen bei Kosten und Geschwindigkeit bei gleichbleibender Leistung auf GPT-4-Niveau
- Das finale Filtermodell reduzierte die Zahl der Match-Einladungs-E-Mails um 17,68 %, senkte die Abmelderate um 4,97 % und erhöhte die Bewerbungsrate um 4,13 %
- Ergebnis:
- AUC-ROC-Leistung des Filtermodells: 0.86
-
3. Query Understanding (Yelp)
- Einsatz von LLMs zur Verbesserung von Suchanfragen-Segmentierung und Review-Highlights
- Suchanfragen-Segmentierung:
- Unterscheidung von Thema, Name, Zeit, Ort usw. und Ergänzung semantischer Tags
- Einsatz von RAG (Retrieval-Augmented Generation) zur Stärkung des kontextbasierten Query-Verständnisses
- Review-Highlights:
- Erzeugung von Highlights mit LLMs → großflächige Skalierung per OpenAI-Batch-Aufrufen
- Ergebnis:
- Verbesserte Suchsessions und Click-through-Rate
- Leistungssteigerung auch bei Long-Tail-Queries
-
4. Query Recommendations (Spotify)
- Einführung von Empfehlungen für explorative Suchanfragen zusätzlich zu direkten Suchergebnissen bei Spotify
- Methoden zur Query-Erzeugung:
- Extraktion aus Katalogtiteln, Playlists und Podcasts
- Berücksichtigung jüngster Suchanfragen der Nutzer aus Suchlogs
- Einsatz von LLM-basierter Satzgenerierung (Doc2query, InPars usw.)
- Ranking der Query-Empfehlungen mit personalisierten Vektor-Embeddings
- Ergebnis:
- Anteil explorativer Queries um +9 % gestiegen
- Maximale Query-Länge um +30 %, durchschnittliche Query-Länge um +10 % gestiegen
-
5. Playlist Search (Amazon)
- Einsatz von LLMs zur Erzeugung und Anreicherung von Metadaten für Community-Playlists
- Fine-Tuning des Flan-T5-XL-Modells zur Verbesserung der Effizienz der Datengenerierung
- Training eines bi-direktionalen Encoder-Modells mit LLM-generierten Queries und Playlist-Matching-Daten
- Ergebnis:
- Recall der Suchergebnisse im zweistelligen Bereich verbessert
- Verbesserungen bei SEO-Leistung und Paraphrasierungsleistung
Scaling Laws, Transfer Learning, Wissensdistillation, LoRA
-
Scaling Laws
- Untersuchung des Einflusses von Modellgröße und Datenmenge auf die Leistung
- Einsatz einer Decoder-only-Transformer-Architektur (Bereich von 98.3K bis 0.8B Parametern)
- Evaluierung auf den Datensätzen MovieLens-20M und Amazon-2018
- Vorhersage des nächsten Items mit festen Sequenzen von 50 Items
- Wichtige Techniken:
- Schichtweise adaptives Dropout → hohe Dropout-Rate in unteren Schichten, niedrige in oberen Schichten
- Wechsel von Adam zu SGD → anfängliches Training mit Adam, spätere Umstellung auf SGD zur Verbesserung der Konvergenzgeschwindigkeit
- Ergebnis:
- Mit größerer Modellgröße sinkt der Cross-Entropy-Loss
- Kleine Modelle benötigen mehr Daten, große Modelle erreichen auch mit weniger Daten starke Leistung
- Die Modelle mit 75.5M und 98.3K zeigten Leistungssteigerungen nach 2 bis 5 Epochen
-
PrepRec
- Einsatz von Vortraining in Empfehlungssystemen → domänenübergreifendes Transfer Learning möglich
- Lernen allein anhand dynamischer Veränderungen der Item-Popularität, ohne Item-Metadaten
- Verwendung relativer Zeitabstände zwischen Nutzerinteraktionen und Positionsencodings
- Ergebnis:
- In Zero-Shot-Empfehlungen sank recall@10 um 2 bis 6 %, nach Training war die Leistung jedoch ähnlich
- Nach Training in der Zieldomäne wurde ein Leistungsniveau auf Augenhöhe mit SasREC und BERT4Rec erreicht
-
E-CDCTR (Meituan)
- Anwendung von Transfer Learning auf ein Modell zur Vorhersage von Anzeigenklicks
- Verwendung einer dreistufigen Trainingsstruktur aus TPM → CPM → A-CTR
- TPM → Lernen von Nutzer- und Item-Embeddings
- CPM → Vortraining mit aktuellen organischen Daten
- A-CTR → Feinabstimmung mit Werbedaten
- Ergebnis:
- CPM hatte den größten Einfluss auf die Leistung → ermöglicht das Lernen langfristiger Collaborative-Filtering-Signale
- Leistungsverbesserung durch Nutzung von Embeddings aus den vergangenen 3 Monaten
-
Bridging the Gap (YouTube)
- Personalisierte großskalige Videoempfehlungen durch Wissensdistillation
- Verwendung einer Teacher-Student-Modellarchitektur (Teacher-Modell ist 2- bis 4-mal größer als das Student-Modell)
- Einsatz einer auxiliary distillation statt direkter Vorhersage → Lösung von Distribution-Shift-Problemen
- Ergebnis:
- Leistungssteigerung um 0,4 % durch die auxiliary-distillation-Strategie
- Bei doppelt so großem Teacher-Modell +0,42 %, bei vierfacher Größe +0,43 % Leistungsverbesserung
-
Self-Auxiliary Distillation (Google)
- Verbesserung der Sample-Effizienz großer Empfehlungsmodelle
- Bidirektionale Branch-Struktur → gemischtes Lernen aus Teacher-Labels und Original-Labels
- Behandlung negativer Labels nicht als 0, sondern als geschätzte CTR-Werte
- Ergebnis:
- Konsistente Leistungsverbesserungen in verschiedenen Domänen
- Mehr Trainingsstabilität und höhere Präzision der Modellausgaben
-
DLLM2Rec
- Destillation von Empfehlungswissen großer Sprachmodelle in leichte Modelle
- Einsatz von wichtigkeitsbasiertem Ranking-Distillation und Collaborative-Embedding-Distillation
- Wichtigkeitsbasierte Ranking-Distillation → Gewichtung nach Item-Rang und Konsistenz
- Collaborative-Embedding-Distillation → Korrektur der Embedding-Differenzen zwischen Teacher- und Student-Modell
- Ergebnis:
- Durchschnittliche Leistung auf GRU4Rec-, SASRec- und DROS-Modellen um 47,97 % verbessert
- Inferenzzeit von 3 bis 6 Stunden beim Teacher-Modell auf 1,6 bis 1,8 Sekunden reduziert
-
MLoRA (Alibaba)
- Anwendung von domänenspezifischem LoRA (Low-Rank Adaptation) auf CTR-Vorhersage
- Vortraining eines gemeinsamen Backbone-Modells, anschließend Fine-Tuning mit domänenspezifischem LoRA
- Dynamische Festlegung des LoRA-Rangs pro Layer
- Ergebnis:
- AUC-Leistung um +0,5 % verbessert
- CTR +1,49 %, Conversion Rate +3,37 %, zahlende Käufer +2,71 %
-
Taming One-Epoch (Pinterest)
- Lösung des Problems von Overfitting bereits nach einer einzigen Epoche
- Trennung der Trainingsphasen mittels kontrastivem Lernen
- Erste Phase → Lernen von Embeddings
- Zweite Phase → Feinabstimmung
- Ergebnis:
- Bessere Leistung als mit bestehendem BCE-Loss
- Homefeed +1,32 %, verwandte Pins +2,18 %
-
Sliding Window Training (Netflix)
- Einführung von Sliding-Window-Training, um lange Nutzerhistorien ohne hohe Speicherlast zu trainieren
- Auswahl unterschiedlicher Segmente der Nutzerhistorie in jeder Trainingsepoche
- Wahrung des Gleichgewichts zwischen den jüngsten 100 Interaktionen und langfristigen Interaktionen
- Ergebnis:
- Konsistente Leistungsverbesserung gegenüber Modellen, die nur die neuesten Interaktionen verwenden
- Mean Average Precision (MAP) +1,5 %, Recall +7,01 %
Integrierte Architektur für Suche und Empfehlungen
-
Bridging Search & Recommendations (Spotify)
- Integriertes Training von Such- und Empfehlungsdaten in einem einzigen generativen Modell
- Auf Basis von Flan-T5-base werden Item-IDs zur Modellierung in Tokens umgewandelt
- Generatives Empfehlungsmodell: Vorhersage des nächsten Items auf Basis von Nutzerinteraktionen
- Generatives Suchmodell: Vorhersage von Item-IDs aus Text-Queries
- Ergebnis:
- Durchschnittlich 16 % bessere Leistung als Single-Task-Modelle (gemessen an recall@30)
- Auf dem Podcast-Datensatz Suchleistung +855 %, Empfehlungsleistung +262 %
- Reicht jedoch nicht an bestehende Empfehlungs- und Suchmodelle wie BM25 oder SASRec heran
-
360Brew (LinkedIn)
- Mehr als 30 Ranking-Tasks mit einem einzigen Modell mit 150B Parametern
- Basierend auf Mixtral-8x22B → Continual Pre-Training (CPT) → Instruction Fine-Tuning (IFT) → Supervised Fine-Tuning (SFT)
- Einführung einer natürlichsprachlichen Schnittstelle → Nutzung von Prompt Engineering statt Feature Engineering
- Ergebnis:
- Gleich gute oder bessere Leistung als bestehende spezialisierte Modelle
- Leistungssteigerungen auf großen Datensätzen (3-fache Vergrößerung)
- Verbesserte Leistung bei Cold-Start-Nutzern → besser als bestehende Modelle
-
UniCoRn (Netflix)
- Bearbeitung von Such- und Empfehlungsaufgaben in einem einzigen Modell
- Nutzung von Kontextinformationen wie Nutzer-ID, Suchanfrage, Land und Quell-Entity
- Einsatz von context-target features und feature crossing
- Ergebnis:
- Empfehlungsleistung +10 %, Suchleistung +7 %
- Leistungsverbesserung durch stärkere Personalisierung
- Bestätigung der Bedeutung von Task-Typ und Umgang mit fehlenden Werten
-
Unified Embeddings (Etsy)
- Integration von Transformer-basierten, textbasierten und graphbasierten Embeddings
- Fine-Tuning eines T5-Modells zur Verbesserung des Query-Produkt-Matchings
- Einsatz von Hard Negative Sampling und Approximate Nearest Neighbor Search (ANN)
- Ergebnis:
- Conversion Rate +2,63 %, Kaufrate in der organischen Suche +5,58 %
- Graph-Embeddings trugen am meisten zur Leistung bei (+15 %)
-
Embedding Long Tail (Best Buy)
- Lösung des Problems von Long-Tail-Queries
- Nutzung eines internen BERT-Modells auf Basis von Nutzerverhalten → für Such- und Produkt-Encoding
- Datenanreicherung mit synthetischen Queries, die von Llama-13B erzeugt wurden
- Ergebnis:
- Conversion Rate +3 % verbessert
- Verbesserung der Query-Produkt-Matching-Leistung (+4,67 %)
-
User Behavioral Service (YouTube)
- Trennung von Modell zur Erzeugung von Nutzer-Embeddings und Empfehlungsmodell
- Asynchrone Erzeugung von Nutzer-Embeddings → Einsatz von schnellem Caching
- Wenn beim Request kein Embedding verfügbar ist, Rückgabe eines leeren Werts und anschließende asynchrone Aktualisierung
- Ergebnis:
- Skalierung der Größe des Nutzersequenzmodells bei gedämpftem Kostenanstieg (28,7 % → 2,8 %)
- Allgemeine Verbesserung der Empfehlungsleistung (0,01 % bis 0,40 %)
-
Modern Ranking Platform (Zalando)
- Aufbau eines integrierten Systems für Suche und Browsing
- Verwendung einer Struktur aus Candidate Generation → Ranking → Policy Layer
- Einsatz von Transformer-basierten Kunden-Embeddings und einer Vektordatenbank
- Ergebnis:
- Gesamte Engagement-Rate +15 %, Umsatz +2,2 %
- Zusätzliche Leistungsverbesserung nach Einführung trainierbarer Embeddings
Fazit
- Frühe Forschung aus dem Jahr 2023 zur Anwendung von LLMs auf Empfehlungen und Suche war noch begrenzt, doch jüngere Bemühungen zeigen – insbesondere gestützt durch Industrieergebnisse – deutlich mehr Potenzial
- Das deutet darauf hin, dass die Erforschung von LLM-gestützter Erweiterung von Empfehlungs- und Suchsystemen praktische Vorteile bringt und gleichzeitig Kosten und Aufwand senken sowie die Ergebnisse verbessern kann
1 Kommentare
Hacker-News-Kommentare
Es gibt die Einschätzung, dass Spotifys Update rund um Suchanfragen Nutzern geholfen hat, komplexere Absichten auszudrücken
Viele Teams nutzen LLMs, um Suchanfragen und Indizes zu verbessern
Es ist interessant, dass Eugene die Arbeit direkt nach der Konferenz veröffentlicht
Es wird erklärt, warum die Spotify-Erfahrung im Lauf der Zeit schlechter geworden ist
Ich habe heute Morgen direkt nach dem Aufwachen angefangen, mir diesen Artikel mit einem Text-to-Speech-Modell anzuhören
Varianten von SASRec und Bert4Rec werden mit ID-Tokens trainiert und zeigen ähnliche Skalierungsgesetze wie LLMs
Ich denke, die Kombination von Empfehlungssystemen und Foren war eine große gesellschaftliche Katastrophe
Es stellt sich die Frage, warum es auf PCs und Smartphones keine LLM-basierten Suchwerkzeuge gibt
Das wirkt wie ein hervorragender Überblick über Empfehlungssysteme
Es ist interessant, dass solche Arbeiten nicht aus akademischen Forschungslaboren kommen