22 Punkte von GN⁺ 2025-03-20 | 1 Kommentare | Auf WhatsApp teilen
  • Empfehlungssysteme und Suche haben sich historisch weiterentwickelt, inspiriert von Sprachmodellen
    • Word2vec → Lernen von Item-Embeddings (embeddingbasierte Suche)
    • GRU, Transformer, BERT → Vorhersage des nächsten empfohlenen Items (Ranking)
  • Auch das aktuelle Paradigma großer Sprachmodelle (LLMs) entwickelt sich in dieselbe Richtung weiter
  • Wichtige Fortschritte
    • 1. LLM-/multimodal verstärkte Modellarchitekturen

    • 2. LLM-basierte Datengenerierung und -analyse

    • 3. Scaling Laws, Transfer Learning, Wissensdistillation, LoRA

    • 4. Integrierte Architektur für Suche und Empfehlungen

LLM-/multimodal verstärkte Modellarchitekturen

  • Empfehlungsmodelle überwinden die Grenzen traditioneller ID-basierter Ansätze, indem sie Sprachmodelle (LLMs) und multimodale Inhalte einführen
  • Kombination der Stärken von Verhaltensmodellierung und Inhaltsverständnis → Lösung von Cold-Start- und Long-Tail-Problemen
  • 1. Semantic IDs (YouTube)

    • Verwendung von aus Inhalten abgeleiteten Semantic IDs statt bestehender hashbasierter IDs
    • Einführung eines zweistufigen Frameworks:
      1. Transformer-basierter Video-Encoder → erzeugt dichte Content-Embeddings
      2. RQ-VAE (Residual Quantization Variational AutoEncoder) → wandelt Embeddings in ganzzahlige Semantic IDs um
    • RQ-VAE-Struktur:
      • 256-dimensionaler latenter Raum, 8 Quantisierungsstufen, 2048 Codebook-Einträge pro Stufe
      • Erzeugung von 2048-dimensionalen Embeddings mit einem Transformer-basierten VideoBERT-Backbone
    • Ergebnis:
      • Direkte dichte Embeddings schneiden schlechter ab als zufällige Hash-IDs
      • N-Gram- und SPM-Ansätze (SentencePiece Model) liefern besonders in Cold-Start-Szenarien starke Ergebnisse
  • 2. M3CSR (Kuaishou)

    • Multimodale Content-Embeddings (visuell, Text, Audio) → Clustering mit K-means und Umwandlung in lernbaren IDs
    • Dual-Tower-Architektur:
      • Nutzerseitiger Tower: Modellierung des Nutzerverhaltens
      • Item-seitiger Tower: Vorabberechnung und Indexierung von Item-Embeddings
    • Trainingsprozess:
      • Zusammenführung von ResNet- (visuell), Sentence-BERT- (Text) und VGGish- (Audio) Embeddings → K-means-Clustering (~1000 Cluster)
      • Abbildung der Cluster-IDs auf lernbare Embeddings
    • Ergebnis:
      • In A/B-Tests Verbesserung bei Klicks um +3,4 %, Likes um +3,0 % und Follows um +3,1 %
      • In Cold-Start-Szenarien Verbesserung bei Geschwindigkeit um +1,2 % und Coverage um +3,6 %
  • 3. FLIP (Huawei)

    • Alignment zwischen ID-basierten Empfehlungsmodellen und LLMs
    • Gleichzeitiges Lernen aus maskierten Text- und Tabellendaten → multimodales Alignment
    • Trainingsphasen:
      • 1. Modalitätsumwandlung: Tabellendaten werden in Text umgewandelt
      • 2. Vortraining für Modalitäts-Alignment: Rekonstruktion maskierter Texte und IDs
      • 3. Adaptives Fine-Tuning: Optimierung der Gewichte beider Modelle für die Klickvorhersage
    • Ergebnis:
      • Bessere Leistung als ID-basierte, LLM-basierte sowie kombinierte ID+LLM-Modelle
      • Maskierungsgrad und multimodales Alignment spielen eine wichtige Rolle für die Leistungsverbesserung
  • 4. beeFormer

    • Training eines Transformer-Modells auf Basis von Textinformationen und Nutzer-Item-Interaktionsdaten
    • Einsatz eines auf ELSA (Scalable Linear Shallow Autoencoder) basierenden Decoders → stärkeres Lernen von Interaktionsmustern
    • Trainingsprozess:
      • Erzeugung von Embeddings mit dem Transformer → Lernen von Nutzerverhaltensmustern mit ELSA
      • Einsatz von Gradient Checkpointing, größeren Batch-Größen und negative sampling, um das Training auf großen Katalogen zu optimieren
    • Ergebnis:
      • Bessere Leistung als bestehende Modelle wie mpnet-base-v2 und bge-m3
      • Leistungssteigerungen beim domänenübergreifenden Transfer Learning beobachtet
  • 5. CALRec (Google)

    • Modellierung von Nutzer-Item-Interaktionen mit textbasierten Prompts
    • Zweistufiges Fine-Tuning eines auf PaLM-2 XXS basierenden Modells
    • Trainingsphasen:
      • 1. Lernen über mehrere Kategorien: Erlernen allgemeiner Empfehlungsmuster
      • 2. Lernen für spezifische Kategorien: Erlernen von Mustern, die auf Item-Kategorien spezialisiert sind
    • Ergebnis:
      • Auf dem Amazon Review Dataset bessere Leistung als ID- und textbasierte Modelle
      • Lernen über mehrere Kategorien und kontrastives Lernen tragen zur Leistungsverbesserung bei
  • 6. EmbSum (Meta)

    • Erzeugung von Zusammenfassungen der Nutzerinteressen und Zusammenfassungen von Kandidaten-Items
    • Einsatz von T5-small und Mixtral-8x22B-Instruct
    • Komponenten:
      • User Poly-Embeddings (UPE) → Embeddings für Nutzerinteressen
      • Content Poly-Embeddings (CPE) → Item-Embeddings
      • Erzeugung von Zusammenfassungen → Einspeisung in den Encoder → finale Empfehlung
    • Ergebnis:
      • Bessere Leistung als inhaltsbasierte Empfehlungsmodelle
      • Sitzungsbasierte Gruppierung und Summarization Loss spielen eine wichtige Rolle für die Leistung

LLM-basierte Datengenerierung und -analyse

  • LLMs werden eingesetzt, um Datenknappheit in Empfehlungs- und Suchsystemen zu lösen und die Datenqualität zu verbessern
  • Wichtige Anwendungsfälle:
    • Bing → Erzeugung von Webseiten-Metadaten und Verbesserung der Klickvorhersage
    • Indeed → Filterung minderwertiger Job-Matches
    • Yelp → Verbesserung des Verständnisses von Suchanfragen und Review-Highlights
    • Spotify → Erzeugung explorativer Suchanfragen
    • Amazon → Verbesserung von Playlist-Metadaten und Suchleistung
  • 1. Recommendation Quality Improvement (Bing)

    • Einsatz von GPT-4 zur Erzeugung hochwertiger Titel und Zusammenfassungen aus Webseiten
    • Fine-Tuning des Mistral-7B-Modells mit Metadaten, die aus rund 2 Millionen Webseiten erzeugt wurden
    • Training eines auf MiniLM basierenden Cross-Encoders, der Klickvorhersage und Qualitätsscores kombiniert
    • Ergebnis:
      • 31 % weniger Clickbait-Inhalte, 76 % weniger doppelte Inhalte
      • 18 % mehr autoritative Inhalte, 48 % mehr Cross-Media-Empfehlungen
  • 2. Expected Bad Match (Indeed)

    • Fine-Tuning von GPT-3.5 mit menschlichen Review-Daten zum Aufbau eines Filtermodells für minderwertige Job-Matches (eBadMatch)
    • Verbesserungen bei Kosten und Geschwindigkeit bei gleichbleibender Leistung auf GPT-4-Niveau
    • Das finale Filtermodell reduzierte die Zahl der Match-Einladungs-E-Mails um 17,68 %, senkte die Abmelderate um 4,97 % und erhöhte die Bewerbungsrate um 4,13 %
    • Ergebnis:
      • AUC-ROC-Leistung des Filtermodells: 0.86
  • 3. Query Understanding (Yelp)

    • Einsatz von LLMs zur Verbesserung von Suchanfragen-Segmentierung und Review-Highlights
    • Suchanfragen-Segmentierung:
      • Unterscheidung von Thema, Name, Zeit, Ort usw. und Ergänzung semantischer Tags
      • Einsatz von RAG (Retrieval-Augmented Generation) zur Stärkung des kontextbasierten Query-Verständnisses
    • Review-Highlights:
      • Erzeugung von Highlights mit LLMs → großflächige Skalierung per OpenAI-Batch-Aufrufen
    • Ergebnis:
      • Verbesserte Suchsessions und Click-through-Rate
      • Leistungssteigerung auch bei Long-Tail-Queries
  • 4. Query Recommendations (Spotify)

    • Einführung von Empfehlungen für explorative Suchanfragen zusätzlich zu direkten Suchergebnissen bei Spotify
    • Methoden zur Query-Erzeugung:
      • Extraktion aus Katalogtiteln, Playlists und Podcasts
      • Berücksichtigung jüngster Suchanfragen der Nutzer aus Suchlogs
      • Einsatz von LLM-basierter Satzgenerierung (Doc2query, InPars usw.)
    • Ranking der Query-Empfehlungen mit personalisierten Vektor-Embeddings
    • Ergebnis:
      • Anteil explorativer Queries um +9 % gestiegen
      • Maximale Query-Länge um +30 %, durchschnittliche Query-Länge um +10 % gestiegen
  • 5. Playlist Search (Amazon)

    • Einsatz von LLMs zur Erzeugung und Anreicherung von Metadaten für Community-Playlists
    • Fine-Tuning des Flan-T5-XL-Modells zur Verbesserung der Effizienz der Datengenerierung
    • Training eines bi-direktionalen Encoder-Modells mit LLM-generierten Queries und Playlist-Matching-Daten
    • Ergebnis:
      • Recall der Suchergebnisse im zweistelligen Bereich verbessert
      • Verbesserungen bei SEO-Leistung und Paraphrasierungsleistung

Scaling Laws, Transfer Learning, Wissensdistillation, LoRA

  • Scaling Laws

    • Untersuchung des Einflusses von Modellgröße und Datenmenge auf die Leistung
    • Einsatz einer Decoder-only-Transformer-Architektur (Bereich von 98.3K bis 0.8B Parametern)
    • Evaluierung auf den Datensätzen MovieLens-20M und Amazon-2018
    • Vorhersage des nächsten Items mit festen Sequenzen von 50 Items
    • Wichtige Techniken:
      • Schichtweise adaptives Dropout → hohe Dropout-Rate in unteren Schichten, niedrige in oberen Schichten
      • Wechsel von Adam zu SGD → anfängliches Training mit Adam, spätere Umstellung auf SGD zur Verbesserung der Konvergenzgeschwindigkeit
    • Ergebnis:
      • Mit größerer Modellgröße sinkt der Cross-Entropy-Loss
      • Kleine Modelle benötigen mehr Daten, große Modelle erreichen auch mit weniger Daten starke Leistung
      • Die Modelle mit 75.5M und 98.3K zeigten Leistungssteigerungen nach 2 bis 5 Epochen
  • PrepRec

    • Einsatz von Vortraining in Empfehlungssystemen → domänenübergreifendes Transfer Learning möglich
    • Lernen allein anhand dynamischer Veränderungen der Item-Popularität, ohne Item-Metadaten
    • Verwendung relativer Zeitabstände zwischen Nutzerinteraktionen und Positionsencodings
    • Ergebnis:
      • In Zero-Shot-Empfehlungen sank recall@10 um 2 bis 6 %, nach Training war die Leistung jedoch ähnlich
      • Nach Training in der Zieldomäne wurde ein Leistungsniveau auf Augenhöhe mit SasREC und BERT4Rec erreicht
  • E-CDCTR (Meituan)

    • Anwendung von Transfer Learning auf ein Modell zur Vorhersage von Anzeigenklicks
    • Verwendung einer dreistufigen Trainingsstruktur aus TPM → CPM → A-CTR
      • TPM → Lernen von Nutzer- und Item-Embeddings
      • CPM → Vortraining mit aktuellen organischen Daten
      • A-CTR → Feinabstimmung mit Werbedaten
    • Ergebnis:
      • CPM hatte den größten Einfluss auf die Leistung → ermöglicht das Lernen langfristiger Collaborative-Filtering-Signale
      • Leistungsverbesserung durch Nutzung von Embeddings aus den vergangenen 3 Monaten
  • Bridging the Gap (YouTube)

    • Personalisierte großskalige Videoempfehlungen durch Wissensdistillation
    • Verwendung einer Teacher-Student-Modellarchitektur (Teacher-Modell ist 2- bis 4-mal größer als das Student-Modell)
    • Einsatz einer auxiliary distillation statt direkter Vorhersage → Lösung von Distribution-Shift-Problemen
    • Ergebnis:
      • Leistungssteigerung um 0,4 % durch die auxiliary-distillation-Strategie
      • Bei doppelt so großem Teacher-Modell +0,42 %, bei vierfacher Größe +0,43 % Leistungsverbesserung
  • Self-Auxiliary Distillation (Google)

    • Verbesserung der Sample-Effizienz großer Empfehlungsmodelle
    • Bidirektionale Branch-Struktur → gemischtes Lernen aus Teacher-Labels und Original-Labels
    • Behandlung negativer Labels nicht als 0, sondern als geschätzte CTR-Werte
    • Ergebnis:
      • Konsistente Leistungsverbesserungen in verschiedenen Domänen
      • Mehr Trainingsstabilität und höhere Präzision der Modellausgaben
  • DLLM2Rec

    • Destillation von Empfehlungswissen großer Sprachmodelle in leichte Modelle
    • Einsatz von wichtigkeitsbasiertem Ranking-Distillation und Collaborative-Embedding-Distillation
      • Wichtigkeitsbasierte Ranking-Distillation → Gewichtung nach Item-Rang und Konsistenz
      • Collaborative-Embedding-Distillation → Korrektur der Embedding-Differenzen zwischen Teacher- und Student-Modell
    • Ergebnis:
      • Durchschnittliche Leistung auf GRU4Rec-, SASRec- und DROS-Modellen um 47,97 % verbessert
      • Inferenzzeit von 3 bis 6 Stunden beim Teacher-Modell auf 1,6 bis 1,8 Sekunden reduziert
  • MLoRA (Alibaba)

    • Anwendung von domänenspezifischem LoRA (Low-Rank Adaptation) auf CTR-Vorhersage
    • Vortraining eines gemeinsamen Backbone-Modells, anschließend Fine-Tuning mit domänenspezifischem LoRA
    • Dynamische Festlegung des LoRA-Rangs pro Layer
    • Ergebnis:
      • AUC-Leistung um +0,5 % verbessert
      • CTR +1,49 %, Conversion Rate +3,37 %, zahlende Käufer +2,71 %
  • Taming One-Epoch (Pinterest)

    • Lösung des Problems von Overfitting bereits nach einer einzigen Epoche
    • Trennung der Trainingsphasen mittels kontrastivem Lernen
      • Erste Phase → Lernen von Embeddings
      • Zweite Phase → Feinabstimmung
    • Ergebnis:
      • Bessere Leistung als mit bestehendem BCE-Loss
      • Homefeed +1,32 %, verwandte Pins +2,18 %
  • Sliding Window Training (Netflix)

    • Einführung von Sliding-Window-Training, um lange Nutzerhistorien ohne hohe Speicherlast zu trainieren
    • Auswahl unterschiedlicher Segmente der Nutzerhistorie in jeder Trainingsepoche
    • Wahrung des Gleichgewichts zwischen den jüngsten 100 Interaktionen und langfristigen Interaktionen
    • Ergebnis:
      • Konsistente Leistungsverbesserung gegenüber Modellen, die nur die neuesten Interaktionen verwenden
      • Mean Average Precision (MAP) +1,5 %, Recall +7,01 %

Integrierte Architektur für Suche und Empfehlungen

  • Bridging Search & Recommendations (Spotify)

    • Integriertes Training von Such- und Empfehlungsdaten in einem einzigen generativen Modell
    • Auf Basis von Flan-T5-base werden Item-IDs zur Modellierung in Tokens umgewandelt
    • Generatives Empfehlungsmodell: Vorhersage des nächsten Items auf Basis von Nutzerinteraktionen
    • Generatives Suchmodell: Vorhersage von Item-IDs aus Text-Queries
    • Ergebnis:
      • Durchschnittlich 16 % bessere Leistung als Single-Task-Modelle (gemessen an recall@30)
      • Auf dem Podcast-Datensatz Suchleistung +855 %, Empfehlungsleistung +262 %
      • Reicht jedoch nicht an bestehende Empfehlungs- und Suchmodelle wie BM25 oder SASRec heran
  • 360Brew (LinkedIn)

    • Mehr als 30 Ranking-Tasks mit einem einzigen Modell mit 150B Parametern
    • Basierend auf Mixtral-8x22B → Continual Pre-Training (CPT)Instruction Fine-Tuning (IFT)Supervised Fine-Tuning (SFT)
    • Einführung einer natürlichsprachlichen Schnittstelle → Nutzung von Prompt Engineering statt Feature Engineering
    • Ergebnis:
      • Gleich gute oder bessere Leistung als bestehende spezialisierte Modelle
      • Leistungssteigerungen auf großen Datensätzen (3-fache Vergrößerung)
      • Verbesserte Leistung bei Cold-Start-Nutzern → besser als bestehende Modelle
  • UniCoRn (Netflix)

    • Bearbeitung von Such- und Empfehlungsaufgaben in einem einzigen Modell
    • Nutzung von Kontextinformationen wie Nutzer-ID, Suchanfrage, Land und Quell-Entity
    • Einsatz von context-target features und feature crossing
    • Ergebnis:
      • Empfehlungsleistung +10 %, Suchleistung +7 %
      • Leistungsverbesserung durch stärkere Personalisierung
      • Bestätigung der Bedeutung von Task-Typ und Umgang mit fehlenden Werten
  • Unified Embeddings (Etsy)

    • Integration von Transformer-basierten, textbasierten und graphbasierten Embeddings
    • Fine-Tuning eines T5-Modells zur Verbesserung des Query-Produkt-Matchings
    • Einsatz von Hard Negative Sampling und Approximate Nearest Neighbor Search (ANN)
    • Ergebnis:
      • Conversion Rate +2,63 %, Kaufrate in der organischen Suche +5,58 %
      • Graph-Embeddings trugen am meisten zur Leistung bei (+15 %)
  • Embedding Long Tail (Best Buy)

    • Lösung des Problems von Long-Tail-Queries
    • Nutzung eines internen BERT-Modells auf Basis von Nutzerverhalten → für Such- und Produkt-Encoding
    • Datenanreicherung mit synthetischen Queries, die von Llama-13B erzeugt wurden
    • Ergebnis:
      • Conversion Rate +3 % verbessert
      • Verbesserung der Query-Produkt-Matching-Leistung (+4,67 %)
  • User Behavioral Service (YouTube)

    • Trennung von Modell zur Erzeugung von Nutzer-Embeddings und Empfehlungsmodell
    • Asynchrone Erzeugung von Nutzer-Embeddings → Einsatz von schnellem Caching
    • Wenn beim Request kein Embedding verfügbar ist, Rückgabe eines leeren Werts und anschließende asynchrone Aktualisierung
    • Ergebnis:
      • Skalierung der Größe des Nutzersequenzmodells bei gedämpftem Kostenanstieg (28,7 % → 2,8 %)
      • Allgemeine Verbesserung der Empfehlungsleistung (0,01 % bis 0,40 %)
  • Modern Ranking Platform (Zalando)

    • Aufbau eines integrierten Systems für Suche und Browsing
    • Verwendung einer Struktur aus Candidate Generation → Ranking → Policy Layer
    • Einsatz von Transformer-basierten Kunden-Embeddings und einer Vektordatenbank
    • Ergebnis:
      • Gesamte Engagement-Rate +15 %, Umsatz +2,2 %
      • Zusätzliche Leistungsverbesserung nach Einführung trainierbarer Embeddings

Fazit

  • Frühe Forschung aus dem Jahr 2023 zur Anwendung von LLMs auf Empfehlungen und Suche war noch begrenzt, doch jüngere Bemühungen zeigen – insbesondere gestützt durch Industrieergebnisse – deutlich mehr Potenzial
  • Das deutet darauf hin, dass die Erforschung von LLM-gestützter Erweiterung von Empfehlungs- und Suchsystemen praktische Vorteile bringt und gleichzeitig Kosten und Aufwand senken sowie die Ergebnisse verbessern kann

1 Kommentare

 
GN⁺ 2025-03-24

Hacker-News-Kommentare

  • Es gibt die Einschätzung, dass Spotifys Update rund um Suchanfragen Nutzern geholfen hat, komplexere Absichten auszudrücken

    • Gleichzeitig ist es schwer, das als Verbesserung zu werten, wenn Nutzer häufiger suchen und längere Anfragen eingeben mussten, um die gewünschten Informationen zu bekommen
  • Viele Teams nutzen LLMs, um Suchanfragen und Indizes zu verbessern

    • Schon mit kleinen Modellen und einfachen Prompts lassen sich Suchstrings in strukturierte Abfragen umwandeln
    • Auch die Klassifizierung von Dokumenten oder der Einsatz von Caches ist möglich
    • Diese Arbeiten nicht zu machen, könnte ein Fehler sein
  • Es ist interessant, dass Eugene die Arbeit direkt nach der Konferenz veröffentlicht

    • Traditionell wäre das wohl eine Arbeit gewesen, die ein Doktorand in etwa 12 Monaten veröffentlicht hätte
    • Ich frage mich, ob das an Eugenes Fähigkeiten liegt oder ob es ein neuer Trend ist
  • Es wird erklärt, warum die Spotify-Erfahrung im Lauf der Zeit schlechter geworden ist

  • Ich habe heute Morgen direkt nach dem Aufwachen angefangen, mir diesen Artikel mit einem Text-to-Speech-Modell anzuhören

    • Durch die vielen Fachbegriffe wirkt der Autor sehr intellektuell, vermittelt die Informationen aber nicht effektiv
    • Das ist ein Phänomen, das man häufig in wissenschaftlichen Arbeiten sieht, und meine eigenen Forschungsarbeiten sind da keine Ausnahme
    • Da ich kein Experte im ML-Bereich bin, gehöre ich vielleicht nicht zur Zielgruppe
    • Ich frage mich, ob andere denselben Eindruck hatten
    • Ich hoffe, diese Meinung wirkt nicht zu negativ
  • Varianten von SASRec und Bert4Rec werden mit ID-Tokens trainiert und zeigen ähnliche Skalierungsgesetze wie LLMs

    • Metas Ansatz wird als Beispiel genannt
  • Ich denke, die Kombination von Empfehlungssystemen und Foren war eine große gesellschaftliche Katastrophe

  • Es stellt sich die Frage, warum es auf PCs und Smartphones keine LLM-basierten Suchwerkzeuge gibt

    • Gerade weil die Daten auf Smartphones in der Cloud gespeichert werden, könnte man statt Scraping für Werbung oder das FBI nützliche Funktionen für die Nutzer bereitstellen
  • Das wirkt wie ein hervorragender Überblick über Empfehlungssysteme

    • Der zentrale Punkt ist, dass Latenz das Hauptproblem ist
    • Fine-Tuning kann große Verbesserungen bringen und die Latenz verringern
    • Es gibt einen Schwellenwert oder bestimmte Probleme, bei denen man Prompts oder Fine-Tuning einsetzen sollte
  • Es ist interessant, dass solche Arbeiten nicht aus akademischen Forschungslaboren kommen