Semantische Suche ohne Embeddings
(softwaredoug.com)Glauben Sie auch 2026 noch, dass „semantische Suche = Embeddings + Vektor-DB“ ist?
Zentrale These
Für semantische Suche ist nicht einfach nur Ähnlichkeit (similarity) wichtig,
sondern eine wirklich gute Suche muss alle drei Punkte erfüllen:
① Repräsentation (representation) + ② Ähnlichkeit (similarity) + ③ Matching-Kriterien (match criteria).
Embeddings-basierte Vektorsuche ist bei ① und ② stark, hat aber laut dem Beitrag große Schwächen bei ③ (Ergebnisse exakt nur innerhalb des vom Nutzer gewünschten Bereichs ein- oder ausschließen).
Zentrales Beispiel:
Query: „runde rote Frucht, die auf Bäumen wächst“
Ergebnisse eines guten Embedding-Systems (erscheinen oft weit oben):
- Apfel
- Orange
- ⚾️ Baseball
→ Der Nutzer will ganz sicher keinen Baseball, aber Embeddings stufen ihn wegen „rund und rot“ als recht nah ein und nehmen ihn deshalb auf
Mit einem Schwellenwert lässt sich das nicht lösen (unterschiedlich je nach Domain und Query)
Als Alternative wird vorgeschlagen: gut gepflegte hierarchische Taxonomien (Managed Taxonomies)
Wie im Wayfair-Möbelbeispiel
Baby & Kids
└─ Toddler & Kids Playroom
└─ Indoor Play
└─ Rocking Horses
└─ Novelty Rocking Horses
Wenn man das mit einem hierarchischen Tokenizer auf BM25 setzt, dann gilt:
- spezifischere (untergeordnete) Kategorien = niedrigeres df → automatisch höherer BM25-Score
- Nutzer können den Suchbereich in einer verständlichen Sprache präzise steuern (über Eltern-/Großelternkategorien wird er schrittweise weiter)
- automatisierte Klassifizierung per LLM reduziert auch den Wartungsaufwand deutlich
Fazit:
Embeddings sind leistungsfähig, aber nicht zwingend erforderlich.
Mit bereits starken Kategorie-/Klassifizierungsfähigkeiten in einer Domain plus LLM-Unterstützung
lässt sich laut dem Beitrag semantische Suche bauen, die deutlich präziser ist und eine bessere User Experience bietet als Embeddings.
Besonders empfohlen für alle, die domainspezifische Suche in E-Commerce, Medizin, Recht, Bibliotheken usw. entwickeln.
Noch keine Kommentare.