Vektorähnlichkeit in hochdimensionalen Embeddings verstehen
(linkedin.com)Die Methode, um im hochdimensionalen Raum die „Wahrscheinlichkeit zu bestimmen, dass das Skalarprodukt mindestens einen bestimmten Wert erreicht“, beruht auf einem einfachen Prinzip. Man berechnet die Oberfläche der Einheitskugel, ermittelt dann über den durch das Skalarprodukt dargestellten Winkel die Fläche einer Kugelkappe und vergleicht diese schließlich mit der Gesamtoberfläche.
Der entscheidende Punkt ist jedoch, dass sich mit dieser einfachen Berechnung konkret erfassen lässt, wie „selten oder häufig“ ein bestimmter Skalarproduktwert in einem hochdimensionalen Embedding-Raum tatsächlich ist. Insbesondere die Tatsache, dass ein Skalarprodukt von 0,9 oder mehr extrem selten ist, zeigt anschaulich, wie wichtig hohe Ähnlichkeitsscores als Signal bei der embedding-basierten Suche sein können.
Noch keine Kommentare.