- In hochdimensionalen Embedding-Räumen lassen sich dank Quasi-Orthogonalität (quasi-orthogonality) statt vollständiger Orthogonalität unzählige Konzepte darstellen
- Das Johnson-Lindenstrauss-Lemma garantiert, dass beliebige hochdimensionale Daten mit nahezu keinem Informationsverlust in niedrigere Dimensionen projiziert werden können
- Im Optimierungsprozess ist das Design der Verlustfunktion entscheidend, da eine einfache Verlustfunktion zu ineffizienten oder verzerrten Vektoranordnungen führen kann
- Experimentelle Ergebnisse zeigen, dass die tatsächliche Kapazität von Embedding-Räumen weit größer ist als theoretisch vermutet und dass Millionen bis Milliarden von Konzepten natürlich koexistieren können
- Diese Erkenntnisse haben große praktische Bedeutung für Machine-Learning-Anwendungen wie Datenrepräsentation, Dimensionsreduktion und Embedding-Design
Einleitung: Die Frage nach der Kapazität des Embedding-Raums von Sprachmodellen
In der jüngsten Videoserie von 3Blue1Brown über Transformer-Modelle stellte Grant Sanderson die spannende Frage, wie der 12.288-dimensionale Embedding-Raum von GPT-3 Hunderttausende bis Millionen realer Konzepte enthalten kann
Diese Frage steht in Verbindung mit hochdimensionaler Geometrie und einem mathematischen Resultat namens Johnson-Lindenstrauss-(JL)-Lemma
Die Untersuchung führte zu neuen Einsichten in die grundlegenden Eigenschaften von Vektorräumen und in Optimierung und mündete sogar in eine Zusammenarbeit mit Grant
Quasi-Orthogonalität von Vektoren und die Kapazität von Embedding-Räumen
- In einem N-dimensionalen Raum gibt es nur N vollständig orthogonale Vektoren
- Erlaubt man stattdessen quasi-orthogonale Beziehungen, die leicht von 90 Grad abweichen (z. B. Winkel von 85 bis 95 Grad), wächst die Zahl der darstellbaren Vektoren im selben Raum exponentiell
- In Grants Video wird visualisiert, wie in einem 100-dimensionalen Raum 10.000 Einheitsvektoren nahezu orthogonal angeordnet werden können
- Bei der Reproduktion desselben Experiments zeigte sich jedoch eine subtile Falle im Design der Optimierungs-Verlustfunktion
Probleme und Muster der Verlustfunktion
- Grundlegende Verlustfunktion:
loss = (dot_products.abs()).relu().sum() - Auf der tatsächlichen Einheitskugel führt diese Verlustfunktion zu zwei Problemen
- Gradient Trap: Wenn sich der Winkel zwischen Vektoren 90 Grad nähert, wirkt der Gradient stark, doch nahe 0 oder 180 Grad ist der Gradient fast null, sodass Verbesserungen blockiert werden
- 99%-Lösung: Das Optimierungsverfahren minimiert den Gesamtverlust, indem jeder der 10.000 Vektoren zu 9.900 anderen korrekt orthogonal steht, zu 99 jedoch fast parallel ist (also faktisch Kopien von Referenzvektoren bildet)
- Diese Lösung unterscheidet sich insgesamt grundlegend von der erwarteten Verteilung, weshalb eine ausgefeiltere Verlustfunktion nötig ist
- Daher wurde die Verlustfunktion auf eine exponentielle Strafe umgestellt: loss = exp(20*dot_products.abs()**2).sum()
- Dieser Ansatz liefert Ergebnisse, die näher an der gewünschten Verteilung liegen (der maximale paarweise Winkel beträgt etwa 76,5 Grad)
Das Johnson-Lindenstrauss-(JL)-Lemma: geometrische Garantie
- Das JL-Lemma garantiert, dass bei einer zufälligen Projektion einer beliebigen Menge hochdimensionaler Datenpunkte in einen niedrigdimensionalen Raum die euklidischen Abstände nahezu erhalten bleiben
- Für 1 bis N Punkte, einen Fehlerfaktor ε und eine Projektionsdimension k gilt
(1-ε)||u-v||² ≤ ||f(u)-f(v)||² ≤ (1+ε)||u-v||² - Die minimal benötigte Dimension k ist:
k ≥ (C/ε²) * log(N)
wobei C eine Konstante ist, die die Erfolgswahrscheinlichkeit steuert - Üblicherweise wird C konservativ mit 4 bis 8 angesetzt, doch bei speziellen Projektionsverfahren (z. B. Hadamard-Matrizen oder Optimierungsverfahren) sind auch kleinere C-Werte erreichbar
Praktische Einsatzgebiete
- Dimensionsreduktion:
- Beispiel: Kundenpräferenzen im E-Commerce lassen sich effizient von Zehntausenden Produktdimensionen auf einige Tausend Dimensionen abbilden
- Dadurch werden Echtzeitanalyse hochdimensionaler Daten und Empfehlungssysteme möglich
- Analyse der Kapazitätsgrenzen von Embedding-Räumen:
- Statt vollständiger Orthogonalität lässt sich ein Spektrum aus Ähnlichkeiten und Unterschieden zwischen Konzepten natürlich im Raum ausdrücken
- Reale Wortbeispiele wie
archery,fire,gelatinousundgreenzeigen, wie physische und abstrakte Bedeutungen in hochdimensionalen Räumen überlagert dargestellt werden
Experimentelle Analyse der Embedding-Kapazität
- Optimierungen mit Hadamard-Matrix-Transformationen usw. zeigen C-Werte von 2,5 bis 4; bei GPU-basierter Optimierung können sie noch deutlich niedriger ausfallen
- Experimenteller Aufbau: N Standard-Basisvektoren werden nacheinander in einen k-dimensionalen Raum projiziert, mit 50.000 Optimierungsdurchläufen
- Beobachtungen:
- Der C-Wert steigt mit wachsendem N zunächst bis zu einem Maximum (~0,9) und fällt danach allmählich
- Mit steigendem Verhältnis N/k sinkt C auf unter 0,2
- Dies ist auf die Effizienz des Sphere Packing in hochdimensionalen Räumen zurückzuführen
- Das deutet darauf hin, dass in der Praxis noch weit mehr Konzepte darstellbar sind als die theoretischen Obergrenzen vermuten lassen
Die praktische Bedeutung für Sprachmodell-Embeddings
- Abhängig von der Embedding-Dimension k, dem annähernd orthogonalen Winkel F (90° minus tatsächlicher Winkel) und dem C-Wert ergibt sich für die speicherbare Zahl an Konzepten:
Vectors ≈ 10^(k * F² / 1500)
- k=12.288, F=1 (89°) → 10^8
- F=2 (88°) → 10^32
- F=3 (87°) → 10^73
- F=5 (85°) → Speicherung von mehr als 10^200 Vektoren möglich
- Schon 86 Grad reichen für mehr Vektoren als Atome im beobachtbaren Universum (10^80)
- Mit anderen Worten: Reale Sprachmodelle können selbst bei relativ wenigen Dimensionen Millionen von Bedeutungen reichhaltig bewahren
Praktische Anwendungen und künftige Richtungen
- Effiziente Dimensionsreduktion:
- Durch zufallsprojektionsbasierte Verfahren in Kombination mit Hadamard-Transformationen, BCH-Codierung usw. sind großskalige Dimensionsreduktion und schnelle Berechnungen auch ohne komplexe Optimierung möglich
- Design von Embedding-Räumen:
- Das Verständnis der Raumkapazität erklärt, wie große Sprachmodelle wie Transformer selbst feine Konzepte wie
CanadianoderMuppet-likegemeinsam mit ihren Bedeutungsbeziehungen erhalten können
- Das Verständnis der Raumkapazität erklärt, wie große Sprachmodelle wie Transformer selbst feine Konzepte wie
- Insgesamt sind die heutigen Embedding-Standards (1.000 bis 20.000 Dimensionen) für die Repräsentation menschlichen Wissens ausreichend; entscheidend ist das Lernen einer idealen Anordnung innerhalb dieses Raums
Fazit
- Ausgehend von der Untersuchung subtiler Optimierungsprobleme in Verlustfunktionen ergibt sich ein tieferer Einblick in hochdimensionale Geometrie und die Grundstruktur des Machine Learning
- Das 1984 veröffentlichte JL-Lemma liefert bis heute eine zentrale Grundlage für Machine-Learning-Embeddings, Informationsrepräsentation und Dimensionsreduktion
- Zum Schluss wird Grant Sanderson, dem 3Blue1Brown-Kanal und Suman Dev für die Zusammenarbeit gedankt und die Freude an dieser Forschung und dem Schreiben geteilt
Weiterführende Lektüre
- Sphere Packings, Lattices and Groups – Conway & Sloane
- Database-friendly random projections: Johnson-Lindenstrauss with binary coins – Achlioptas
- Hadamard Matrices, Sequences, and Block Designs – Seberry & Yamada
Noch keine Kommentare.