Wie Sprachmodelle Milliarden von Konzepten in 12.000 Dimensionen unterbringen

(nickyoder.com)

1 Punkte von GN⁺ 2025-09-16 | Noch keine Kommentare. | Auf WhatsApp teilen

In hochdimensionalen Embedding-Räumen lassen sich dank Quasi-Orthogonalität (quasi-orthogonality) statt vollständiger Orthogonalität unzählige Konzepte darstellen
Das Johnson-Lindenstrauss-Lemma garantiert, dass beliebige hochdimensionale Daten mit nahezu keinem Informationsverlust in niedrigere Dimensionen projiziert werden können
Im Optimierungsprozess ist das Design der Verlustfunktion entscheidend, da eine einfache Verlustfunktion zu ineffizienten oder verzerrten Vektoranordnungen führen kann
Experimentelle Ergebnisse zeigen, dass die tatsächliche Kapazität von Embedding-Räumen weit größer ist als theoretisch vermutet und dass Millionen bis Milliarden von Konzepten natürlich koexistieren können
Diese Erkenntnisse haben große praktische Bedeutung für Machine-Learning-Anwendungen wie Datenrepräsentation, Dimensionsreduktion und Embedding-Design

Einleitung: Die Frage nach der Kapazität des Embedding-Raums von Sprachmodellen

In der jüngsten Videoserie von 3Blue1Brown über Transformer-Modelle stellte Grant Sanderson die spannende Frage, wie der 12.288-dimensionale Embedding-Raum von GPT-3 Hunderttausende bis Millionen realer Konzepte enthalten kann
Diese Frage steht in Verbindung mit hochdimensionaler Geometrie und einem mathematischen Resultat namens Johnson-Lindenstrauss-(JL)-Lemma
Die Untersuchung führte zu neuen Einsichten in die grundlegenden Eigenschaften von Vektorräumen und in Optimierung und mündete sogar in eine Zusammenarbeit mit Grant

Quasi-Orthogonalität von Vektoren und die Kapazität von Embedding-Räumen

In einem N-dimensionalen Raum gibt es nur N vollständig orthogonale Vektoren
Erlaubt man stattdessen quasi-orthogonale Beziehungen, die leicht von 90 Grad abweichen (z. B. Winkel von 85 bis 95 Grad), wächst die Zahl der darstellbaren Vektoren im selben Raum exponentiell
In Grants Video wird visualisiert, wie in einem 100-dimensionalen Raum 10.000 Einheitsvektoren nahezu orthogonal angeordnet werden können
Bei der Reproduktion desselben Experiments zeigte sich jedoch eine subtile Falle im Design der Optimierungs-Verlustfunktion

Probleme und Muster der Verlustfunktion

Grundlegende Verlustfunktion:
loss = (dot_products.abs()).relu().sum()
Auf der tatsächlichen Einheitskugel führt diese Verlustfunktion zu zwei Problemen
1. Gradient Trap: Wenn sich der Winkel zwischen Vektoren 90 Grad nähert, wirkt der Gradient stark, doch nahe 0 oder 180 Grad ist der Gradient fast null, sodass Verbesserungen blockiert werden
2. 99%-Lösung: Das Optimierungsverfahren minimiert den Gesamtverlust, indem jeder der 10.000 Vektoren zu 9.900 anderen korrekt orthogonal steht, zu 99 jedoch fast parallel ist (also faktisch Kopien von Referenzvektoren bildet)
Diese Lösung unterscheidet sich insgesamt grundlegend von der erwarteten Verteilung, weshalb eine ausgefeiltere Verlustfunktion nötig ist
Daher wurde die Verlustfunktion auf eine exponentielle Strafe umgestellt: loss = exp(20*dot_products.abs()**2).sum()
Dieser Ansatz liefert Ergebnisse, die näher an der gewünschten Verteilung liegen (der maximale paarweise Winkel beträgt etwa 76,5 Grad)

Das Johnson-Lindenstrauss-(JL)-Lemma: geometrische Garantie

Das JL-Lemma garantiert, dass bei einer zufälligen Projektion einer beliebigen Menge hochdimensionaler Datenpunkte in einen niedrigdimensionalen Raum die euklidischen Abstände nahezu erhalten bleiben
Für 1 bis N Punkte, einen Fehlerfaktor ε und eine Projektionsdimension k gilt
(1-ε)||u-v||² ≤ ||f(u)-f(v)||² ≤ (1+ε)||u-v||²
Die minimal benötigte Dimension k ist: k ≥ (C/ε²) * log(N)
wobei C eine Konstante ist, die die Erfolgswahrscheinlichkeit steuert
Üblicherweise wird C konservativ mit 4 bis 8 angesetzt, doch bei speziellen Projektionsverfahren (z. B. Hadamard-Matrizen oder Optimierungsverfahren) sind auch kleinere C-Werte erreichbar

Praktische Einsatzgebiete

Dimensionsreduktion:
- Beispiel: Kundenpräferenzen im E-Commerce lassen sich effizient von Zehntausenden Produktdimensionen auf einige Tausend Dimensionen abbilden
- Dadurch werden Echtzeitanalyse hochdimensionaler Daten und Empfehlungssysteme möglich
Analyse der Kapazitätsgrenzen von Embedding-Räumen:
- Statt vollständiger Orthogonalität lässt sich ein Spektrum aus Ähnlichkeiten und Unterschieden zwischen Konzepten natürlich im Raum ausdrücken
- Reale Wortbeispiele wie archery, fire, gelatinous und green zeigen, wie physische und abstrakte Bedeutungen in hochdimensionalen Räumen überlagert dargestellt werden

Experimentelle Analyse der Embedding-Kapazität

Optimierungen mit Hadamard-Matrix-Transformationen usw. zeigen C-Werte von 2,5 bis 4; bei GPU-basierter Optimierung können sie noch deutlich niedriger ausfallen
Experimenteller Aufbau: N Standard-Basisvektoren werden nacheinander in einen k-dimensionalen Raum projiziert, mit 50.000 Optimierungsdurchläufen
Beobachtungen:
1. Der C-Wert steigt mit wachsendem N zunächst bis zu einem Maximum (~0,9) und fällt danach allmählich
2. Mit steigendem Verhältnis N/k sinkt C auf unter 0,2
Dies ist auf die Effizienz des Sphere Packing in hochdimensionalen Räumen zurückzuführen
Das deutet darauf hin, dass in der Praxis noch weit mehr Konzepte darstellbar sind als die theoretischen Obergrenzen vermuten lassen

Die praktische Bedeutung für Sprachmodell-Embeddings

Abhängig von der Embedding-Dimension k, dem annähernd orthogonalen Winkel F (90° minus tatsächlicher Winkel) und dem C-Wert ergibt sich für die speicherbare Zahl an Konzepten: Vectors ≈ 10^(k * F² / 1500)
- k=12.288, F=1 (89°) → 10^8
- F=2 (88°) → 10^32
- F=3 (87°) → 10^73
- F=5 (85°) → Speicherung von mehr als 10^200 Vektoren möglich
Schon 86 Grad reichen für mehr Vektoren als Atome im beobachtbaren Universum (10^80)
Mit anderen Worten: Reale Sprachmodelle können selbst bei relativ wenigen Dimensionen Millionen von Bedeutungen reichhaltig bewahren

Praktische Anwendungen und künftige Richtungen

Effiziente Dimensionsreduktion:
- Durch zufallsprojektionsbasierte Verfahren in Kombination mit Hadamard-Transformationen, BCH-Codierung usw. sind großskalige Dimensionsreduktion und schnelle Berechnungen auch ohne komplexe Optimierung möglich
Design von Embedding-Räumen:
- Das Verständnis der Raumkapazität erklärt, wie große Sprachmodelle wie Transformer selbst feine Konzepte wie Canadian oder Muppet-like gemeinsam mit ihren Bedeutungsbeziehungen erhalten können

Insgesamt sind die heutigen Embedding-Standards (1.000 bis 20.000 Dimensionen) für die Repräsentation menschlichen Wissens ausreichend; entscheidend ist das Lernen einer idealen Anordnung innerhalb dieses Raums

Fazit

Ausgehend von der Untersuchung subtiler Optimierungsprobleme in Verlustfunktionen ergibt sich ein tieferer Einblick in hochdimensionale Geometrie und die Grundstruktur des Machine Learning
Das 1984 veröffentlichte JL-Lemma liefert bis heute eine zentrale Grundlage für Machine-Learning-Embeddings, Informationsrepräsentation und Dimensionsreduktion
Zum Schluss wird Grant Sanderson, dem 3Blue1Brown-Kanal und Suman Dev für die Zusammenarbeit gedankt und die Freude an dieser Forschung und dem Schreiben geteilt

Weiterführende Lektüre

Sphere Packings, Lattices and Groups – Conway & Sloane
Database-friendly random projections: Johnson-Lindenstrauss with binary coins – Achlioptas
Hadamard Matrices, Sequences, and Block Designs – Seberry & Yamada