- Die Platonic Representation Hypothesis (Hypothese platonischer Repräsentationen) besagt, dass KI-Modelle, je größer und intelligenter sie werden, intern zu ähnlichen Repräsentationsräumen konvergieren.
- Über das Konzept der Kompression (compression) bei Sprachmodellen wird erklärt, wie sich Intelligenz als Fähigkeit zur Datenkompression interpretieren lässt und warum sich die Methoden von Modellen beim Generalisieren stärker ähneln.
- Die Analyse des Problems der Embedding-Inversion zeigt, dass sich nach der PRH die Embedding-Räume unterschiedlicher Modelle mit Verfahren wie CycleGAN aufeinander ausrichten lassen.
- Experimente mit Sparse Autoencodern und Ähnlichem zeigen, dass selbst sehr unterschiedliche Netzwerke identische oder ähnliche Konzepte und Schaltkreise entdecken.
- Diese Einsichten eröffnen praktische Anwendungsmöglichkeiten, etwa bei der Entzifferung antiker unentzifferter Schriften oder der Interpretation von Tiersprachen.
Einleitung: Das Spiel „Mussolini oder Bread“ und geteilte Bedeutung
- Der Autor führt als Beispiel das Spiel „Mussolini oder Bread“ an, bei dem man durch wiederholtes Eingrenzen von Fragen erschließt, woran das Gegenüber denkt.
- Möglich ist dieses Spiel, weil es einen gemeinsamen Bedeutungsraum (Semantik) zwischen Menschen gibt.
- Hervorgehoben wird, dass unterschiedliche Menschen auch ohne formale Regeln intuitiv verstehen, was semantisch „nah“ beieinanderliegt.
Universelle Semantik: Kompression der Welt und des Modells
- Wie bei diesem Spiel konstruiert auch das menschliche Gehirn auf ähnliche Weise ein komplexes Modell der realen Welt.
- KI aus algorithmischer Perspektive lernt, indem sie die Daten der Welt möglichst stark komprimiert.
- Die Erzeugung natürlicher Sprache lässt sich als Kompressionsprozess auf Basis von Wahrscheinlichkeitsverteilungen verstehen (Shannons Informationstheorie).
- Je besser ein Modell Daten komprimiert, desto tiefer scheint es die reale Welt zu verstehen.
- Tatsächlich zeigen größere Sprachmodelle bessere Fähigkeiten zur Datenkompression und höhere Intelligenz.
- Wenn Datensätze so groß werden, dass sich einzelne Datenpunkte nicht mehr auswendig speichern lassen, beginnt das Modell, Daten zu kombinieren und zu generalisieren.
Platonic Representation Hypothesis (Hypothese platonischer Repräsentationen)
- Forschende am MIT haben die „Platonic Representation Hypothesis“ im Jahr 2024 formalisiert.
- Nach dieser Hypothese nimmt mit wachsender Modellgröße die Zahl der gemeinsamen Features zu, und die Repräsentationsräume werden ähnlich ausgerichtet.
- Das wurde experimentell bereits in verschiedenen Bereichen wie Sprache und Bildverarbeitung beobachtet.
- Da Modelle jedes Jahr größer und effizienter werden, ist zu erwarten, dass die Ähnlichkeit der Repräsentationsräume zwischen Modellen weiter zunimmt.
Das Problem der Embedding-Inversion
- Der Autor beschreibt seine Forschungserfahrung mit dem Problem der Embedding-Inversion, also dem Rückschluss vom Embedding-Vektor auf den tatsächlichen Eingabetext.
- Bereits bei ImageNet und ähnlichen Datensätzen gab es Fälle, in denen sich allein aus Wahrscheinlichkeitswerten Informationen rekonstruieren ließen, die dem Originalbild stark ähneln.
- Bei Sprach-Embeddings scheint die Informationsmenge hoch zu sein, doch weil ähnliche Texte ähnliche Embeddings haben, ist eine eindeutige Rekonstruktion sehr schwierig.
- Dafür erwies sich eine Technik des iterative refinement als wirksam, bei der man sich durch wiederholte Embedding-Suche und Optimierung schrittweise präziseren Texten annähert.
- Mit diesem Ansatz wurde die Möglichkeit einer Inversion mit über 94 % Genauigkeit auf Ebene langer Sätze nachgewiesen.
Verallgemeinerung der Embedding-Inversion mit der platonischen Hypothese
- Bisherige Methoden ließen sich jedoch nur auf bestimmte Embedding-Modelle anwenden und hatten bei neuen oder proprietären Modellen Grenzen.
- Wenn die PRH stimmt, lässt sich auch zwischen verschiedenen Modellen ein universeller Embedding-Inverter bauen.
- Über mehrere Jahre wurde erforscht, wie sich bei gegebenen, nicht gepaarten unterschiedlichen Embedding-Mengen (A, B) die Räume mit einem CycleGAN-Ansatz ausrichten lassen.
- Im Ergebnis gelang es, auch ohne separates Fine-Tuning zwischen zwei Embedding-Räumen per unsupervised matching zu transformieren (
vec2vec).
- Dadurch wurde gezeigt, dass sich Embeddings beliebiger Datenbanken auch ohne individuelle Informationen zu jedem Embedding übersetzen oder rückwärts erschließen lassen.
Möglichkeit maschineller Interpretation: Universal Circuits
- Auch in der Mechanistic Interpretability zeigt die Analyse von Schaltkreisen, dass trotz unterschiedlicher Modellarchitekturen gemeinsame interne Funktionen gefunden werden.
- Die Anwendung von Sparse Autoencodern (SAE) zeigte, dass selbst bei unabhängig trainierten Modellen eine beträchtliche Überlappung bei interpretierbaren Features besteht.
- Durch den Vergleich der Features zweier SAEs ist eine modellübergreifende Ausrichtung von Konzepten möglich.
- Wenn die PRH noch präziser zutrifft, ist zu erwarten, dass dieses Phänomen bei leistungsfähigeren Modellen noch deutlicher hervortritt.
Praktische Implikationen und Ausblick
- Die Hypothese platonischer Repräsentationen hat neben tiefgreifenden philosophischen Implikationen auch reale praktische Möglichkeiten für Modellinterpretation, Inversion, Signalentschlüsselung und Sprachrekonstruktion.
- Mit fortschreitenden Interpretationsmethoden dürfte es künftig bei größeren Modellen immer üblicher werden, Repräsentationsräume auszurichten und interne Gemeinsamkeiten zu entdecken.
- Auch die Entzifferung bislang unlösbarer antiker Schriften wie Linear A oder die Interpretation von Tiersprachen (etwa Walgesängen) könnte künftig möglich werden.
- Aktuelle Verfahren wie
vec2vec haben zwar noch Schwächen, zeigen aber bei internetbasierten sowie Bild-Text-Embeddings bereits beachtliche Erfolge.
- Das deutet darauf hin, dass auch Raumtransformationen zwischen Sprachen sowie Konversionen von Walsprache in menschliche Sprache künftig denkbar sind.
1 Kommentare
Hacker-News-Kommentare