Alle KI-Modelle könnten gleich sein

(blog.jxmo.io)

1 Punkte von GN⁺ 2025-07-19 | 1 Kommentare | Auf WhatsApp teilen

Die Platonic Representation Hypothesis (Hypothese platonischer Repräsentationen) besagt, dass KI-Modelle, je größer und intelligenter sie werden, intern zu ähnlichen Repräsentationsräumen konvergieren.
Über das Konzept der Kompression (compression) bei Sprachmodellen wird erklärt, wie sich Intelligenz als Fähigkeit zur Datenkompression interpretieren lässt und warum sich die Methoden von Modellen beim Generalisieren stärker ähneln.
Die Analyse des Problems der Embedding-Inversion zeigt, dass sich nach der PRH die Embedding-Räume unterschiedlicher Modelle mit Verfahren wie CycleGAN aufeinander ausrichten lassen.
Experimente mit Sparse Autoencodern und Ähnlichem zeigen, dass selbst sehr unterschiedliche Netzwerke identische oder ähnliche Konzepte und Schaltkreise entdecken.
Diese Einsichten eröffnen praktische Anwendungsmöglichkeiten, etwa bei der Entzifferung antiker unentzifferter Schriften oder der Interpretation von Tiersprachen.

Einleitung: Das Spiel „Mussolini oder Bread“ und geteilte Bedeutung

Der Autor führt als Beispiel das Spiel „Mussolini oder Bread“ an, bei dem man durch wiederholtes Eingrenzen von Fragen erschließt, woran das Gegenüber denkt.
Möglich ist dieses Spiel, weil es einen gemeinsamen Bedeutungsraum (Semantik) zwischen Menschen gibt.
Hervorgehoben wird, dass unterschiedliche Menschen auch ohne formale Regeln intuitiv verstehen, was semantisch „nah“ beieinanderliegt.

Universelle Semantik: Kompression der Welt und des Modells

Wie bei diesem Spiel konstruiert auch das menschliche Gehirn auf ähnliche Weise ein komplexes Modell der realen Welt.
KI aus algorithmischer Perspektive lernt, indem sie die Daten der Welt möglichst stark komprimiert.
Die Erzeugung natürlicher Sprache lässt sich als Kompressionsprozess auf Basis von Wahrscheinlichkeitsverteilungen verstehen (Shannons Informationstheorie).
Je besser ein Modell Daten komprimiert, desto tiefer scheint es die reale Welt zu verstehen.
Tatsächlich zeigen größere Sprachmodelle bessere Fähigkeiten zur Datenkompression und höhere Intelligenz.
Wenn Datensätze so groß werden, dass sich einzelne Datenpunkte nicht mehr auswendig speichern lassen, beginnt das Modell, Daten zu kombinieren und zu generalisieren.

Platonic Representation Hypothesis (Hypothese platonischer Repräsentationen)

Forschende am MIT haben die „Platonic Representation Hypothesis“ im Jahr 2024 formalisiert.
Nach dieser Hypothese nimmt mit wachsender Modellgröße die Zahl der gemeinsamen Features zu, und die Repräsentationsräume werden ähnlich ausgerichtet.
Das wurde experimentell bereits in verschiedenen Bereichen wie Sprache und Bildverarbeitung beobachtet.
Da Modelle jedes Jahr größer und effizienter werden, ist zu erwarten, dass die Ähnlichkeit der Repräsentationsräume zwischen Modellen weiter zunimmt.

Das Problem der Embedding-Inversion

Der Autor beschreibt seine Forschungserfahrung mit dem Problem der Embedding-Inversion, also dem Rückschluss vom Embedding-Vektor auf den tatsächlichen Eingabetext.
Bereits bei ImageNet und ähnlichen Datensätzen gab es Fälle, in denen sich allein aus Wahrscheinlichkeitswerten Informationen rekonstruieren ließen, die dem Originalbild stark ähneln.
Bei Sprach-Embeddings scheint die Informationsmenge hoch zu sein, doch weil ähnliche Texte ähnliche Embeddings haben, ist eine eindeutige Rekonstruktion sehr schwierig.
Dafür erwies sich eine Technik des iterative refinement als wirksam, bei der man sich durch wiederholte Embedding-Suche und Optimierung schrittweise präziseren Texten annähert.
Mit diesem Ansatz wurde die Möglichkeit einer Inversion mit über 94 % Genauigkeit auf Ebene langer Sätze nachgewiesen.

Verallgemeinerung der Embedding-Inversion mit der platonischen Hypothese

Bisherige Methoden ließen sich jedoch nur auf bestimmte Embedding-Modelle anwenden und hatten bei neuen oder proprietären Modellen Grenzen.
Wenn die PRH stimmt, lässt sich auch zwischen verschiedenen Modellen ein universeller Embedding-Inverter bauen.
Über mehrere Jahre wurde erforscht, wie sich bei gegebenen, nicht gepaarten unterschiedlichen Embedding-Mengen (A, B) die Räume mit einem CycleGAN-Ansatz ausrichten lassen.
Im Ergebnis gelang es, auch ohne separates Fine-Tuning zwischen zwei Embedding-Räumen per unsupervised matching zu transformieren (vec2vec).
Dadurch wurde gezeigt, dass sich Embeddings beliebiger Datenbanken auch ohne individuelle Informationen zu jedem Embedding übersetzen oder rückwärts erschließen lassen.

Möglichkeit maschineller Interpretation: Universal Circuits

Auch in der Mechanistic Interpretability zeigt die Analyse von Schaltkreisen, dass trotz unterschiedlicher Modellarchitekturen gemeinsame interne Funktionen gefunden werden.
Die Anwendung von Sparse Autoencodern (SAE) zeigte, dass selbst bei unabhängig trainierten Modellen eine beträchtliche Überlappung bei interpretierbaren Features besteht.
Durch den Vergleich der Features zweier SAEs ist eine modellübergreifende Ausrichtung von Konzepten möglich.
Wenn die PRH noch präziser zutrifft, ist zu erwarten, dass dieses Phänomen bei leistungsfähigeren Modellen noch deutlicher hervortritt.

Praktische Implikationen und Ausblick

Die Hypothese platonischer Repräsentationen hat neben tiefgreifenden philosophischen Implikationen auch reale praktische Möglichkeiten für Modellinterpretation, Inversion, Signalentschlüsselung und Sprachrekonstruktion.
Mit fortschreitenden Interpretationsmethoden dürfte es künftig bei größeren Modellen immer üblicher werden, Repräsentationsräume auszurichten und interne Gemeinsamkeiten zu entdecken.
Auch die Entzifferung bislang unlösbarer antiker Schriften wie Linear A oder die Interpretation von Tiersprachen (etwa Walgesängen) könnte künftig möglich werden.
Aktuelle Verfahren wie vec2vec haben zwar noch Schwächen, zeigen aber bei internetbasierten sowie Bild-Text-Embeddings bereits beachtliche Erfolge.
Das deutet darauf hin, dass auch Raumtransformationen zwischen Sprachen sowie Konversionen von Walsprache in menschliche Sprache künftig denkbar sind.

1 Kommentare

GN⁺ 2025-07-19

Hacker-News-Kommentare

Dass alle Menschen ähnliche Konzepte wie „Hund“, „Haus“, „Mensch“ oder „Boot“ lernen, ist äußerst faszinierend, fast wie Platons Ideenlehre: Selbst wenn wir in unterschiedlichen Umgebungen aufwachsen und sich unsere Beobachtungserfahrungen nicht überschneiden, einigen wir uns am Ende auf dieselben Konzepte. Große Sprachmodelle (LLMs) zeigen ein ähnliches Lernen, aber weil sich ihre Trainingsdaten stark überschneiden, ist das weniger erstaunlich als beim Menschen. Wenn es wirklich so etwas wie universelle Moral oder Tugenden gibt, etwa die von Platon angesprochene „Idee des Guten“, könnte man hoffen, dass man auch LLMs solche Werte beibringen kann, damit sie ihnen folgen oder gegenteilige Anfragen ablehnen.
- Konzepte wie „das Gute“ oder „Fairness“ sind je nach Situation sehr viel komplexer. Bei einfachen Dingen wie Booten oder Häusern können wir uns einigen, aber bei moralischen Fragen wie Abtreibung, Sterbehilfe oder Tier- bzw. Stammzellenexperimenten unterscheiden sich die Ansichten selbst innerhalb derselben Gesellschaft stark. Siehe dazu zum Beispiel die Grafik mit den Ergebnissen einer Gallup-Umfrage von 2010.
- Das Wort „ungefähr“ leistet zu viel, wenn es darum geht zu behaupten, Platon habe recht. Wir leben in derselben Realität mit denselben physikalischen Gesetzen und evolutionären Zwängen, daher gibt es nur begrenzte Möglichkeiten dafür, wie ein Boot auf dem Wasser schwimmt. Das heißt aber nicht, dass platonische Ideen tatsächlich existieren und deshalb alle bei exakt denselben Konzepten ankommen. Tatsächlich unterscheiden sich selbst Wörter wie „Freiheit“, „Wirtschaft“ oder „Staat“ in Definition und Interpretation von Person zu Person; die Grammatik ist gleich, daher wirkt es oberflächlich ähnlich, aber die eigentlichen Konzepte sind verschieden.
- Letztlich verstehe ich das als Jungs Konzept des Archetyps.
Das Beispiel, Embeddings wieder in Text zurückzuverwandeln, stützt das Konzept eines „statistischen Modells einer geteilten Realität“ nicht. Eine Walsprachen-Version von „Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby“ ist kaum vorstellbar; Kentucky, Derby, gregorianischer Kalender, USA, Pferderassen usw. sind alles Artefakte, die nur dank menschlicher historischer Zufälle und Kultur wichtig geworden sind. Letztlich werden alle nur auf denselben Datenhaufen trainiert und werden deshalb statistisch ähnlich.
- Unabhängig davon, ob das Kentucky Derby zum „Kern der Realität“ gehört, muss man etwas darüber wissen, um die Realität zu 100 % korrekt zu modellieren. Der Autor behauptet, das Modell konvergiere letztlich auf eine Repräsentation, die platonischen Ideen näherkommt. Wenn es ein vollständig autonomes Modell mit perfekter Übersetzbarkeit gäbe, müsste es Konzepte wie „Pferderennen“ oder „Pferd, das ein Rennen gewonnen hat“ auch in hochdimensionaler Form vermitteln können. Ob Platons Ideenlehre tatsächlich stimmt oder nicht, ist wiederum eine andere Frage als die, ob heutige LLMs schon so weit sind.
- Zu behaupten, die Realität sei vollständig kulturell, ist sinnlos; das gilt genauso für wissenschaftliche Fakten. Auch wenn ein Wal das Wort Wissenschaft nicht kennt, existiert Gravitation trotzdem. Wenn ein LLM nur Newtons Gravitationstheorie gelernt hätte und dann Einsteins allgemeine Relativitätstheorie (GR) auftauchte, würde sich die Erklärungskraft von GR für die Realität nicht dadurch ändern, dass GR nicht in den Trainingsdaten vorkam. Außerdem mag es unmöglich sein, GR in Walgesang zu übersetzen, aber sie ließe sich vielleicht über Englisch–Chinesisch–ML-Modell–Konzepte im Gehirn vermitteln; genau das ist mit einem „geteilten statistischen Realitätsmodell“ gemeint. Auch wenn man GR nicht in Babygebrabbel übersetzen kann, ändert das nichts an ihrem Realitätsbezug.
- Es ist schwer zu sagen, dass LLMs auf ein statistisches Modell der Realität konvergieren; tatsächlich konvergieren sie eher auf ein statistisches Modell der Trainingsdaten. Nur weil die Trainingsdaten so riesig sind, scheint es, als würden sie etwas Gemeinsames in allen Texten finden. Das wird uns vermutlich nicht die zentralen Wahrheiten der Realität offenlegen, aber vielleicht erklären, warum Phänomene wie „Wenn wir diese Redewendung benutzen, verstehen alle diese Bedeutung“ auftreten.
- Den Satz „Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby“ ins Griechische oder in manche moderne indigene Sprachen zu übersetzen, ist fast genauso unmöglich. Es fehlt völlig an geteiltem kulturellem Kontext, daher braucht man ein Glossar oder ein LLM, das selbst die Rolle eines Glossars übernimmt, damit das verständlich wird. Die derzeit besten LLMs können allerdings bereits mikroskopische bis makroskopische Konzepte wie QCD, Gravitation oder kulturelle Phänomene erklären, und wenn man wirklich in eine ganz neue Sprache übersetzen müsste, könnte man vielleicht mit Grundkonzepten anfangen und die Struktur langsam aufbauen. Dass LLMs menschliche Sprachen grundsätzlich auch ohne separate Anleitung übersetzen können, liegt letztlich an genau dieser Fähigkeit.
- Dieses Thema ließe sich leicht überprüfen, indem man zwei Modelle mit vollständig unterschiedlichen Datensätzen trainiert, etwa eines nur auf altchinesischen Texten und eines nur auf Altgriechisch, und dann testet, ob ähnliche Strukturen entstehen.
Die Erwartung „Wir können Walsprachen oder alte Sprachen übersetzen“ ist übermäßig optimistisch. Das Wichtigste an Sprache ist Kontext. KI ist gut mit menschlicher Sprache, weil es Milliarden von Texten gibt, die auf menschlicher Erfahrung beruhen; bei Walen gibt es solche Daten nicht.
- Das wirft die Frage auf: „Wenn ein Löwe sprechen könnte, würden wir ihn verstehen?“
- Die Welt um uns herum ist eine geteilte Erfahrung für Menschen, Wale und andere Tiere. Unter diesem Gesichtspunkt gibt es auch zwischen Walen und Menschen Überschneidungen.
- Entscheidend ist, ob es „einen geteilten Repräsentationsraum zwischen Sprachen“ gibt. Falls ja, könnte man die sprachspezifische Struktur und die Übersetzungsabbildung getrennt lernen. Letzteres, hier als „Universal Embedding Inverter“ bezeichnet, könnte leichter zu lernen sein, und wenn die Struktur hinreichend eigenständig ist, könnte man sie in einen gemeinsamen Repräsentationsraum abbilden und so nutzen. Wenn Übersetzung auch ohne Kontext möglich wäre — bisher eher eine hoffnungsvolle Vermutung —, wäre das etwas, das man unvoreingenommen erforschen sollte.
- Wenn man Gorillas oder Elefanten (beide hochintelligent) beibringen könnte, Dinge zu benennen und Symbole zu verwenden, könnten auch sie Erfahrung und Weisheit über Generationen weitergeben und still eine Intelligenz entfalten, die der unseren ebenbürtig ist. Ich interessiere mich in diesem Zusammenhang für Googles Dolphin-Projekt mit Gemma, hätte aber lieber Elefanten statt Delfine als Forschungsobjekte, weil Menschen Landtiere sind. So wären unmittelbare Forschungsrückkopplungen an Land möglich, und man könnte sich stärker auf Grundlagenforschung konzentrieren.
Dieser Ansatz funktioniert nur, wenn die Eigenschaftsverteilungen und semantischen Beziehungen der jeweiligen Quellen hinreichend ähnlich sind. Beim MB-Spiel (Vergleichs-Ratespiel wie Mussolini vs Bread) scheitert man, wenn der andere eine Person auswählt, die man nicht kennt. Dann erkennt man die Referenz nicht oder bewertet die semantische Distanz anders. Mit Experten funktioniert es auf Expertenniveau, mit Laien auf Laienniveau. Auch die Entzifferung antiker Dokumente hat dieses Problem: Wenn sich eine antike Zivilisation auf Konzepte konzentrierte, die sich völlig von unseren heutigen unterschieden, wird das Verständnis mit modernen semantischen Embeddings fast unmöglich.
- Wenn ich mit Freunden MB spiele — bei Personen habe ich noch nie bis zum Ende korrekt geraten.
Beim Beispiel mit dem Mussolini-vs-Bread-Spiel ist die Schlussfolgerung „Dann muss es auf jeden Fall eine Person sein“ logisch nicht zwingend; auch bei Tieren könnte es mehr Antworten dieser Art geben.
- Der Witz ist, dass David Beckham weniger deshalb als Person gilt, sondern eher als eine Art Humor darüber, dass er sich — selbst im Vergleich zur Verkörperung des Bösen — nicht besonders menschlich anfühlt.
- Die Logik ist wacklig, aber genau darum geht es: Trotz solcher Erklärungslücken können Menschen die Antwort oft richtig erschließen. Das spricht dafür, dass Menschen einen geteilten unscharfen semantischen Raum haben.
- Ich denke ähnlich wie der Autor. Mein Wort wäre wahrscheinlich „Gewehr“ oder „Artillerie“, und auch das könnte logische Lücken offenbaren. Solche Beispiele deuten auch darauf hin, warum man RAG-(retrieval-augmented generation)-Probleme nicht allein mit reiner Embedding-Suche lösen kann.
- Bitte kleine logische Fehler nachsehen.
- Es könnte auch eine schräge Antwort wie Oswald Mosley herauskommen.
Ich stimme der Behauptung nicht zu, dass „dieses Spiel funktioniert, weil die Dinge in der Welt nur auf eine einzige Weise miteinander verbunden sind“. Es gibt viele verschiedene Beziehungen, und auch diese entstehen aus der Realität, in der wir leben. Das Wort „Weise“ scheint hier in mehreren Bedeutungen benutzt zu werden, und das Zitat ist so vage formuliert, dass Verwirrung entsteht.
Ich stimme zu, dass LLMs als kollektives Produkt der Menschheit auf die heutige Repräsentation der Realität konvergieren. Jetzt muss man KI nur noch mit sensorischem Input in Echtzeit, virtuellen Hormonen mit unterschiedlichen Halbwertszeiten auf Basis von Spracheinsatz und Energieverbrauch, einer permanenten Denkschleife und künstlichem Psilocybin ausstatten, das kreative neuronale Verbindungen auslöst. Wenn es für die Menschheit eine Stoned-Ape-Theorie gibt, braucht KI eine Stoned-AI-Theorie.
- Vielleicht könnte man KI auch als Attraktion in einem Themenpark einsetzen und Anthony Hopkins die Kontrolle über den Quellcode geben — was könnte da schon schiefgehen?
- Es langweilt mich inzwischen, KI-Texte zu lesen, aber wenn eine Meldung mit „Wir haben der KI Pilze gegeben“ auftauchte, würde ich sofort klicken.
Als ich las: „Als Ilya über Intelligenz und Kompression sprach, konnte ich das überhaupt nicht verstehen“, fragte ich mich, ob Marcus Hutter in Vergessenheit geraten ist. Wenn das so ist, lohnt es sich auf jeden Fall, sich den Hutter Prize noch einmal anzusehen.
Ich habe Grok, o3-pro und Claude zum piezoelektrischen Effekt befragt. Alle gaben korrekte Antworten, aber nur Claude wies auch auf sekundäre Effekte in realen Anwendungsszenarien hin. Die drei Modelle durchsuchen vielleicht denselben Raum, aber Claude liefert noch eine Ebene mehr an Tiefe.
- Eine Sache würde mich interessieren: Ist es Grok 3 oder 4?
Der Dao kann ausgesprochen werden, aber der Dao, der ausgesprochen werden kann, ist nicht der ewige Dao. Wenn man mich fragt, was der Dao ist, würde ich sagen: Er ist „Wille“. Wille lässt sich vom Menschen auch in Sprache ausdrücken. Derselbe Wille kann auf Chinesisch, Japanisch oder Englisch ausgedrückt werden; Sprache ist nur eine jeweils andere Repräsentation. Große Sprachmodelle lernen Willen ebenfalls über Wort-Token, und wenn sie ihn ausdrücken, verwirklichen sie den Dao. In diesem Sinne stimme ich der Behauptung zu, dass „AI-Modelle im Wesentlichen alle gleich sein könnten“.

Alle KI-Modelle könnten gleich sein

Einleitung: Das Spiel „Mussolini oder Bread“ und geteilte Bedeutung

Universelle Semantik: Kompression der Welt und des Modells

Platonic Representation Hypothesis (Hypothese platonischer Repräsentationen)

Das Problem der Embedding-Inversion

Verallgemeinerung der Embedding-Inversion mit der platonischen Hypothese

Möglichkeit maschineller Interpretation: Universal Circuits

Praktische Implikationen und Ausblick

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare