- Deep Learning kann als eine Folge topologischer Transformationen verstanden werden, die Daten auf sinnvolle Weise umformen
- Neuronale Netze transformieren Daten in hochdimensionalen Räumen und wirken als Topologie-Generatoren, die ursprünglich nicht trennbare Daten unterscheidbar machen
- Daten existieren auf hochdimensionalen Mannigfaltigkeiten (manifolds), und neuronale Netze lernen die Struktur dieser Mannigfaltigkeiten für sinnvolle Aufgaben wie Klassifikation, Übersetzung und Schlussfolgern
- In der aktuellen KI-Forschung werden verschiedene Verfahren des überwachten Lernens und Reinforcement Learning (z. B. RLHF) eingeführt, um sich auf der Schlussfolgerungs-Mannigfaltigkeit zu besseren Punkten zu bewegen
- Neuronale Netze selbst, Bilder, Texte und Schlussfolgerungslogik lassen sich alle als Mannigfaltigkeiten darstellen, und neuronale Netze fungieren als universelle Topologie-Entdecker
Die Beziehung zwischen Deep Learning und Topologie
- Topologie ist das mathematische Gebiet, das Eigenschaften untersucht, die bei der Verformung von Objekten unverändert bleiben
- Deep-Learning-Neuronale-Netze verändern die Verteilung und Struktur von Daten schrittweise, indem sie auf Eingabedaten wiederholt lineare und nichtlineare Transformationen anwenden (z. B. Matrixmultiplikation, tanh)
- Jede Operation in den Schichten eines neuronalen Netzes kann als geometrische Transformation interpretiert werden, und mit der Akkumulation dieser Transformationen lassen sich komplexe Datenstrukturen trennen und klassifizieren
- Diese Eigenschaft ermöglicht es, in verschiedenen Datensätzen komplexe Klassen zu unterscheiden, die ursprünglich nicht mit einer einzelnen Linie oder Fläche getrennt werden konnten
Dimensionserweiterung und Datentrennung
- Daten, die sich auf einer zweidimensionalen Ebene überlagern und nicht unterscheiden lassen, können durch die Überführung in höhere Dimensionen leicht getrennt werden
- Im Unterschied zum Menschen können neuronale Netze in beliebig hohen Dimensionen operieren und dadurch auch mit sehr komplexen Datenmustern umgehen
- Als Beispiel werden Klassifikationsprobleme wie Hunde und Katzen auf Fotos in Strukturen (Mannigfaltigkeiten) rekonstruiert, die sich im hochdimensionalen Raum mathematisch trennen lassen
Bedeutung und Rolle tiefer neuronaler Netze
- Neuronale Netze sind „Werkzeuge zur Erzeugung von Topologie“, die Eingabedaten in sinnvolle Strukturen neu anordnen
- Die Verlustfunktion (loss function) definiert, welche Eigenschaften der Daten gelernt werden sollen, und erzeugt dadurch Oberflächen bzw. Topologien, die zu verschiedenen Aufgaben wie Klassifikation, Übersetzung oder Vorhersage passen
- Alle bedeutungstragenden Daten (Text, Bild, Ton usw.) werden als hochdimensionale numerische Vektoren (embedding vectors) gespeichert, wodurch in diesem Raum flexible mathematische Operationen möglich werden
Mannigfaltigkeiten und die Darstellung von Bedeutung
- Farben, Bilder, Wörter und sogar Möbelklassifikationen: Alle Informationen und Konzepte existieren in einem bestimmten hochdimensionalen Mannigfaltigkeitsraum
- Beispielsweise werden alle Pixelwerte eines RGB-Bildes als riesiger Vektor dargestellt, sodass auf der Bild-Mannigfaltigkeit sinnvolle Transformationen und Ähnlichkeiten analysiert werden können
- Durch Embedding-Operationen können semantisch verwandte Konzepte räumlich nahe angeordnet werden (z. B. "king" - "man" + "woman" = "queen")
Neuronale Netze, Schlussfolgern und mannigfaltigkeitsbasierte Lernstrategien
- Auch menschliches Schlussfolgern selbst kann als Cluster auf einer hochdimensionalen Mannigfaltigkeit modelliert werden, und neuronale Netze bewegen sich entlang dieser Struktur schrittweise zu besserem Schlussfolgern
- Eine aktuelle Grenze großer Sprachmodelle (LLMs) besteht darin, dass reine Sprachstatistik (next-token prediction) allein nicht ausreicht, um Schlussfolgern auf menschlichem Niveau zu erreichen
- Um dies zu überwinden, kommen verschiedene auf Reinforcement Learning basierende Ansätze zum Einsatz, darunter überwachtes Lernen, RLHF, Chain-of-Thought und das Sammeln hochwertiger Reasoning Traces
- In jüngeren Arbeiten zu robusten Schlussfolgerungsmodellen, etwa in Papers wie Deepseek R1, wird versucht, „gutes Schlussfolgern“ anhand objektiver Kriterien (z. B. Unit-Tests, korrekte Lösung mathematischer Aufgaben) automatisch auszuwählen, um die Grenzen und Kosten menschlicher Bewertung zu überwinden
Nutzung der Mannigfaltigkeitsstruktur neuronaler Netze und der Modelle selbst
- Auch alle Parameter (Gewichte) eines neuronalen Netzes lassen sich als ein einziger riesiger Vektor darstellen und als Mannigfaltigkeit in verschiedenen Bedeutungsräumen (semantic spaces) interpretieren
- Das Konzept von Diffusion-Modellen für die Bildgenerierung kann auch auf den Parameterraum neuronaler Netze erweitert werden, um unterschiedliche Eigenschaften bestehender pretrained Modelle effizient wiederzuverwenden oder eine schnelle Initialisierung und die Erzeugung neuer Modelle zu ermöglichen
- Fortschritte bei Verfahren zur Erkundung des Embedding-Raums von Modellen könnten künftig eine schnellere und effektivere KI-Entwicklung ermöglichen
Fazit und Implikationen
- Das Feld des Deep Learning ist weiterhin häufig informell und stark intuitionsgetrieben, doch topologisches Denken hilft erheblich dabei, die Funktionsweise komplexer Modelle zu verstehen
- Je breiter das Verständnis für Embedding-Räume und Mannigfaltigkeitsstrukturen wird, desto eher werden praktischere und systematischere Entwicklung und Analyse von KI möglich sein
1 Kommentare
Hacker-News-Kommentare
Bei diesem Artikel, der auf einem Blogpost basiert, den ich 2014 geschrieben habe, habe ich wirklich sehr ernsthaft versucht, Topologie als Mittel zum Verständnis neuronaler Netze zu verwenden. Die Ergebnisse habe ich damals in den folgenden zwei Folgeartikeln geteilt
Beim Versuch, das Innere neuronaler Netze zu verstehen, gab es Bereiche, in denen eine topologische Perspektive nützlich war. Aber nach fast zehn Jahren der Auseinandersetzung habe ich das Gefühl, dass ein topologischer Ansatz insgesamt nicht besonders viel geholfen hat.
Was sich als wirksamer erwiesen hat, ist Folgendes
Als einschlägige Texte empfehle ich die folgenden Artikel
Im Zusammenhang damit, wie man neuronale Netze versteht, denke ich oft über folgende Missverständnisse nach
Man sieht oft populäre Reaktionen auf Karpathys RNN-Post oder in der „stochastic parrot“-Arbeit einen Unterton, der LLMs mit n-Gramm-Modellen gleichsetzt. Früher wurden die beiden Ansätze teils tatsächlich ähnlicher wahrgenommen, aber nachdem sich moderne Modelle so stark weiterentwickelt haben, passt diese Gleichsetzung nicht mehr besonders gut.
Ich erinnere mich an meine Erfahrung, Topologie auf reale Probleme anwenden zu wollen. Seit ich 2011 zum ersten Mal Topologie gelernt habe, habe ich das bis heute immer wieder sporadisch versucht, bin aber skeptisch gegenüber der verbreiteten Behauptung, „reale Daten näherten sich glatten, niedrigdimensionalen Mannigfaltigkeiten an“. Ich würde gern tiefer untersuchen, ob diese Eigenschaft für echte Daten tatsächlich gilt oder ob sie eher ein Ergebnis absichtlicher Verzerrung durch Dimensionsreduktionsmethoden ist, die wir aus Effizienzgründen einsetzen. Schade nur, dass mir dafür die Zeit fehlt.
Ich habe es mit Interesse verfolgt, dass du über lange Zeit hinweg Texte zu „Circuits“ geschrieben hast. Die lineare Repräsentationshypothese erscheint mir besonders überzeugend, so sehr, dass ich sogar einen ersten Entwurf einer Rezension zu Toy Models of Superposition geschrieben habe. Die Analyse über „Circuits“ finde ich allerdings weniger anziehend, weil sie mir zu stark auf die Transformer-Architektur fixiert erscheint.
Modelle wie GAN, VAE und CLIP scheinen explizit Mannigfaltigkeiten zu modellieren. Auch einfache Modelle können im Optimierungsprozess ähnliche Features in dieselbe Richtung zusammenziehen, aber empirisch sieht man manchmal auch, dass ähnliche Features auf orthogonalen Richtungen landen. Das scheint eher mit der optimierten Loss-Funktion zusammenzuhängen.
In Toy Models of Superposition wird MSE verwendet, sodass sich das Ganze ein wenig wie eine Autoencoder-Regression oder -Komprimierungsaufgabe verhält. Dabei werden Interferenzmuster zwischen gemeinsam auftretenden Features leicht wichtig. Wenn das Ziel aber eine kontrastive Loss-Funktion ist, dann dürfte sich dieses Verhalten zur Interferenzminimierung meiner Meinung nach ändern.
Ich möchte darauf hinweisen, dass es zu meinem früheren Artikel auch Hacker-News-Diskussionen gab
Neural Networks, Manifolds, and Topology (2014)
In der Physik ist es interessant, dass unterschiedliche globale Symmetrien (topologische Mannigfaltigkeiten) dieselbe metrische Struktur (lokale Geometrie) haben können. Zum Beispiel können in Einsteins Feldgleichungen dieselben Lösungen für den metrischen Tensor auch auf topologisch unterschiedlichen Mannigfaltigkeiten existieren.
Umgekehrt sieht man bei Lösungen des Ising Model, dass selbst bei derselben Gittertopologie mehrere Lösungen existieren können und dass die Gittertopologie in der Nähe des kritischen Punkts womöglich faktisch nicht so wichtig ist.
Das ist nur eine grobe Analogie, deutet aber darauf hin, dass die wichtigen Details der Dynamik nicht einfach in der Topologie des Systems aufgehoben sind. Die Geschichte ist deutlich komplizierter.
Wenn echte Topologie der Kern wäre, würden wir Mannigfaltigkeiten nicht abflachen wollen, um Ähnlichkeitssuche zu erleichtern. Der eigentliche Kern ist in Wahrheit die „Geometrie“ und ein dazu passendes Maß. Auch im wirklichen Leben wollen wir Strukturen, mit denen sich Dinge vergleichen lassen.
Während des Trainings neuronaler Netze werden Mannigfaltigkeiten auch topologisch verformt. Das wirft die Frage auf: „Wie verändert sich die Topologie eigentlich während des Trainings?“ Ich stelle mir persönlich vor, dass die Topologie anfangs heftig schwankt, sich dann allmählich stabilisiert und danach geometrische Feinanpassung stattfindet. Als mögliche Referenzen eignen sich folgende Arbeiten
Wenn man schon einmal mit GANs oder VAEs gearbeitet hat, kann man diesen topologischen Veränderungsprozess tatsächlich beobachten. An verschiedenen Checkpoints während des Trainings kann man mit Tools wie UMAP oder TSNE sehen, wie sich Punkte im hochdimensionalen Raum verschieben.
Der von dir vorgestellte Ablauf „anfangs heftige Veränderung, dann Stabilisierung und anschließend geometrische Feinabstimmung“ trifft tatsächlich zu. Dabei hängen diese heftigen frühen Veränderungen auch stark von Dingen wie Lernrate oder Wahl des Optimierers ab.
Wenn man unbedingt darauf bestehen will, könnte man sagen, dass es hier um angewandte lineare Algebra geht, aber so formuliert verliert es irgendwie seinen Reiz.
Der jetzige Titel ist abgedroschen und ungenau. Den Inhalt fand ich trotzdem interessant.
Topologie ist die Mathematik der minimalen Struktur, die übrig bleibt, wenn man verschiedene geometrische Einschränkungen wie Distanz, Winkel oder Richtung entfernt. Eine topologische Perspektive betrachtet also nur die Beziehungen, die selbst unter solch heftigen Verformungen wesentlich erhalten bleiben.
Topologische Konzepte können im Machine Learning nützlich sein, aber in der Praxis sind geometrische Informationen wie Maßstab, Distanz und Winkel für das Wesen der Daten weit wichtiger. Wenn man etwa beim Unterscheiden zwischen einer Hauskatze und einem Tiger den Maßstab ignoriert, kommt Unsinn heraus.
Erst wenn viele Informationen unzuverlässig sind, wird ein topologischer Ansatz nützlich. Zu sagen, Deep Learning basiere auf Topologie, geht zu weit.
Wie du sagst, ist Topologie dann nützlich, wenn man Distanzen, Winkel oder Längen nicht zuverlässig behandeln kann — und genau mit solchen unzuverlässigen Daten arbeiten wir in der Praxis. Dass etwa eine Coladose und ein Stoppschild im Pixelraum eines Bildes halbwegs nahe beieinanderliegen, ist bedeutungslos. Neuronale Netze führen genau die von dir genannten „heftigen Verformungen“ tatsächlich durch.
Sobald man in die konkrete Implementierung geht, spielen Details eine wichtige Rolle, um die man sich „bei echter Topologie“ gar nicht hätte kümmern müssen, etwa die Zahl der Layer, Quantisierung oder die Auflösung von Gleitkommazahlen.
Der Begriff „Topologie“ hat lexikalisch zwei verschiedene Bedeutungen. Die Eigenschaften, die du als Voraussetzung genannt hast, nur als Topologie zu verstehen, ist eine Sichtweise, die nur auf einen Teil der Definitionen passt.
Ich verstehe nicht so recht, warum die Idee, eine Trennfläche zu finden, in diesem Artikel als „Topologie“ bezeichnet wird.
Dort heißt es zum Beispiel: „Wenn man Übersetzung lernt, lernt das Modell eine topology, in der bread und pan sowie das Bild einer Katze und das Wort cat nahe beieinanderliegen.“ Aber genau dieses Sprechen über „nahe“ und „fern“ ist eigentlich gerade nicht Topologie.
Wenn in einem topologischen Raum zwei Punkte nahe beieinanderliegen, kann man sie durch Dehnen des Raums innerhalb „desselben topologischen Raums“ dennoch beliebig weit voneinander entfernen. Genau das ist der Kern des Scherzes, dass „Kaffeetasse und Donut topologisch dasselbe“ seien.
Tatsächlich scheint hier ein algebraisch-geometrischer Zugang besser zu passen — also eine Struktur, in der Punkte in der Nähe einer algebraischen Varietät liegen. Entscheidend sind letztlich Geometrie und Distanz.
Wenn man Topologie etwas lockerer definieren möchte, würde ich sagen: Sie ist das Studium mathematischer Räume, in denen man Begriffe von „nahe“ und „fern“ beziehungsweise Nachbarschaft auch ohne Distanz behandeln kann. Verschiedene Definitionen offener Mengen entsprechen dann der Wahl einer Topologie, und daraus ergeben sich Eigenschaften wie Stetigkeit, Kompaktheit und Zusammenhang.
Metrische Räume sind ein Spezialfall topologischer Räume.
Das heißt natürlich nicht, dass Topologie immer die beste Perspektive ist, um neuronale Netze zu verstehen. Auch der ursprüngliche Autor sieht das heute anders.
Ich wollte nur das Missverständnis ausräumen. Siehe https://en.wikipedia.org/wiki/General_topology
Ich stimme zu 100 % zu, dass das mit Topologie gar nichts zu tun hat. Wenn ein Artikel von Topologie und Deep Learning handelt, sollte die Verwirrung wenigstens auf den Topologie-Teil beschränkt bleiben.
Das Wort „topology“ habe ich eben etwas idiomatisch verwendet. Genauer hätte ich „Trennfläche“ sagen sollen.
Ich halte es für ein kraftvolles Bild, Lernen aus der Perspektive von Mannigfaltigkeiten zu betrachten.
In hochdimensionalen Räumen fühlt sich reasoning selbst oft fast ununterscheidbar vom Raum an.
Über solche „probabilistic reasoning manifolds“ habe ich in Tagebuchnotizen oder News-Kommentaren schon viel geschrieben.
Die Idee ist, dass Mannigfaltigkeiten aus Musterräumen im Kern durch probabilistisches Lernen entstehen und tatsächliches Schließen nicht über Propositionen, sondern probabilistisch erfolgt. Man kann vielleicht einige „Axiome“ finden, indem man Fixpunkte oder Attraktoren identifiziert, aber letztlich analysiert man eine probabilistische Mannigfaltigkeit, die aus den Eingabedaten geformt wurde.
reasoning und Daten sind miteinander verflochten und lassen sich nicht vollständig trennen.
Kontextfreie Beziehungen zu lernen oder herauszulösen — genau das ist „decontextualization“. Damit Analyse in neuen Situationen oder Domänen sinnvoll bleibt, muss aber notwendigerweise eine „recontextualization“ folgen.
Für eine längere Erläuterung siehe https://news.ycombinator.com/item?id=42871894
Wenn Tiere propositionale Aussagen überhaupt nicht auf nicht-probabilistische Weise behandeln könnten, befänden sie sich in einem Zustand völliger Unfähigkeit zu logischem Schlussfolgern, was die reale Schlussfolgerungsfähigkeit von Tieren nicht erklären würde.
Zum Beispiel: „Wenn die Spinne in Kiste A ist, dann ist sie nicht in der anderen Kiste“ — eine einfache logische Struktur dieser Art.
Reale Daten liegen nicht wirklich auf einer Mannigfaltigkeit. Das ist nur ein Näherungskonzept, das wir verwenden, um leichter über Daten nachdenken zu können.
Fast alle nützlichen Fortschritte im Deep Learning sind ohne Bezug zu Topologie entstanden. Deep Learning ist ein empirisches Feld, das sich schnell durch Experimente, Versuch und Irrtum und einen sehr kleinen Anteil mathemischer Inspiration entwickelt hat — und diese Inspiration war auch nicht Topologie.
Dem widerspreche ich vollständig. Natürlich gibt es viel Versuch und Irrtum, aber das Ganze ist ein Zusammenspiel vieler mathematischer Theorien wie Topologie, Geometrie, Spieltheorie, Analysis und Statistik. Allein backpropagation ist ja schon die Kettenregel.
Das Feld ist inzwischen so verbreitet und profitabel geworden, dass viele Praktiker es leicht nutzen können, ohne die theoretischen Wurzeln zu kennen.
Letztlich kommt es oft vor, dass man zwar neue Theorien oder Techniken zu erfinden meint, in Wirklichkeit aber unbewusst bestehende Theorien aus anderen Disziplinen „wiederentdeckt“ und einsetzt.
Zu der Behauptung „diese Inspirationen waren ursprünglich alle keine Topologie“ denke ich, dass solche „mathematischen Intuitionen“ meist nachträglich angewendet werden. Nachdem im Deep Learning irgendwo ein Durchbruch erzielt wurde, erkennen Forschende aus Physik oder Mathematik erst im Nachhinein Ähnlichkeiten zu Methoden aus ihrem Gebiet.
Es gibt zum Beispiel einen Text darüber, dass GPT fast identisch mit einem Algorithmus sei, den ich früher für Physikprobleme verwendet habe.
https://ondrejcertik.com/blog/2023/…
Ich bin seit über zehn Jahren im Deep-Learning-Bereich, und die Behauptung, „Daten liegen nicht auf Mannigfaltigkeiten“, ist falsch. Dass man Embedding-Räume überhaupt „Räume“ nennt, hat seinen Grund. GANs, VAEs und contrastive loss bauen tatsächlich Vektormannigfaltigkeitsstrukturen auf, auf denen man sich bewegen oder die man manipulieren kann.
Wenn man eine Definition verwendet, die auch Approximationsfehler zulässt, kann man sagen, dass reale Daten auf einer Mannigfaltigkeit liegen. Relevanter Text: Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)
Ich denke, Deep Learning befindet sich derzeit in einem Zustand, der der Alchemie ähnelt.
So wie die Alchemie vor der Chemie existierte, die dann ihr theoretisches Fundament lieferte. Vielleicht wird die Menschheit in Zukunft nur noch das Wort „deep learning“ selbst übriglassen und es als Spur einer vergangenen Sprache behandeln.
Als ich die Formulierung „damit haben wir AGI erreicht“ sah, ist meine Zuversicht stark gesunken.
Insgesamt fand ich die Grundidee des Artikels zwar interessant, aber es fehlte mir an vertiefter technischer Diskussion, besonders dort, wo reasoning ins Spiel gebracht wird; dadurch wirkte es etwas fluffy. Es gibt bereits deutlich konkretere Arbeiten dazu (z. B. https://arxiv.org/abs/1402.1869).
Eine andere Art von topology, die bei DNNs oft diskutiert wird, ist die Netzwerk-Topologie selbst. Also die Struktur, wie Knoten verbunden sind und wie Daten fließen.
Autoencoder, CNNs, GANs und andere wurden alle biologisch inspiriert.
Wir können noch viel über die Topologie des Gehirns und seine funktionale Konnektivität lernen.
Künftig könnten völlig neue Architekturen entstehen, etwa in Bezug auf die Verbindungs- und Interaktionsstruktur innerhalb einzelner Layer oder Knoten oder zwischen spezialisierten Netzwerken.
Auch das menschliche Gehirn ist in Wirklichkeit nicht ein einziges Netzwerk, sondern mehrere Netzwerke wie die „Big 7“, die parallel und wechselseitig gekoppelt arbeiten. Es gibt unter anderem DMN (Default Mode Network), CEN (Central Executive Network) und das Limbic Network, und oft gehört ein Neuron gleichzeitig zu mehreren Netzwerken.
In der künstlichen Intelligenz haben wir diese Komplexität noch nicht vollständig nachgebildet, daher gibt es unendlich viel Inspiration, die sich aus network topologies ziehen lässt.
Der Aussage „Topology is all you need“ kann ich etwas abgewinnen.
Die mathematische Topologie behandelt geometrische Objekte und Transformationen, aber in der Informatik ist auch ein Begriff von „Topologie“ wichtig, der Beziehungen zwischen abstrakten Objekten definiert.
In Graph-Datenstrukturen speichert man zum Beispiel eine Menge von Objekten (Knoten) und eine Menge ihrer Beziehungen (Kanten), wodurch der Graph selbst eine diskrete topologische Struktur wird.
Netzwerk-Datenstrukturen sind ähnlich, speichern aber zusätzlich Werte auf den Kanten. Man hat also eine Menge von Knoten (Objekten), ihre Beziehungen (Kanten) und potenziell einen Wert je Kante (Gewicht). So kann man letztlich auch künstliche neuronale Netze verstehen: als auf diskreter Topologie aufgebaute Strukturen.
In der Grafik des Autors verwirrt mich der Teil, in dem AGI/ASI als ein Punkt auf derselben Mannigfaltigkeit wie next token prediction, Chat und CoT-Modelle gezeichnet wird. Die drei Letzteren kann man sicherlich als zusammenhängende Varianten derselben Familie ansehen, aber ich frage mich, ob es genug Grundlage gibt, um AGI/ASI ebenfalls dort einzuordnen.
Was wäre, wenn ein CoT-basiertes Modell selbst mit noch so viel topological manipulation strukturell niemals die Art von „Intelligenz“ erreichen könnte, die AGI ausmacht?
Zum Beispiel könnte menschliche Intelligenz wesentlich von hochentwickeltem sensorischem oder internem Feedback und kontinuierlicher Verarbeitung abhängen, während GPT-artige autoregressive Modelle im Kern diskret sind.
Als Nichtfachperson habe ich die Intuition, dass LLMs vielleicht einer völlig anderen Art von Systemen angehören als jene, aus denen „Intelligenz“ oder „Bewusstsein“ hervorgeht.
Ehrlich gesagt glaube ich, dass wir AGI bereits erreicht haben, aber viele Menschen stimmen dem nicht zu.
Du hast erwähnt, dass das Wesen menschlicher Intelligenz in ausgeprägten sensorischen/Feedback-Schleifen oder kontinuierlicher Verarbeitung liegen könnte; aufgrund recht umfangreicher Erfahrung mit Connectomics-Forschung kann ich aber auch die Ähnlichkeit zwischen biologischen und neuronalen Netzen nicht ignorieren.
Im olfaktorischen System der Maus wird zum Beispiel ein bestimmter Geruch wie „Schokolade“ oder „Zitrone“ erkannt, wenn bestimmte Gruppen von Neuronen aktiviert werden. Das ähnelt stark einem Feature Vector.
Auch neuronale Repräsentationen im Gehirn haben etwas von Embedding-Repräsentationen. Es ist fast so, als entstehe ein Embedding Space daraus, welche Neuronen aktiv sind.
Alles, was auf Embeddings aufsetzt, ist nicht „mehr als das“, sondern einfach zusätzliche Verarbeitung.