Deep Learning ist angewandte Topologie

(theahura.substack.com)

7 Punkte von GN⁺ 2025-05-21 | 1 Kommentare | Auf WhatsApp teilen

Deep Learning lässt sich als Prozess verstehen, bei dem Daten auf eine Mannigfaltigkeit in einem hochdimensionalen Raum gelegt werden und man durch Transformationen der neuronalen Netzschichten diese Oberfläche krümmt oder streckt, um eine trennbare Struktur zu finden
Eine Schicht wie tanh(Wx+b) ist eine stetige Transformation, die Matrixtransformation, Vektorverschiebung und nichtlineare Funktion aneinanderreiht; stapelt man mehrere Schichten, können sich auch komplexe Datensätze in eine andere Form verwandeln
Auch kreisförmige Daten, die sich in niedriger Dimension nicht mit einer einzigen Linie trennen lassen, werden trennbar, wenn man sie in eine höhere Dimension hebt; neuronale Netze können solche Repräsentationsräume lernen
Embedding-Vektoren stellen Text, Bilder und Konzepte als Punkte in einem Zahlenraum dar; auf einer gut geformten Oberfläche werden Konzeptoperationen wie king - man + woman = queen möglich
Das heutige Training von Reasoning-Modellen lässt sich als Bewegung auf der Reasoning-Mannigfaltigkeit interpretieren, indem gute reasoning traces ausgewählt werden; Reinforcement Learning im Stil von DeepSeek R1 wird als Methode behandelt, die Kosten der manuellen Auswahl durch Menschen zu senken

Neuronale Netze aus Sicht der Topologie

Topologie ist ein Teilgebiet der Mathematik, das Eigenschaften untersucht, die bei Verformungen wie Krümmen, Verdrehen oder Strecken erhalten bleiben, solange man die Oberfläche nicht zerreißt oder Löcher hineinmacht
Ein auf eine Tonoberfläche gezeichneter Kreis wird nicht plötzlich zu einer Linie, zu zwei Kreisen oder schneidet sich selbst, nur weil man ihn dreht oder krümmt
Datenklassifikation lässt sich ähnlich betrachten
- Selbst wenn Daten in einer 2D-Ebene nicht sauber durch eine einzige Linie getrennt werden können, kann durch eine geeignete Verformung der Oberfläche eine trennbare Struktur entstehen
- Aus dieser Perspektive liegt eine solche Raummanipulation im Kern von Deep Learning

Neuronale Netzschichten sind stetige Transformationen, die Oberflächen verformen

Die Erklärung neuronaler Netze als Stack linearer Algebra ist im Großen und Ganzen richtig; Matrizen lassen sich als Operationen interpretieren, die geometrische Oberflächen transformieren
Auch Chris Olahs Artikel von 2014 behandelt Deep-Learning-Mannigfaltigkeiten auf diese Weise
Eine Schicht tanh(Wx+b) besteht aus drei Schritten
- einer linearen Transformation durch W
- einer Verschiebung durch den Vektor b
- einer nichtlinearen Verzerrung durch die punktweise Anwendung von tanh
Stapelt man solche Transformationen über mehrere Schichten, können auch komplexe Datensätze in eine trennbare Form überführt werden
Allerdings gibt es Fälle, die topologisch schwer mit einer einzigen Linie zu trennen sind, etwa Punkte innerhalb eines Kreises und Punkte, die ihn außen umgeben
- Hebt man die Daten dann von zwei in drei Dimensionen, können sie sauber trennbar werden
- Trennungen, die in niedriger Dimension unmöglich sind, können in höherer Dimension leicht werden

Embeddings und semantische Mannigfaltigkeiten

Große neuronale Netze lassen sich wie Topologiegeneratoren (topology generators) betrachten
- Sie nehmen Eingabedaten und suchen eine Oberfläche, die die von der Verlustfunktion geforderten Eigenschaften erfüllt
- Bei Klassifikationsaufgaben lernen sie, Hunde und Katzen in unterschiedlichen Bereichen des Raums zu platzieren
- Bei Übersetzungsaufgaben lernen sie, Elemente wie bread und pan oder ein Katzenfoto und cat nahe beieinander zu platzieren
- Bei der Vorhersage des nächsten Tokens lernen sie eine Oberfläche, auf der Tokens entsprechend ihrer Verwendung gruppiert sind
Daten liegen auf einer hochdimensionalen und semantisch zusammenhängenden Mannigfaltigkeit; eine Mannigfaltigkeit zu erzeugen berührt unmittelbar die semantische Repräsentation eines Datensatzes
Das Beispiel mit Farben zeigt, dass eine solche Struktur den Daten selbst innewohnen kann
- [128, 0, 0] steht für Rot, [0, 0, 128] für Blau
- Addiert man die beiden Vektoren, kann man Violett erzeugen
- Die Dimensionalität von Farben, die Ähnlichkeit zwischen Farben und die Art, Farben zu mischen, lassen sich als in den Daten angelegte Struktur verstehen
Auch Bilder können als Punkte auf einer Mannigfaltigkeit behandelt werden
- Ein Bild wird als RGB-Pixelwerte der Größe Height x Width x 3 dargestellt
- Faltet man es zu einem einzigen Vektor auf, lassen sich alle Bilder einer bestimmten Größe als Punkte in einem hochdimensionalen Raum betrachten
- Der Bildbereich mit Brad Pitt, der ein Sandwich isst, und ein Bild der Mona Lisa können unterschiedliche Punkte im selben Bildraum sein
Der größte Teil des Bildraums ist Rauschen, und eine Gruppierung allein nach Pixelähnlichkeit ist nicht nützlich
- Deep-Learning-Modelle können die Bildoberfläche krümmen und strecken, sodass interessante Bilder nahe beieinander und Rauschen weit entfernt liegen
Intern stellen Modelle Informationen wie Text und Bilder als Zahlenlisten namens Embedding-Vektoren dar
- Jedes Embedding ist zugleich mit einem Konzept verbunden und ein Punkt im Raum
- Auf einer gut geformten Oberfläche werden mathematische Konzeptoperationen wie king - man + woman = queen möglich

Reasoning-Training als Bewegung auf einer Mannigfaltigkeit

Aus der Perspektive, dass alles auf einer Mannigfaltigkeit liegt, lässt sich auch Reasoning als eigene Mannigfaltigkeit denken
- Man kann sich vorstellen, dass gutes Reasoning auf einer Seite des Raums clustert und schlechtes Reasoning auf einer anderen
- Auch wenn sich gut und schlecht nicht als strenge mathematische Begriffe definieren lassen, kann man ein neuronales Netz trainieren, wenn man beide unterscheiden kann
Auch große KI-Unternehmen wie Google, Anthropic, OAI und DeepSeek lassen sich so interpretieren, dass sie sich in diese Richtung bewegen
In der KI-Branche gibt es aus dieser Sicht einen Konsens, dass im Wesentlichen alles ausgeschöpft wurde, was sich allein aus reiner Sprachstatistik gewinnen lässt
- Die meisten LLMs werden mit Billionen von Tokens trainiert
- Selbst eine Skalierung auf Billiarden von Tokens könnte nur begrenzte zusätzliche Vorteile bringen
- Die Vorhersage des nächsten Tokens ähnelt Reasoning, führt aber nicht von selbst zu Reasoning, sondern macht vor allem besser in der Vorhersage des nächsten Tokens
Instruction Tuning und RLHF lassen sich als Methoden interpretieren, um sich vom Bereich der Next-Token Prediction in den Bereich von Frage-Antwort-Reasoning zu bewegen
Chain of Thought ist eine Methode, sich noch expliziter in den Reasoning-Bereich der Reasoning-Mannigfaltigkeit zu bewegen
- Die in Modellen wie o3 oder Gemini 2.5 als Thinking… sichtbaren Denkprozesse werden reasoning traces genannt
- Führt man viele Queries aus, kann man gute und schlechte reasoning traces unterscheiden
- Erhält man zum Beispiel aus einer Million Queries 10.000 sehr gute Traces, kann man damit ein neues Modell trainieren, das nur noch bessere Traces erzeugt
Wiederholt man diesen Prozess, kann man mit dem vorherigen Modell das nächste bootstrappen
- Wenn es eine Möglichkeit gibt zu beurteilen, welcher von zwei reasoning traces besser ist, kann man sich weiter auf der Reasoning-Mannigfaltigkeit bewegen
- Man kann es auch so sehen, dass 10.000 gute Samples behandelt werden, als kämen sie von einem hypothetisch weiterentwickelten Modell, und das aktuelle Modell damit per Distill-Training trainiert wird
Es fällt die Formulierung, dass dieser Ansatz ausgereicht habe, um AGI zu erreichen; die Aussage, es gebe bereits AGI, wird jedoch mit einer Fußnote als umstritten markiert
Für ASI gilt er als nicht ausreichend
- Die Fähigkeit, das beste Reasoning auszuwählen, wird zum begrenzenden Faktor
- Gute reasoning traces zu sammeln ist teuer und zeitaufwendig
- Selbst wenn viele kluge Menschen den ganzen Tag auswählen, können die Ergebnisse subjektiv und stark verrauscht sein

DeepSeek R1, Reinforcement Learning und Modelle, die Modelle erzeugen

DeepSeek R1 und andere Reinforcement-Learning-Methoden sind als Richtung entstanden, bei der Menschen gutes Reasoning nicht mehr direkt auswählen müssen
Der DeepSeek-Ansatz konzentriert sich darauf, quantitative Heuristiken für gutes Reasoning zu erstellen
- Man kann Unit-Tests oder Mathematikaufgaben erstellen, die die KI bestehen muss
- Wenn Code die Tests besteht oder eine Mathematikaufgabe richtig gelöst wird, kann man den reasoning trace, der diese Ausgabe erzeugt hat, als besser ansehen als den Trace, der eine falsche Ausgabe erzeugt hat
- Eine subjektive Analyse des reasoning trace selbst ist nicht nötig
Es wird davon ausgegangen, dass es gelungen ist, allein mit RL ein Modell zu trainieren, das bei einer Gruppe von Reasoning-Tasks recht gut ist
Allerdings führt der RL-Ansatz allein nicht zu ASI
- Auch RL-Modelle stoßen letztlich an asymptotische Grenzen
- Danach werden die von RL-Modellen erzeugten reasoning traces kuratiert, um ein völlig anderes zweites Modell feinzujustieren
- Damit ist DeepSeek letztlich weniger RL an sich als vielmehr eine Methode, viele hochwertige reasoning traces günstiger zu erzeugen, als Menschen sie direkt erstellen könnten
Aus dieser Sicht ist es einfacher, ein System zu bauen, das schlechtes und gutes Reasoning unterscheidet, als von Anfang an ein System zu bauen, das gut reasoned
Auch neuronale Netze selbst lassen sich als Mannigfaltigkeit darstellen
- Ein neuronales Netz ist eine auf bestimmte Weise angeordnete Liste von Gewichtszahlen
- Faltet man alle Parameter zu einem Vektor auf, kann man es auf einen Punkt auf einer Oberfläche abbilden
- Ein Bereich kann semantic segmentation entsprechen, ein anderer text translation, ein weiterer autoencoding
- Da die finalen Ausgabegewichte leicht als Tensor darstellbar sind, lässt sich direkt Backprop auf die Ausgabe anwenden
Es wird vorgeschlagen, dass sich die Diffusion-Methode der Bilderzeugung auch auf die Modellerzeugung anwenden lässt
- Bei Diffusion wird einem Bild schrittweise Rauschen hinzugefügt, anschließend wird ein Modell trainiert, diese Rauschzugabe rückwärts umzukehren
- Man könnte Rauschen zu mehreren Checkpoints pretrained transformer layers von Hugging Face hinzufügen, um ein Diffusion-Trainingsset zu erstellen
- Gibt man Beschreibungen pretrained Modelle als Textbedingung ein, kann man sich ein Modell vorstellen, das per Diffusion aus Textbeschreibungen andere pretrained Modelle erzeugt
- Als Möglichkeit wird skizziert, dass ein Prompt wie "Spanish to English" ein vollständig trainiertes Modell ausgibt, ohne separates Training
Derzeit beginnen die meisten Modelle mit zufälliger Initialisierung; ein Diffusion-Modell, das andere Modelle erzeugt, könnte jedoch besser sein als zufällige Initialisierung und die Trainingszeit erheblich verkürzen
Deep Learning bleibt ein informelles Feld, weil eine gute Arbeitstheorie dazu fehlt, was Modelle tun und warum sie funktionieren; ein topologisches Verständnis von Embedding-Räumen verbindet mehrere Konzepte

1 Kommentare

GN⁺ 2025-05-21

Meinungen auf Hacker News

Da dieser Artikel auf meinem Blogpost von 2014 (https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/) basiert, lasse ich kurz etwas dazu hier.
Ich habe wirklich intensiv versucht, Topologie als Methode zum Verständnis neuronaler Netze zu nutzen, und auch Folgebeiträge geschrieben: https://colah.github.io/posts/2014-10-Visualizing-MNIST/, https://colah.github.io/posts/2015-01-Visualizing-Representa...
Es gab Stellen, an denen die topologische Perspektive nützlich war, aber nachdem ich über zehn Jahre lang daran festgehalten und untersucht habe, was in neuronalen Netzen vor sich geht, habe ich damit insgesamt nicht besonders große Erfolge erzielt.
Deutlich fruchtbarer waren die Hypothese linearer Repräsentationen, also dass „Konzepte/Features Richtungen in neuronalen Netzen entsprechen“, sowie das Konzept von Circuits als Netzwerken solcher verbundener Konzepte.
Verwandte Beiträge sind https://distill.pub/2020/circuits/zoom-in/, https://transformer-circuits.pub/2022/mech-interp-essay/inde..., https://transformer-circuits.pub/2025/attribution-graphs/bio....
- Im Zusammenhang damit, wie man neuronale Netze versteht, gibt es ein häufiges Missverständnis: die Vorstellung, LLMs seien im Grunde nur etwas bessere n-gram-Modelle, und die Vorstellung, dass ein Modell dumm sein müsse, nur weil es lediglich das nächste Token vorhersagt.
  Ich frage mich, ob die bekannte Reaktion[1] auf Karpathys RNN-Beitrag[2] mit dafür verantwortlich ist, dass neuronale Sprachmodelle mit n-gram-Modellen gleichgesetzt wurden.
  Auch das Stochastic-Parrots-Paper[3] setzt LLMs und n-gram-Modelle in gewissem Maß gleich, nach dem Motto: „Wir hatten hauptsächlich n-gram-Modelle im Kopf, aber die Schlussfolgerungen sind weiterhin angemessen und relevant.“
  Bevor neuronale Netze wirklich gut wurden, gab es wohl eine Zeit, in der sich beide stärker ähnelten.
  [1] https://nbviewer.org/gist/yoavg/d76121dfde2618422139
  [2] https://karpathy.github.io/2015/05/21/rnn-effectiveness/
  [3] https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
- Ich verfolge die Circuits-Strömung seit einigen Jahren, und die Hypothese linearer Repräsentationen wirkt sehr überzeugend.
  Einen Review-Entwurf zu Toy Models of Superposition habe ich mir ebenfalls in meinen Notizen vorgemerkt.
  Allerdings wirkt Circuits auf mich weniger überzeugend, weil die Analyse besonders stark an die Transformer-Architektur gebunden scheint.
  Ich vermute, dass die Hypothese linearer Repräsentationen von der Architektur abhängt. GANs, VAEs, CLIP usw. scheinen Mannigfaltigkeiten explizit zu modellieren.
  Auch einfache Modelle werden durch Optimierungsdruck hinreichend ähnliche Features in dieselben linearen Richtungen hinein falten.
  Es ist zwar schwierig, die empirische Evidenz, dass einfache Modelle ähnliche Features in orthogonale Richtungen legen, mit der Mannigfaltigkeits-Hypothese in Einklang zu bringen, aber das scheint letztlich eher mit der jeweils optimierten Loss Function zusammenzuhängen.
  In Toy Models of Superposition wird MSE verwendet, sodass das Modell faktisch eine Autoencoder-Regressions-/Kompressionsaufgabe lernt; dadurch ist es natürlich, dass Interferenzmuster zwischen gemeinsam auftretenden Features wichtig werden.
  Bei anderen Zielen wie etwa Contrastive Loss würde ich dagegen nicht erwarten, dass dasselbe Verhalten zur Minimierung von Interferenz auftritt.
- Nachdem ich 2011 zum ersten Mal Topologie gelernt hatte, habe ich mehrfach versucht, Topologie auf reale Probleme „anzuwenden“, und meine Erfahrung war ähnlich.
  Inzwischen zögere ich sogar bei der gängigen Formulierung, dass „reale Daten glatt und annähernd niedrigdimensionale Mannigfaltigkeiten“ seien.
  Ich würde gern gründlich untersuchen, in welchem Maß diese Aussage auf reale Daten zutrifft und wie stark sie durch Dimensionsreduktionsverfahren verzerrt wird, die wir verwenden, um natürliche Datensätze effizient zu behandeln, aber mir fehlt die Zeit.
- In der Physik ist interessant, dass unterschiedliche globale Symmetrien oder topologische Mannigfaltigkeiten dieselbe metrische Struktur, also dieselbe lokale Geometrie, erfüllen können.
  Zum Beispiel kann dieselbe Lösung des metrischen Tensors der Einstein-Feldgleichungen auf topologisch unterschiedlichen Mannigfaltigkeiten existieren.
  Umgekehrt können die Lösungen des Ising-Modells auf derselben Gittertopologie mehrere verschiedene Lösungen haben, und wenn sich das System nahe am kritischen Punkt befindet, kann die Gittertopologie selbst auch unwichtig sein.
  Das ist nur eine Analogie, deutet aber darauf hin, dass die interessanten Details der Dynamik nicht in der Topologie des Systems eingebettet sind. Es ist ein komplexeres Problem.
- Es gab einige kleine HN-Diskussionen zu dem alten Beitrag.
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=19132702 - Februar 2019, 25 Kommentare
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=9814114 - Juli 2015, 7 Kommentare
  Neural Networks, Manifolds, and Topology - https://news.ycombinator.com/item?id=7557964 - April 2014, 29 Kommentare
Wenn es wirklich Topologie wäre, müsste man die Mannigfaltigkeit nicht verbiegen, um Ähnlichkeitssuche zu betreiben. Das ist eher Geometrie mit einer Metrik.
Wie auch in der Realität müssen wir Dinge miteinander vergleichen können.
Da während des Trainings auch topologische Transformationen der Mannigfaltigkeit stattfinden, würde mich interessieren, wie sich die Topologie während des Trainings entwickelt.
Anfangs dürfte sie sich heftig verändern, sich dann stabilisieren, gefolgt von geometrischem Feintuning.
Einschlägige Arbeiten sind Topology and geometry of data manifold in deep learning (https://arxiv.org/abs/2204.08624), Topology of Deep Neural Networks (https://jmlr.org/papers/v21/20-345.html), Persistent Topological Features in Large Language Models (https://arxiv.org/abs/2410.11042) und Deep learning as Ricci flow (https://www.nature.com/articles/s41598-024-74045-9).
- Wenn man schon einmal mit GANs oder VAEs gearbeitet hat, kann man diese Frage tatsächlich beantworten. Die Antwort geht im Großen und Ganzen in Richtung „ja“.
  Man kann GANs an verschiedenen Checkpoints während des Trainings betrachten und mit Tools wie UMAP oder t-SNE prüfen, wie sich unterschiedliche Punkte im hochdimensionalen Raum bewegen.
  Dass nach heftigen Veränderungen zu Beginn eine Stabilisierung und geometrisches Feintuning stattfinden, stimmt ebenfalls; die frühen Veränderungen werden aber auch von der Lernrate und der Wahl des Optimierers beeinflusst.
- Wenn man es unbedingt benennen will, würde ich sagen, es ist eher angewandte lineare Algebra. So genannt klingt es nur weniger exotisch.
Der Text selbst war gut, aber ich verstehe nicht, warum die Idee, eine trennende Fläche zwischen zwei Punktmengen zu finden, „Topologie“ genannt wird.
Es gibt Sätze wie: „Wenn man Englisch-Spanisch-Übersetzung oder Bild-Text-Transformation lernt, lernt man eine Topologie, in der bread nahe bei pan liegt und ein Katzenfoto nahe beim Wort cat.“ Das liegt eher außerhalb dessen, womit sich Topologie beschäftigt.
Die Vorstellung, dass Punkte „nah“ oder „fern“ sind, gehört nicht zur Topologie, sondern in den Bereich der Metrik.
Wenn zwei Punkte in einem topologischen Raum nahe beieinanderliegen, kann man den Raum strecken und denselben topologischen Raum beibehalten, während man die beiden Punkte weit voneinander entfernt.
Genau darum geht es im Kern des Witzes, dass Kaffeetasse und Donut dasselbe seien.
Insgesamt wirkt es eher wie eine reale Anwendung der algebraischen Geometrie, bei der man etwas wie eine algebraische Varietät sucht, auf der Punkte nahe beieinanderliegen. Am Ende scheint es um Geometrie und Abstände zwischen Punkten zu gehen.
- Die Aussage „Das ist nicht das, womit sich Topologie beschäftigt“ ist zu 100 % richtig.
  Da der Text allerdings sowohl Topologie als auch Deep Learning behandelt, hoffe ich nur, dass die klare Verwirrung bei einem von beidem bleibt, nämlich bei der Topologie.
- In diesem Satz wurde „topology“ eher umgangssprachlich verwendet. Korrekt hätte es „surface“ heißen müssen.
- Locker definiert kann man Topologie tatsächlich als die Lehre von Räumen ansehen, in denen es irgendein Konzept von Nähe und Ferne gibt. Das gilt auch ohne Metrik.
  Der zentrale Begriff der Umgebung in der mengentheoretischen Topologie erfasst die Idee, in der Nähe eines Punktes zu sein, und erlaubt es, Dinge zu definieren, die ein Konzept von Nähe benötigen, etwa Stetigkeit oder Konvergenz von Folgen.
  Auch Wikipedia [0] erklärt, dass sich über den Begriff offener Mengen „in der Nähe“, „beliebig klein“ und „weit entfernt“ präzise fassen lassen.
  Ändert man die Definition offener Mengen, ändern sich auch stetige Funktionen, kompakte Mengen und zusammenhängende Mengen; jede Wahl der Definition offener Mengen nennt man eine Topologie.
  Metrische Räume sind eine wichtige Klasse topologischer Räume, in denen sich zwischen Punktepaaren ein nichtnegativer reeller Abstand, also eine Metrik, definieren lässt.
  Das soll nicht heißen, dass Topologie die beste Perspektive zum Verständnis neuronaler Netze ist; der Autor sagte in den Kommentaren auch, dass er seine Meinung geändert habe. Ich wollte hier nur ein Missverständnis korrigieren.
  [0] https://en.wikipedia.org/wiki/General_topology
Der Titel ist, so wie er jetzt ist, abgedroschen und falsch; der Text selbst war gut lesbar.
Topologie ist die sehr kleine Struktur, die übrig bleibt, nachdem man aus der Geometrie Abstände, Winkel, Richtungen und alle Arten von Dehnungen entfernt hat, die nichts zerreißen.
Sie ist das Minimalste, was selbst nach solchen drastischen Verformungen noch sinnvoll erhalten bleibt.
Es stimmt, dass topologische Konzepte im Machine Learning nützlich sind, aber Dinge wie Skala, Abstand und Winkel liefern für Daten meist viele wesentliche Informationen.
Wenn man eine getigerte Katze von einem Tiger unterscheiden will und dabei die Größe ignoriert, wäre das töricht.
Topologie ist besonders dann nützlich, wenn man Längen, Abständen, Winkeln oder beliebigen Verformungen nicht trauen kann.
Solche Fälle gibt es, aber zu behaupten, Deep Learning sei angewandte Topologie, ist absurd und fast schon dumm.
- Eingabedaten liegen auf einer unzuverlässigen Mannigfaltigkeit. Dass im Pixelraum das Bild einer Coca-Cola-Dose und das Bild eines Stoppschilds nahe beieinanderliegen, hat a priori keinerlei Bedeutung.
  Neuronale Netze wenden genau solche drastischen Transformationen an.
- Geht man ins Detail, werden viele Dinge wichtig, die in reiner Topologie keine Rolle spielen würden. Das reicht von der Zahl der Schichten bis zur Quantisierung/fp-Auflösung.
- Für das Wort „topology“ gibt es auch eine legitime Wörterbuchdefinition, die überhaupt keine der Bedingungen enthält, die du hier verlangst. Du scheinst übersehen zu haben, dass es zwei Definitionen gibt.
Danke fürs Teilen; ich selbst sehe Lernen ebenfalls eher aus der Perspektive von Mannigfaltigkeiten. Das ist eine starke Ausdrucksweise.
Über den Teil „In einem ausreichend hochdimensionalen Raum ist dies von Schlussfolgern nicht zu unterscheiden“ habe ich ziemlich viel Tagebuch geschrieben und auch auf HN unter dem Namen „probabilistische Inferenz-Mannigfaltigkeit“ etwas verfasst.
Diese Mannigfaltigkeit entsteht dadurch, dass aus einer gegebenen Eingabemenge ein dekontextualisierter Musterraum gelernt wird.
Wegen der inhärenten Stochastik des Samplings wird echte Schlussfolgerung nicht durch Axiome, sondern durch Wahrscheinlichkeiten ausgedrückt.
Man kann vielleicht Axiome entdecken, indem man Fixpunkte oder Attraktoren auf der Mannigfaltigkeit findet, aber letztlich betrachtet man eine probabilistische Mannigfaltigkeit, die aus der Eingabemenge konstruiert wurde.
Allerdings glaube ich nicht, dass sich diese „Schlussfolgerung“ von den Eingabedaten trennen lässt.
Eine ausreichend fortgeschrittene Inferenz-Mannigfaltigkeit könnte zwar Strukturen wie eine überall auffindbare „Meta-Inferenz“ erkennen, doch solche stark dekontextualisierten Strukturen können völlig nutzlos sein, wenn man sie nicht angemessen rekontextualisiert.
Damit eine Mannigfaltigkeit für die Verarbeitung irgendeiner Art von Eingaben nützlich ist, müssen die Muster dieser Eingaben letztlich einer lernbaren underlying rule folgen.

Wenn Dekontextualisierung Lernen bedeutet, also das Zerlegen von Aspekten der Eingabe in kontextunabhängige Beziehungen, dann ist Rekontextualisierung die andere Hälfte davon: die Fähigkeit, sehr abstrakte und manchmal nicht darstellbare kontextunabhängige Beziehungen in einem neuen Bereich in eine nützliche Analyse zu verwandeln.
Vollständiger Kommentar: https://news.ycombinator.com/item?id=42871894

Ich frage mich, ob damit allgemeines Schlussfolgern gemeint ist, also Schlussfolgern als mentaler Prozess, der auf der Darstellung von Propositionen operiert.
Falls ja, ist die Aussage „echtes Schlussfolgern wird nicht durch Axiome, sondern durch Wahrscheinlichkeiten repräsentiert“ schwer zu verstehen.
Eines der Merkmale des Schlussfolgerns ist gerade, dass es nicht auf diese Weise funktioniert.
Es ist äußerst unwahrscheinlich, dass Tiere keinerlei Fähigkeit besitzen, nicht-probabilistisch auf von ihnen repräsentierten Propositionen zu operieren. Das ist für korrektes Schlussfolgern wesentlich und zudem eine vergleichsweise triviale Fähigkeit.
Zum Beispiel: „Wenn die Spinne in boxA ist, ist sie nirgendwo sonst.“
Daten liegen tatsächlich nicht auf einer Mannigfaltigkeit. Das ist nur eine Näherung, um über Daten nachzudenken.
Fast alles, was im Deep Learning nützlich war, vielleicht sogar 100 %, ist entstanden, ohne überhaupt an Topologie zu denken.
Deep Learning ist weniger eine Anwendung von irgendetwas, sondern vor allem ein empirisches Feld, das sich durch Trial-and-Error und Experimente entwickelt hat.
Es gab zwar etwas Intuition aus der Theorie, aber diese Theorie war keine Topologie.
- Dem stimme ich überhaupt nicht zu. Es stimmt, dass es viel Trial-and-Error gibt, aber Deep Learning ist eher eine Mischung aus Theorien vieler mathematischer Bereiche, darunter Topologie, Geometrie, Spieltheorie, Analysis, Statistik usw.
  Selbst das grundlegendste Element, Backpropagation, ist lediglich die Anwendung der Kettenregel auf Gewichte.
  Der Unterschied liegt darin, dass Deep Learning so zugänglich geworden ist – genauer gesagt: so profitabel –, dass viele Praktiker das Thema lernen können, ohne die Ursprünge des Formalismus zu lernen.
  Am Ende nutzt oder „erfindet“ man Theorien und Techniken, die es in anderen Bereichen schon lange gab, ohne deren Ursprung zu kennen.
- Die „Intuition“ aus der Theorie wirkt nachträglich. Erst nachdem Deep Learning eine Methode hervorgebracht hat, bemerken Forschende aus anderen Wissenschaftsgebieten die Ähnlichkeit zwischen dem Deep-Learning-Ansatz und ihren alten Methoden.
  Ein Beispiel ist ein Beitrag, in dem jemand entdeckt, dass GPT im Grunde dasselbe Rechenproblem ist, das er in der Physik bereits gelöst hatte: https://ondrejcertik.com/blog/2023/03/fastgpt-faster-than-py...
- Aus der Sicht von jemandem, der seit über 10 Jahren Deep Learning macht, ist diese Aussage ziemlich falsch. Dass Daten auf einer Mannigfaltigkeit leben, ist offensichtlich, und das gilt auch für Anwendungen im Deep Learning.
  Ein Beispiel ist der in meinem Beitrag verlinkte Blogpost von Chris Olah aus dem Jahr 2014: https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/
  Es gibt einen Grund, warum wir Embedding Spaces „Räume“ nennen.
  GANs, VAEs und Contrastive Loss drehen sich alle darum, Vektormannigfaltigkeiten zu konstruieren, auf denen man umhergehen und unterschiedliche Arten von Daten erzeugen kann.
- Das ist Alchemie.
  Deep Learning in seiner heutigen Form verhält sich zu einer hypothetischen zugrunde liegenden Theorie ungefähr so, wie sich Alchemie zur Chemie verhielt.
  In ein paar hundert Jahren werden Inuktitut sprechende Oberschüler einer Zivilisation nach uns lernen, dass das seltsame Wort „deep learning“ ein Überbleibsel einer alten Verkehrssprache war.
- Wenn man die Definition lockert, sodass Näherungsfehler erlaubt sind, kann man sagen, dass Daten auf einer Mannigfaltigkeit liegen. Siehe zum Beispiel Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning (https://aclanthology.org/2021.acl-long.568.pdf).
In dem Moment, in dem ich den Satz „Das war genug, um bis zur AGI zu gelangen“ las, ist meine Glaubwürdigkeitseinschätzung stark gefallen.
Insgesamt sind die Ideen in Ordnung, aber der Text ist ziemlich vage, besonders dort, wo er die Verbindung zum Schlussfolgern herstellt.
In diesem Bereich gibt es ernsthafte technische Arbeiten, die diese Idee erweitern und konkreter ausarbeiten, etwa https://arxiv.org/abs/1402.1869.
Eine weitere Topologie, der man in tiefen neuronalen Netzen begegnet, ist die Netzwerktopologie. Damit ist die Netzwerkstruktur gemeint, also wie Knoten verbunden sind und wie Daten fließen.
Es gibt bereits bekannte, von der Biologie inspirierte Beispiele wie Autoencoder, Convolutional Neural Networks (CNNs) und Generative Adversarial Networks (GANs).
Aber über die Topologie und funktionale Konnektivität des Gehirns gibt es noch viel zu lernen.
Künftig werden wir wahrscheinlich neue Strukturen entdecken – sowohl innerhalb einzelner Schichten/Knoten als auch darin, wie spezialisierte Netzwerke miteinander verbunden sind und interagieren.
Das Gehirn verlässt sich nicht auf ein einzelnes Netzwerk, sondern betreibt mehrere Netzwerke parallel, oft als „Big 7“ bezeichnet, und vernetzt sie tief miteinander.
Dazu gehören unter anderem das Default Mode Network (DMN), das Central Executive Network (CEN) und das Limbic Network.
Tatsächlich kann ein einzelnes Neuron zu mehreren Netzwerken gehören und jeweils unterschiedliche Funktionen erfüllen.
In künstlichen Systemen haben wir diese Komplexität noch nicht ausreichend repliziert, und aus dieser „Netzwerktopologie“ gibt es noch viel zu lernen und viel Inspiration zu ziehen.
Also: „Topology is all you need“ :-)
Die Annahme „Solange man nur zwischen gut und schlecht unterscheiden kann, kann man ein neuronales Netz trainieren, damit es die Topologie selbst ordnet“ ist problematisch.
Vor etwa 10 Jahren sah ich ein Projekt, bei dem ein Netzwerk trainiert wurde, anhand von Gesichtsfotos das biologische Geschlecht zu erraten.
Um Bias zu reduzieren, entfernten sie sorgfältig Make-up, Schnurrbärte, Haare usw., aber die Genauigkeit lag nur bei etwa 70–80 %.
Damals sah das wie ein hervorragendes Ergebnis aus, und sie peilten 99 % an.
Das Erste, was ich nach dem Lesen des Papers tat, war, nach Arbeiten zu suchen, in denen Menschen bei ähnlichen Fotos das biologische Geschlecht bestimmen.
Menschen waren auch nicht viel besser; der Unterschied zwischen Mensch und Maschine lag bei etwa 1–2 %.
Ich fragte die Leute, die das Projekt betrieben, wie sie bewiesen hätten, dass eine solche Unterscheidung allein anhand von Fotos möglich sei, aber sie verstanden die Frage selbst nicht und nahmen einfach an, dass es möglich sei.
Am Ende konnten sie die Ergebnisse nicht verbessern. Vielleicht hatten sie das neuronale Netz schlecht trainiert, aber wenn man Geschlechtsmarker entfernt, könnten viele Gesichter schlicht androgyn sein.
Ich erzähle diese Anekdote, weil ihre Annahme in meinen Augen ziemlich plausibel wirkte.

In den meisten Situationen kann man, wenn man ein Gesicht sieht, darauf schließen, was jemand in der Hose hat; daher nahm man an, dass diese Information im Gesicht vorhanden sei
Aber angesichts dessen, dass Lehrbücher jedes Jahr neu geschrieben werden, man versucht, die „Halbwertszeit des Wissens“ zu berechnen, die Disziplin Philosophie nicht abgeschlossen ist und täglich politische und ideologische Debatten darüber geführt werden, was das Beste ist, ist die Annahme, wir könnten gut und schlecht irgendwie voneinander trennen, sehr, sehr irrational

Letztlich ist schon die Annahme selbst nicht rational, dass es eine solche Trennung zwischen „gut“ und „schlecht“ gibt
Die Grafik, die behauptet, AGI/ASI sei ein Punkt auf einer Mannigfaltigkeit wie Next-Token Prediction, Chat-Modelle und CoT-Modelle, ist verwirrend
Dass die drei Letztgenannten Teil derselben Mannigfaltigkeit sind, ließe sich vermutlich beweisen, aber ich weiß nicht, welche Grundlage es dafür gibt, AGI/ASI ebenfalls dort zu verorten
Könnte es nicht sein, dass Modelle mit CoT-Fähigkeiten trotz beliebiger topologischer Manipulationen nie einen Prozess erreichen, den man als AGI betrachten kann?
Zum Beispiel erfordert die dem, was wir als AGI kennen, am nächsten kommende menschliche Intelligenz extrem komplexe sensorische und interne Feedback-Loops sowie kontinuierliche Verarbeitung, anders als die diskrete Verarbeitung autoregressiver Modelle
Aus der Intuition eines Laien heraus scheinen LLMs überhaupt nicht zur gleichen Klasse von Systemen zu gehören, die Intelligenz oder Bewusstsein erzeugen können
- Möglich. AGI/ASI sind schlecht definiert. Persönlich neige ich dazu, zu sagen, dass wir AGI bereits erreicht haben; natürlich stimmen dem viele nicht zu
  Die Beschreibung, dass menschliche Intelligenz komplexe sensorische und interne Feedback-Loops sowie kontinuierliche Verarbeitung benötigt, verdeckt meiner Ansicht nach die tatsächlich ziemlich ähnlichen Funktionsweisen neuronaler Netze und biologischer Netzwerke
  Ich habe einiges an Connectomics-Forschung betrieben; im olfaktorischen System von Mäusen etwa entsteht so etwas wie ein Feature-Vektor, je nachdem, welche Neuronen feuern
  Wenn eine bestimmte Menge von Neuronen feuert, bedeutet das dann etwa „Schokolade“ oder „Zitrone“
  Allgemeiner betrachtet scheinen neuronale Repräsentationen Embedding-Repräsentationen in gewissem Maße zu ähneln, und man kann sich vorstellen, einen Embedding-Raum auf Basis dessen zu konstruieren, wo welche Neuronen feuern
  Alles auf Embeddings ist „nur“ Verarbeitung