Kontinuierliche Denkmaschine

(pub.sakana.ai)

2 Punkte von GN⁺ 2025-05-13 | Noch keine Kommentare. | Auf WhatsApp teilen

Continuous Thought Machine (CTM) ist eine neue Architektur, die zeitliche neuronale Dynamiken explizit in die Berechnung neuronaler Netze einbezieht, um die „Entfaltung von Gedanken“, die sich mit rein statischer Feed-forward-Verarbeitung nur schwer abbilden lässt, innerhalb des Modells umzusetzen.
Im Zentrum der Struktur stehen internal ticks, die von der Datenreihenfolge getrennt sind, neuron-level models, bei denen ein MLP pro Neuron die jüngste Pre-Activation-Historie verarbeitet, sowie eine Methode, zeitliche Synchronisierung zwischen Neuronenpaaren als Repräsentation zu nutzen.
In Experimenten mit ImageNet, 2D-Labyrinthen, Parity, Q&A MNIST, CIFAR-10/100, Sortieren reeller Zahlen und Reinforcement Learning zeigte sich, dass die Kernstruktur beibehalten und die Anwendbarkeit durch Austausch nur der Ein- und Ausgabemodule demonstriert werden kann.
Im Labyrinth-Experiment sagte das Modell ohne Positions-Embeddings direkt L/R/U/D/W-Pfade voraus; ein auf 39×39-Labyrinthen und Pfadlängen bis 100 trainiertes Modell generalisierte auf 99×99-Labyrinthe und etwa sechsmal längere Pfade.
CTM zeigte über Synchronisierungsrepräsentationen Verhaltensweisen wie Gedächtnisabruf, adaptive Berechnung, interpretierbare Aufmerksamkeitsverschiebungen und die Bildung interner World Models, ist aber kein Modell, das reale Neuronen wörtlich nachbildet.

Das Problem, auf das CTM abzielt

Bestehende neuronale Netze haben die zeitlichen neuronalen Dynamiken des biologischen Gehirns bewusst vereinfacht und vor allem mit statischen Aktivierungswerten gearbeitet, die für groß angelegtes Deep Learning geeignet sind.
Im Gehirn gibt es spike-timing-dependent plasticity (STDP), neuronale Oszillationen sowie Zeitcodierung auf Basis von Spike Timing und Synchrony; moderne neuronale Netze priorisieren jedoch meist Einfachheit und Recheneffizienz.
Verglichen mit der Flexibilität und Allgemeinheit menschlicher Kognition weist heutige KI Defizite auf, von denen ein Teil mit Zeitverarbeitung zusammenhängen könnte.
Der Beitrag von CTM lässt sich in drei Elemente gliedern:
- Getrennte interne Dimension: eine Zeitachse, auf der sich Denken in einem künstlichen neuronalen System entfalten kann
- neuron-level models (NLMs): Jedes Neuron wird nicht durch eine statische Funktion wie eine feste ReLU aktiviert, sondern verarbeitet die Historie seiner Eingangssignale
- neural synchronization: eine latente Repräsentation, die direkt für Beobachtung und Vorhersage genutzt wird

Reasoning-Modelle und Recurrence

Das Skalieren bestehender Modelle hat große Fortschritte gebracht, doch wegen steigender Rechenkosten und Datenanforderungen bleiben Fragen zur langfristigen Nachhaltigkeit.
Für sequenzielle Daten wurden lange RNN-Varianten eingesetzt, später aber vielfach durch Transformer-basierte Ansätze ersetzt; zuletzt rückt Recurrence wieder als Weg zur Erweiterung der Modellkomplexität in den Fokus.
Reasoning-Modelle für Textgenerierung verwenden eine Form von Recurrence, bei der durch Zwischengenerierungen die Berechnung zur Testzeit erhöht wird.
CTM sieht nicht Recurrence an sich als Kern, sondern die durch Recurrence ermöglichte Interaktion von präzisem Timing und neuronaler Aktivität.
Der Unterschied zu bestehenden Ansätzen besteht aus drei Punkten:
- Sequenzielles Denken ist in einer internen Dimension möglich, die von der Datenmodalität getrennt ist.
- Private Modelle pro Neuron behandeln präzises neuronales Timing.
- Neuronale Synchronisierung wird direkt als Repräsentation zur Aufgabenlösung genutzt.

Die drei Kernmechanismen von CTM

CTM ist eine Struktur, die neuronale Aktivität während der Datenverarbeitung intern über mehrere Ticks entfaltet.
In einem internal tick wird die jüngste Pre-Activation-Historie gesammelt, und NLMs verarbeiten sie zu Post-Activations.
Die zeitliche Historie der Post-Activations wird genutzt, um Synchronisierung zwischen Neuronen zu berechnen; das Ergebnis wird zur Synchronization Representation.
Technische Details finden sich im Technical Report; auch das GitHub repository ist öffentlich verfügbar.
Internal ticks: die interne Dimension, in der sich Denken entfaltet
- CTM führt eine kontinuierliche interne Dimension der Form t ∈ {1, …, T} ein.
- Statt wie ein RNN oder Transformer der Reihenfolge der Daten selbst, etwa Wörtern oder Frames, zu folgen, arbeitet es entlang selbst erzeugter internal ticks.
- Durch diese interne Entfaltung können Repräsentationen auch bei statischen oder nichtsequenziellen Daten wie Bildern oder Labyrinthen iterativ erzeugt und verfeinert werden.
- Die interaktive Labyrinth-Demo oben auf der Seite verwendet 75 Ticks.
Recurrent weights und neuron-level models
- Das Synapse Model von CTM ist ein recurrent MLP in U-NET-Form und erzeugt in jedem Tick Pre-Activations.
- Die letzten M Pre-Activations werden als Eingabehistorie jedes Neurons gesammelt.
- Jedes Neuron d verarbeitet seine eigene Pre-Activation-Historie mit einem private MLP mit eigenen Parametern θd und erzeugt eine Post-Activation.
- Die Post-Activations aller Neuronen werden mit dem Attention Output kombiniert und gehen in die recurrent Berechnung des nächsten Ticks ein.
Synchronization representation
- CTM ist so ausgelegt, dass es Eingaben nicht anhand eines Snapshots des Neuronenzustands zu einem bestimmten Zeitpunkt konsumiert und Ausgaben erzeugt, sondern auf Basis der Dynamik neuronaler Aktivität über die Zeit.
- Mit dem Skalarprodukt St = Zt · (Zt)^T der Post-Activation-Historie Zt wird eine Synchronization Matrix zwischen Neuronen berechnet.
- Da diese Matrix mit O(D²) wächst, werden in der Praxis (i, j)-Neuronenpaare teilabgetastet, um die Repräsentationen Sout und Saction zu bilden.
- Sout wird in den Ausgaberaum projiziert und erzeugt Vorhersagen wie Logits; Saction wird für Beobachtungshandlungen genutzt, etwa als Attention Query.
- Mit wachsender Modellbreite D wächst die Zahl möglicher Synchronisierungsrepräsentationen in der Größenordnung D × (D+1) / 2.
Art der Dateneingabe
- Daten werden bei jedem internal tick per Attention auf Basis der aktuellen Synchronisierung beobachtet.
- In den meisten Experimenten wird standardmäßige cross attention verwendet.
- Der FeatureExtractor erzeugt aus den Daten lokale Merkmale für Key und Value, und aus der Synchronisierung projizierte Queries rufen diese ab.
- Der Attention Output wird im nächsten Recurrence-Zyklus zusammen mit der Post-Activation genutzt.

Trainingsverlust: Optimierung über alle internal ticks

CTM erzeugt bei jedem internal tick eine Ausgabe.
Für die Vorhersage jedes Ticks wird ein Standardverlust wie Cross-Entropy berechnet; die Sicherheit wird als 1 - normalized entropy berechnet.
Der finale Verlust wählt dynamisch zwei Ticks aus und mittelt sie:
- den Tick mit minimalem Verlust t1 = argmin(L)
- den Tick mit maximaler Sicherheit t2 = argmax(C)
Dadurch hängt das Modell nicht nur von einem letzten Schritt ab, sondern sorgt dafür, dass in mehreren internal ticks sinnvolle Berechnung stattfindet.
Das Loss-Design erzeugt auf natürliche Weise einen Curriculum-Effekt und erlaubt es, die Rechenmenge an die Schwierigkeit der Aufgabe anzupassen.

ImageNet-Experiment

Ziel des ImageNet-Experiments ist nicht, einen neuen State of the Art zu erreichen, sondern zu zeigen, wie CTM mit Daten interagiert.
CTM baut beim Beobachten eines Bildes Vorhersagen auf und nutzt dabei neural synchronization direkt als Repräsentation.
Da internal steps vorzeitig abgebrochen werden können, ist adaptive compute möglich.
- Ab einem bestimmten Punkt ist die Genauigkeitssteigerung klein, aber ein zusätzlicher Nutzen bleibt vorhanden.
In der Demo werden die Attention Weights von 16 Attention Heads, Klassenvorhersagen und die zeitliche Entwicklung der Sicherheit angezeigt.
Die neuronale Aktivität wird per UMAP-Projektion in 2D visualisiert; jedes Neuron wird als Punkt dargestellt, wobei die Größe den Absolutwert und die Farbe Vorzeichen und Betrag des Werts angibt.

2D-Labyrinth-Experiment

Labyrinthlösen ist als Aufgabe formuliert, bei der das Modell schrittweise einen Pfad vom Start- zum Zielpunkt konstruieren muss.
CTM wird darauf trainiert, den Pfad nicht als Bild, sondern direkt als Sequenz von L/R/U/D/W-Schritten vorherzusagen.
Oben auf der Seite gibt es eine kleine interaktive Demo, außerdem wird eine Demo eines größeren Modells gezeigt.
Die Demo zeigt, wie der Pfad über 75 internal ticks entsteht; Vorhersagen, die durch Wände führen, werden aus der Anzeige gültiger Pfade ausgeschlossen.
Die Gewichte der 16 Attention Heads und die durchschnittliche Attention werden gemeinsam angezeigt, sodass sichtbar wird, worauf sich das Modell konzentriert.
Generalisierung und World Model
- Ein CTM, das gelernt hat, Pfade bis Länge 100 in 39×39-Labyrinthen zu lösen, wird auf größere 99×99-Labyrinthe angewendet.
- Der gesamte Pfad des Beispiel-Labyrinths ist ungefähr sechsmal länger als die Trainingsbedingung.
- CTM verwendete keine Positions-Embeddings und musste den Pfad direkt als Klassenstring vorhersagen.
- Weil keine Positions-Embeddings vorhanden sind, muss CTM ein internal world model erzeugen, um die Daten abzufragen und das Labyrinth zu erkunden.
- Die Forschenden erklärten, sie wollten sehen, wie CTM in komplexeren Umgebungen wie Spielen oder Videos ohne explizite Positionscodierung Wege findet.

Parity-Experiment

Die Parity Task ist so aufgebaut, dass die kumulative Parity einer binären Sequenz an jeder der 64 Positionen vorhergesagt werden muss.
Da der gesamte binäre Vektor der Länge 64 auf einmal gegeben wird, ist dies ein schwierigeres Setting als eine einfache sequenzielle Eingabe.
CTM wurde mit unterschiedlichen Zahlen von internal ticks trainiert und mit einem LSTM mit gleicher Parameterzahl verglichen.
CTMs mit mehr als 75 internal ticks konnten diese Aufgabe stabil lösen; einige Läufe erreichten 100% Genauigkeit.
LSTM zeigte bei mehr als 10 internal ticks Lernschwierigkeiten und lieferte Ergebnisse, die darauf hindeuten, dass es für das Entfalten einer internen Denkdimension ungeeignet ist.
In der Demo treten interpretierbare Verhaltensweisen auf: Einige Attention Heads scannen die Daten von hinten nach vorn, und der erste Attention Head attendet nur auf Positionen mit negativer Parity.
Zwei CTM-Beispiele lernten unterschiedliche Strategien:
- Eines attendet die Daten in umgekehrter Reihenfolge und sagt dann die kumulative Parity auf einmal voraus.
- Das andere attendet vorwärts und sagt die Parity schrittweise voraus.
- Beide erreichen perfekte Genauigkeit.

Q&A-MNIST-Experiment

Q&A MNIST ist eine Aufgabe zur Bewertung von Gedächtnis- und Abruffähigkeiten von CTM.
Das Modell sieht zuerst eine Sequenz von MNIST-Digits und erhält anschließend Index- und Operator-Embeddings, die festlegen, welches Digit abgerufen und welche modulare Operation angewendet werden soll.
Nachdem alle Digits sowie Index-/Operator-Embeddings präsentiert wurden, signalisiert ein Zero-Tensor-Flag die Erzeugung der finalen Antwort.
Im Experiment ist die Memory Length von CTM so eingestellt, dass MNIST-Digits außerhalb des Activation History Window der neuron-level models liegen.
Daher muss CTM Aktivierungen organisieren, um Informationen zu bewahren, wenn es später Digits abrufen soll.
Ergebnisse und Generalisierung
- LSTM schneidet bei einem internal tick pro Input besser ab als CTM, wird aber mit mehr internal ticks instabiler.
- CTM wird mit zunehmender Zahl internal ticks leistungsfähiger und erreicht bei der schwierigsten In-Distribution-Aufgabe über 95% Genauigkeit.
- CTM konnte Digit-Werte abrufen, die es in weit zurückliegenden Timesteps gesehen hatte; dies wird als Ergebnis der Organisation und Synchronisierung von Neuronen interpretiert.
- In Generalisierungsexperimenten wurde die Genauigkeit gemessen, wenn mehr Digits oder Index-Operator-Embeddings eingegeben wurden als beim Training.
- Sowohl CTM als auch die LSTM-Baseline konnten auf eine höhere Zahl von Operationen generalisieren.
- Empirische Ergebnisse zeigten, dass das Modell bei jedem neuen Index-Embedding das Ergebnis der angegebenen Operation berechnet und speichert, sodass es weiterverarbeiten kann, ohne auf das Final-Answer-Flag zu warten.
- CTM wurde mit mehr internal ticks leistungsfähiger, während LSTM den gegenteiligen Trend zeigte.

Weitere Experimente

CIFAR-10: Vergleich mit Menschen, Feed-forward und LSTM
- Das CIFAR-10-Experiment dient dazu, CTM mit human performance sowie Feed-forward- und LSTM-Baselines zu vergleichen.
- Um Unterschiede sichtbar zu machen, wird ein begrenztes Backbone verwendet.
- Als Datensätze mit menschlichen Labels werden CIFAR-10D und CIFAR-10H verwendet.
- CIFAR-10D hängt mit der Kalibrierung von Schwierigkeitsgraden zusammen.
- CIFAR-10H ist ein Datensatz zur Quantifizierung menschlicher Unsicherheit.
- CIFAR-10D ist hier zu finden, CIFAR-10H hier.
- Für die Berechnung der Kalibrierung wurden die Wahrscheinlichkeiten aus CIFAR-10H verwendet, und CTM zeigte auch im Vergleich mit Menschen die beste Kalibrierung.
- Die neuronale Aktivität von CTM zeigte reichhaltige, vielfältige und komplexe Dynamiken; auch ohne periodic driving function trat periodic behavior auf.
- Der Unterschied zwischen der neuronalen Aktivität von CTM und LSTM dient als Hinweis darauf, dass neuron-level models und synchronization representation als Berechnungsmechanismen neuronale Dynamiken ermöglichen.
CIFAR-100-Ablation
- Im CIFAR-100-Experiment wurde die Zahl der Neuronen, also die Modellbreite, verändert, während andere Bedingungen und die Trainingszeit konstant blieben.
- Breitere Netze benötigen möglicherweise längere Trainingszeiten oder andere Hyperparameter, sodass teilweise Genauigkeitsrückgänge auftraten.
- Um zu untersuchen, wie eigenständig die neuron-level models werden, wurde die Cosine Similarity der Dynamiken zwischen Neuronen gemessen.
- Es wurde beobachtet, dass mit zunehmender Modellbreite die Vielfalt zwischen Neuronen nicht abnimmt, sondern steigt.
- Auch die Beziehung zwischen der Zahl internal ticks und den Vorhersagen wurde analysiert.
- Für Einstellungen mit 25, 50 und 100 internal ticks wurde die Verteilung des Steps untersucht, in dem CTM am sichersten ist.
- In jeder Einstellung traten zwei Konzentrationsbereiche auf, was so interpretiert wird, dass CTM je nach Daten separaten internen Prozessen folgt.
Sortieren reeller Zahlen
- CTM wurde darauf trainiert, 30 reelle Zahlen aus N(0, I30) zu sortieren.
- Ziel ist zu sehen, wann CTM in einer kontrollierten Umgebung mehr oder weniger Berechnung anwendet, und zu prüfen, ob sequenzielle Ausgabe mit CTC loss gelernt werden kann.
- Dieses CTM konnte Listen von 30 reellen Zahlen mit einer Wahrscheinlichkeit von etwa 80% sortieren.
Reinforcement Learning
- CTM wurde über die Verarbeitung nichtsequenzieller Daten mit einer continuous thought dimension hinaus auch auf Aufgaben angewendet, in denen es mit einer externen Umgebung interagiert.
- Mit Proximal Policy Optimization wurden eine Navigation Task sowie teilweise beobachtbare Varianten von CartPole und Acrobot trainiert.
- In diesem Setting erhält CTM eine Beobachtung, verarbeitet sie mit einer festen Zahl interner Denkschritte und gibt anschließend die nächste Action aus.
- Die Activation History bleibt über Environment Steps hinweg kontinuierlich erhalten, sodass Aktivierungen aus früheren Environment Steps aktuelle Entscheidungen beeinflussen können.
- Dadurch erzielte CTM eine mit der LSTM-Baseline vergleichbare Leistung und zeigte, dass es auch in continuous environments lernen kann.

Fazit und Grenzen

CTM ersetzt pointwise activation functions durch private neuron-level models, erzeugt dadurch reichhaltigere neuronale Dynamiken und nutzt nicht den Activation Vector, sondern neural synchronization als neue Repräsentation.
Dieser Ansatz ermöglicht den zeitlichen Aufbau von Repräsentationen in der Bildklassifikation, Labyrinth-Attention und interne Kartenbildung ohne Positions-Embeddings, adaptive computation sowie das Speichern und Abrufen von Erinnerungen außerhalb der Activation History.
Die zentrale CTM-Architektur blieb über verschiedene Aufgaben hinweg weitgehend erhalten; hauptsächlich waren Anpassungen der Ein- und Ausgabemodule nötig.
In komplexen Szenarien wie der Labyrinthsuche funktionierte CTM mit wenig Tuning, während LSTM auch nach erheblichem Tuning Schwierigkeiten hatte.
CTM ist kein Modell, das biologische Neuronen streng wörtlich nachbilden will.
- Reale Neuronen greifen möglicherweise nicht wie CTM auf eine Activation History zu.
- Dennoch treten emergent phenomena wie traveling waves auf.
CTM ist ein Ansatz, der Konzepte aus der Biologie übernimmt und Praktikabilität mit biologischer Inspiration abwägt; er könnte eine Forschungsrichtung sein, die derzeit fehlende Fähigkeiten in KI erschließt.

Kontinuierliche Denkmaschine

Das Problem, auf das CTM abzielt

Reasoning-Modelle und Recurrence

Die drei Kernmechanismen von CTM

Internal ticks: die interne Dimension, in der sich Denken entfaltet

Recurrent weights und neuron-level models

Synchronization representation

Art der Dateneingabe

Trainingsverlust: Optimierung über alle internal ticks

ImageNet-Experiment

2D-Labyrinth-Experiment

Generalisierung und World Model

Parity-Experiment

Q&A-MNIST-Experiment

Ergebnisse und Generalisierung

Weitere Experimente

CIFAR-10: Vergleich mit Menschen, Feed-forward und LSTM

CIFAR-100-Ablation

Sortieren reeller Zahlen

Reinforcement Learning

Fazit und Grenzen

Verwandte Beiträge

Noch keine Kommentare.