- Forschende weisen darauf hin, dass die Nutzung von Timing und Synchronisation durch Nervenzellen des Gehirns ein in moderner AI übersehener Schlüsselfaktor für Berechnung ist
- Mit der Architektur der Continuous Thought Machine (CTM) werden zeitbasierte neuronale Dynamiken tierischer Gehirne in ein praktisches Modell eingebracht
- CTM verarbeitet Informationen mithilfe einer asynchronen internen Denkdimension, neuronenspezifischer Modelle und der Darstellung von Synchronisation zwischen Neuronen
- In verschiedenen Experimenten wurden adaptive Rechenleistung, auf neuronaler Synchronisation basierendes Gedächtnis und starke Generalisierungsfähigkeit bestätigt
- Die leichte Interpretierbarkeit der CTM-Architektur, ihre biologische Plausibilität und ihre Eignung für verschiedene Aufgaben wurden empirisch belegt
tl;dr
- Die von Gehirnneuronen für Berechnungen genutzten Eigenschaften von Timing und Synchronisation sind entscheidend für die Flexibilität und Anpassungsfähigkeit biologischer Intelligenz
- Moderne AI verwirft aus Effizienz- und Einfachheitsgründen diese zeitbasierten Eigenschaften
- Das Forschungsteam fand einen Weg, die Lücke zwischen biologischer Plausibilität, bei der das Timing von Neuronen wichtig ist, und einer effizienten Implementierung moderner AI zu schließen
- Die Ergebnisse zeigen, dass dies sehr unerwartet und vielversprechend ist
Introduction
- Neural Networks (NNs) waren ursprünglich vom biologischen Gehirn inspiriert, doch heutige NNs besitzen Strukturen und Dynamiken, die sich stark von echten Gehirnen unterscheiden
- Moderne NNs haben großskaliges Deep Learning ermöglicht, indem sie zeitliche Dynamiken weglassen, entfernen sich damit aber von ihrer biologischen Grundlage
- Das Gehirn nutzt komplexe neuronale Dynamiken wie Spike-Timing-Dependent Plasticity (STDP) und die Synchronisation von Neuronen
- Diese Prinzipien zeitlicher Verarbeitung fehlen in moderner AI, was ein Hindernis für die Entwicklung hin zu menschenähnlich flexibler Intelligenz darstellt
- Daher sollten Funktionen zur Zeitverarbeitung ein Kernelement künstlicher Intelligenz sein
Why do this research?
- Trotz der hohen Leistungsfähigkeit moderner AI besteht ein grundlegender Unterschied zu flexibler menschlicher Kognition und Generalität
- Damit künstliche Intelligenz Leistungen über das menschliche Gehirn hinaus erreichen kann, muss sie neuronale Aktivität und Timing aktiv nachbilden
- In dieser Arbeit wird mit der Continuous Thought Machine (CTM) das Timing von Neuronen als zentraler Faktor eingeführt
- Die Hauptbeiträge sind die Trennung einer internen Denkdimension, neuronenspezifische neuronale Modelle und eine auf Synchronisation basierende Repräsentationsstruktur
Reasoning models and recurrence
- AI entwickelt sich zunehmend weg von einfachem Input-Output-Mapping hin zu aktiven Reasoning-Modellen
- Bestehende rekurrente Architekturen der RNN-Familie wurden zuletzt zwar durch Transformer ersetzt, doch Rekurrenz an sich ist nützlich, um Modellkomplexität zu skalieren
- Moderne Textgenerierungsmodelle nutzen etwa zur Testzeit Zwischengenerierung (Recurrence), was zusätzliche Rechenleistung und Flexibilität bietet
- CTM nutzt im Unterschied zu bisherigen Ansätzen eine intern getrennte schrittweise Denkdimension, Timing auf Ebene einzelner Neuronen und Synchronisation selbst als Repräsentation zur Aufgabenlösung
Method
Strukturüberblick
- CTM besitzt eine Struktur, in der sich neuronale Aktivität intern über die Daten entfaltet
- In jedem Schritt wird eine Historie der „pre-activations“ gesammelt und in das Neuron Level Model (NLM) eingespeist
- Auf Basis der Historien mehrerer „post-activations“ wird eine Neuronensynchronisationsmatrix berechnet, die eine starke Synchronisationsrepräsentation erzeugt
- Die Synchronisationsrepräsentation dient als zentraler latenter Vektor für Beobachtung und Vorhersage des Modells
Detaillierte Struktur
1. Internal recurrence (interne Rekurrenz)
- Durch eine interne Rekurrenzdimension wird eine eigene Dimension geschaffen, in der sich der Fortschritt des Denkens entfaltet
- Jeder interne Tick arbeitet als eigenständige Denkeinheit, unabhängig von externen Zeitreihendaten
2. Neuron-level models (Modelle auf Neuronenebene)
- Jedes Neuron besitzt eine personalisierte MLP-Struktur und erhält eine kurze Historie von „pre-activations“ als Eingabe, um daraus „post-activations“ zu erzeugen
3. Synchronization as representation (Synchronisation als Repräsentation)
- Aus allen „post-activations“ innerhalb eines bestimmten Zeitraums wird eine Neuronensynchronisationsmatrix berechnet, die als zentrale latente Repräsentation bzw. Verhaltensvektor dient
Beziehung zu den Eingabedaten
- Die Daten ergänzen den auf interner Rekurrenz und Synchronisation beruhenden Verarbeitungsansatz
- Beobachtung und Vorhersage der Eingabedaten erfolgen abhängig vom Synchronisationszustand
Internal ticks: Denkdimension
- CTM besitzt eine eigene interne Denk-Zeitachse und aktualisiert sowie verfeinert Informationen intern wiederholt, unabhängig von der Reihenfolge der Daten
- In dieser Dimension entfaltet sich intelligente Aktivität
Recurrent weights: Synapses
- Über ein U-NET-artiges MLP werden „pre-activations“ erzeugt, wobei die letzten M Werte beibehalten werden
- Jedes Neuron erhält den Verlaufsvektor der „pre-activations“ als Zeitreihe über ein individuelles MLP und erzeugt daraus „post-activations“
Synchronization as a representation
- Das Modell interagiert mit der Außenwelt über eine Synchronisationsmatrix zwischen Neuronen
- Synchronisationswerte werden direkt als reale Verhaltensindikatoren verwendet, etwa für Ausgabe, Beobachtung oder attention query
- Mit zunehmender Modellbreite D steigt Ausdrucksstärke und Informationsmenge quadratisch
- In Kombination mit Eingabedatenmodulen wie attention zeigt sich eine noch stärkere Informationsverarbeitungskapazität
Loss function
- Für jeden internen Tick wird eine Ausgabe erzeugt, dazu die zugehörige Loss und Konfidenz (1 - normalisierte Entropie) berechnet
- Die gesamte Loss aggregiert den Zeitpunkt mit minimalem Verlust und den Zeitpunkt maximaler Konfidenz dynamisch, um adaptives Lernen passend zur Schwierigkeit der Aufgabe zu fördern
Experiment: ImageNet
Demonstrations
- CTM trifft Vorhersagen für Bilddaten mithilfe verschiedener attention heads und neuronaler Synchronisation
- Genauigkeit, Calibration und verschiedene Metriken nach Konfidenzschwellen werden visualisiert
Results
- CTM passt über adaptive compute seine Denkschritte an; es wurde beobachtet, dass zusätzlicher Nutzen nach einer bestimmten Anzahl von Schritten nur noch gering ausfällt
- 16 attention heads, Klassenvorhersagen/Genauigkeit je Schritt sowie neuronale Aktivität werden gemeinsam visualisiert
Discussion
- CTM betont die intuitive und flexible Interaktion mit Daten
- Durch die auf neuronaler Synchronisation basierende Repräsentation unterscheidet es sich auch bei visueller Erkennung klar von bisherigen Ansätzen
- Dies deutet darauf hin, dass das Element Zeit (TIME) grundlegend mit der Art verbunden ist, wie Menschen Informationen verarbeiten
Experiment: Solving 2D Mazes
The why and the how
- Das Lösen von 2D-Labyrinthen ist ohne Hilfsmittel eine sehr schwierige Aufgabe für neuronale Netzmodelle
- CTM wird mit direkter Pfadvorhersage (L/R/U/D/W) trainiert, wobei die attention-Muster absichtlich mit dem tatsächlichen Pfad übereinstimmen
- In Generalisierungstests löst es auch komplexe und lange Labyrinthe mit hoher Genauigkeit und starker Generalisierung
Results & Discussion
- CTM zeigt selbst bei den längsten Pfaden eine überwältigende Leistung im Vergleich zu bestehenden Baselines
- Es bildet ein strategisches internes World Model ähnlich dem des Menschen, was auf echte Reasoning-Fähigkeit statt bloßem Auswendiglernen hinweist
A World Model
- Auch ohne position encoding erstellt es allein aus visuellen Informationen ein internes Umweltmodell zur Problemlösung
Experiment: Parity
- Es wurde darauf trainiert, verschachtelte Parität binärer Sequenzen (gerade/ungerade Summe) vorherzusagen, wobei die vollständige Eingabe bereitgestellt wird
- Bei Verwendung von mehr als 75 internen Denkticks kann CTM 100 % Genauigkeit erreichen
- Bei LSTM wird das Training instabil, wenn die Zahl interner Denkticks steigt
Learning sequential algorithms
- Anhand der Bewegung der attention heads und der Muster neuronaler Aktivierung lernt CTM jeweils Strategien, die Daten vorwärts oder rückwärts zu durchlaufen
- Das ist ein Hinweis auf Fähigkeiten zu strategischer Planung (Planning) und schrittweiser Ausführung
Experiment: Q&A MNIST
Memory via Synchronization
- Mit der MNIST-Q&A-Aufgabe wird die Fähigkeit von CTM zu Langzeitgedächtnis und Abruf getestet
- Auch wenn ein Eingabebild das Verlaufsfenster neuronaler Aktivierung verlässt, speichert und ruft das Modell Langzeitgedächtnisinformationen über Synchronisation ab
Results & Generalization
- Mit steigender Zahl interner Denkticks verbessert sich die Leistung, und die Generalisierungsfähigkeit bei komplexen Fragen und Längen ist hervorragend
- LSTM ist bei mehr Ticks instabil, während CTM konsistent lernt und schlussfolgert
Additional experiments
CTM versus humans
- Auf CIFAR-10 wird die Leistung von Menschen, Feedforward-Modellen, LSTM und CTM verglichen
- Bei Calibration (Übereinstimmung probabilistischer Vorhersagen) ist CTM dem Menschen überlegen
- Die Dynamiken neuronaler Synchronisation zeigen im Unterschied zu bisherigen Verfahren sehr vielfältige und komplexe interne Eigenschaften
CIFAR-100, ablation studies
- Mit größerer Modellbreite wird eine Zunahme neuronaler Vielfalt und Dynamik beobachtet
- Abhängig von der Zahl interner Ticks zeigen sich je nach Aufgabe unterschiedliche interne Denkprozesse (eine Verteilung mit „zwei Gipfeln“)
Sorting real numbers
- Beim Sortieren von 30 reellen Zahlen zeigt CTM emergentes Verhalten, bei dem sich die interne Rechenzeit (Warte-Ticks) je nach Abstand bzw. Lücke zwischen den Werten verändert
Reinforcement Learning
- In RL-Umgebungen wie MiniGrid und CartPole nutzt CTM interne kontinuierliche Denkeinheiten für Interaktion mit der Umgebung und Policy-Entscheidungen
- Es zeigt ähnliche Endleistung wie LSTM und belegt dabei die Wirksamkeit kontinuierlicher Denkverläufe
Conclusion
- CTM erreicht die Verbindung biologischer Plausibilität und AI-Effizienz auf neue Weise
- Durch die Einführung neuronenspezifischer Modelle und einer neuen auf neuronaler Synchronisation basierenden Repräsentationsform realisiert es bislang nicht gesehene Repräsentationsfähigkeiten
- Bei Bildklassifikation, Labyrinthlösung, Gedächtnis, Sortierung, RL und weiteren Aufgaben zeigt es architektonische Konsistenz und hohe Anpassungsfähigkeit
- Es belegt die Synergie von Neurowissenschaft und Machine Learning sowie die Bedeutung des Entwurfs von Denkmaschinen, die auf Zeit und Synchronisation fokussieren
1 Kommentare
Hacker-News-Kommentar
Was mich an dieser Arbeit beunruhigt, ist, dass es im bestehenden Bereich des maschinellen Lernens bereits sehr viel Forschung zu biologisch plausiblen Spiking Neural Networks und zeitabhängigen künstlichen neuronalen Netzen gibt, die Terminologie und der Ansatz der Arbeit diese umfangreiche Vorarbeit aber offenbar nicht angemessen würdigen. Insbesondere könnte es Menschen verwirren, die synaptische Integrationsphase als „Denken(thinking)“ zu bezeichnen. Denken ist für gewöhnliche Menschen ein Prozess der wiederholten Erzeugung, Bewertung und Überarbeitung von Ideen, doch in der Arbeit wird dieser Begriff auf die Ebene eines einzelnen Unit-Prozesses gelegt. Das ist auch von der bestehenden ANN- oder Machine-Learning-Terminologie sehr weit entfernt. Diese Bezeichnung als „Denken“ wirkt unpassend. Ich habe nicht alle Zitate geprüft und reagiere nur spontan auf Formulierungen aus einer mir vertrauten Forschungslinie.
Es ist sehr erfreulich, dass dieses wichtige Thema wieder in den Fokus rückt. Im Kontext biologischer Gehirne und Körper denkt man bei „Zeit“ leicht an lineare Newtonsche Zeit, aber in Gehirn-Körper-Systemen geht es zentral darum, eine geordnete Abfolge von Verhalten und Berechnung über verschiedene Ausschnitte der „Gegenwart“ hinweg zu erzeugen — von einer 300-ms-„repräsentierten Gegenwart“ bis hin zu 50 Mikrosekunden in Zellen, die die Position eines Geräuschs bewerten. Wer mehr über bedingte Temporalität erfahren möchte, kann sich die jüngste Arbeit ansehen, in der John Bickle im European Journal of Neuroscience RW Williams interviewt.
Mein Eindruck nach der Lektüre der Arbeit ist, dass sie sich in Wirklichkeit überhaupt nicht wie biologische/spikende Netzwerke anfühlt. In der Arbeit wird die Historie der Eingaben erhalten und Multi-Head-Attention verwendet, um ein internes Modell dafür zu erzeugen, wie frühere „präsynaptische“ Eingaben in die aktuelle Ausgabe einfließen. Das ist eher wie ein leicht modifizierter Transformer, der die Eingabeverläufe speichert und per Attention die Ausgabe erzeugt. Auch die „Synchronisation“ entsteht dadurch, dass man über die gesamten Post-Aktivierungen das Skalarprodukt bildet und die resultierende Matrix in den Ausgaberaum projiziert. Da mehrere Ausgaben multipliziert werden müssen, um in jedem Zeitschritt den richtigen Wert zu erzeugen, wurde diese Kopplung wohl „Synchronisation“ genannt. Das wirkt auf mich wie eine Art Induktion von „Sparseheit“, bei der mehrere Ausgabewerte zu einer Matrix zusammengefasst werden, um die Bedeutung ihrer Kombination stärker hervorzuheben als die Individualität jedes einzelnen Werts. Das ist ein grundlegender Mechanismus von Attention, bei dem Ausgaben aus mehreren Subsystemen per Skalarprodukt kombiniert werden.
An diesem Wochenende gibt es drei interessante Dinge: 1) Continuous Thought Machines (ein zeitreihenkodierendes neuronales Netz, das biologischen Gehirnen ähnelt), 2) „Zero Data Reasoning“ (eine KI, die durch direktes Handeln lernt statt durch Vortraining auf riesigen Datenmengen), 3) Intellect-2 (eine weltweit verteilte Reinforcement-Learning-Struktur). Aus Sicht eines Nicht-Fachmanns fühlt es sich an, als wären wir der Singularität wieder einen Schritt näher gekommen.
Die Implementierung von zeitlichen Kodierungsmechanismen wie Spike-Timing und Synchronisation ist sehr schwierig, weshalb moderne neuronale Netze eher auf Einfachheit und Recheneffizienz als auf zeitliche Dynamik setzen. Das echte Simulieren einer Zeitdomäne ist auch aus Hardware-Sicht ein sehr schwieriges Problem, vor allem weil eine zusätzliche Hyperparameter-Achse hinzukommt und es dadurch fast unmöglich wird, gültige Parameterkombinationen zu finden. Eine recheneffiziente Struktur zu finden ist viel schneller, denn wenn in zukünftigen Zeitschritten Spikes auftreten, entsteht eine ereignisartige Struktur ähnlich einer Priority Queue, wodurch der Rechenaufwand sprunghaft ansteigt. Wenn das Ziel wirklich „harte Echtzeitinteraktion“ ist, mag das etwas anderes sein, aber aus praktischer bzw. produktionstechnischer Sicht halte ich es nicht für besonders sinnvoll, solchen Strukturen nachzujagen. Dass mit STDP (Spike-Timing-Dependent Plasticity) Online-Lernen ohne Supervision möglich ist, wirkt nach wie vor sehr attraktiv, aber auf Siliziumbasis scheint es dafür vorerst keinen gangbaren Weg zu geben. Dedizierte Hardware zu verwenden kommt im Grunde dem Festverdrahten eines Teils der Hyperparameter als Konstanten im Code gleich, was weder Sicherheit garantiert noch finanziell leicht zu stemmen ist.
Die Grundidee dieser Maschinen ist an sich nicht völlig neu. In einer Arbeit von 2002 wurden Liquid State Machines (LSM) vorgestellt; dabei werden kontinuierliche Eingaben in ein Spiking Neural Network eingespeist und der Liquid State über eine Dense-Schicht ausgelesen, die mit allen Neuronen im Netzwerk verbunden ist. Eine Arbeit von 2019 nutzte LSM zum Spielen von Atari-Spielen; manchmal übertraf das Menschen, aber nicht immer, und es wurden auch ähnliche Fehlermuster wie bei klassischen neuronalen Netzen beobachtet. Die Leistung war gegenüber traditionellen neuronalen Netzen nicht besonders hoch. Ich würde mir wünschen, dass es mehr Forschung zu neuronalen Netzen gibt, die Eingaben (z. B. Audio) kontinuierlich verarbeiten und kontinuierlich ausgeben und dabei nur die Plastizitätsprinzipien des Gehirns anwenden — ohne Backpropagation. Ich habe das selbst auch versucht, aber vielleicht verstehen wir noch nicht gut genug, wie das Gehirn funktioniert; jedenfalls kenne ich noch keine perfekte Antwort.
Ironischerweise lädt diese Webseite in Firefox auf iOS ständig neu.
Das Schlüsselelement der nächsten Modellgeneration wird das Prinzip „neurons that fire together wire together“ sein. Ich halte Spiking Neural Networks als alternativen Ansatz für äußerst spannend.