2 Punkte von GN⁺ 2025-05-13 | 1 Kommentare | Auf WhatsApp teilen
  • Forschende weisen darauf hin, dass die Nutzung von Timing und Synchronisation durch Nervenzellen des Gehirns ein in moderner AI übersehener Schlüsselfaktor für Berechnung ist
  • Mit der Architektur der Continuous Thought Machine (CTM) werden zeitbasierte neuronale Dynamiken tierischer Gehirne in ein praktisches Modell eingebracht
  • CTM verarbeitet Informationen mithilfe einer asynchronen internen Denkdimension, neuronenspezifischer Modelle und der Darstellung von Synchronisation zwischen Neuronen
  • In verschiedenen Experimenten wurden adaptive Rechenleistung, auf neuronaler Synchronisation basierendes Gedächtnis und starke Generalisierungsfähigkeit bestätigt
  • Die leichte Interpretierbarkeit der CTM-Architektur, ihre biologische Plausibilität und ihre Eignung für verschiedene Aufgaben wurden empirisch belegt

tl;dr

  • Die von Gehirnneuronen für Berechnungen genutzten Eigenschaften von Timing und Synchronisation sind entscheidend für die Flexibilität und Anpassungsfähigkeit biologischer Intelligenz
  • Moderne AI verwirft aus Effizienz- und Einfachheitsgründen diese zeitbasierten Eigenschaften
  • Das Forschungsteam fand einen Weg, die Lücke zwischen biologischer Plausibilität, bei der das Timing von Neuronen wichtig ist, und einer effizienten Implementierung moderner AI zu schließen
  • Die Ergebnisse zeigen, dass dies sehr unerwartet und vielversprechend ist

Introduction

  • Neural Networks (NNs) waren ursprünglich vom biologischen Gehirn inspiriert, doch heutige NNs besitzen Strukturen und Dynamiken, die sich stark von echten Gehirnen unterscheiden
  • Moderne NNs haben großskaliges Deep Learning ermöglicht, indem sie zeitliche Dynamiken weglassen, entfernen sich damit aber von ihrer biologischen Grundlage
  • Das Gehirn nutzt komplexe neuronale Dynamiken wie Spike-Timing-Dependent Plasticity (STDP) und die Synchronisation von Neuronen
  • Diese Prinzipien zeitlicher Verarbeitung fehlen in moderner AI, was ein Hindernis für die Entwicklung hin zu menschenähnlich flexibler Intelligenz darstellt
  • Daher sollten Funktionen zur Zeitverarbeitung ein Kernelement künstlicher Intelligenz sein

Why do this research?

  • Trotz der hohen Leistungsfähigkeit moderner AI besteht ein grundlegender Unterschied zu flexibler menschlicher Kognition und Generalität
  • Damit künstliche Intelligenz Leistungen über das menschliche Gehirn hinaus erreichen kann, muss sie neuronale Aktivität und Timing aktiv nachbilden
  • In dieser Arbeit wird mit der Continuous Thought Machine (CTM) das Timing von Neuronen als zentraler Faktor eingeführt
  • Die Hauptbeiträge sind die Trennung einer internen Denkdimension, neuronenspezifische neuronale Modelle und eine auf Synchronisation basierende Repräsentationsstruktur

Reasoning models and recurrence

  • AI entwickelt sich zunehmend weg von einfachem Input-Output-Mapping hin zu aktiven Reasoning-Modellen
  • Bestehende rekurrente Architekturen der RNN-Familie wurden zuletzt zwar durch Transformer ersetzt, doch Rekurrenz an sich ist nützlich, um Modellkomplexität zu skalieren
  • Moderne Textgenerierungsmodelle nutzen etwa zur Testzeit Zwischengenerierung (Recurrence), was zusätzliche Rechenleistung und Flexibilität bietet
  • CTM nutzt im Unterschied zu bisherigen Ansätzen eine intern getrennte schrittweise Denkdimension, Timing auf Ebene einzelner Neuronen und Synchronisation selbst als Repräsentation zur Aufgabenlösung

Method

Strukturüberblick

  • CTM besitzt eine Struktur, in der sich neuronale Aktivität intern über die Daten entfaltet
  • In jedem Schritt wird eine Historie der „pre-activations“ gesammelt und in das Neuron Level Model (NLM) eingespeist
  • Auf Basis der Historien mehrerer „post-activations“ wird eine Neuronensynchronisationsmatrix berechnet, die eine starke Synchronisationsrepräsentation erzeugt
  • Die Synchronisationsrepräsentation dient als zentraler latenter Vektor für Beobachtung und Vorhersage des Modells

Detaillierte Struktur

1. Internal recurrence (interne Rekurrenz)

  • Durch eine interne Rekurrenzdimension wird eine eigene Dimension geschaffen, in der sich der Fortschritt des Denkens entfaltet
  • Jeder interne Tick arbeitet als eigenständige Denkeinheit, unabhängig von externen Zeitreihendaten

2. Neuron-level models (Modelle auf Neuronenebene)

  • Jedes Neuron besitzt eine personalisierte MLP-Struktur und erhält eine kurze Historie von „pre-activations“ als Eingabe, um daraus „post-activations“ zu erzeugen

3. Synchronization as representation (Synchronisation als Repräsentation)

  • Aus allen „post-activations“ innerhalb eines bestimmten Zeitraums wird eine Neuronensynchronisationsmatrix berechnet, die als zentrale latente Repräsentation bzw. Verhaltensvektor dient

Beziehung zu den Eingabedaten

  • Die Daten ergänzen den auf interner Rekurrenz und Synchronisation beruhenden Verarbeitungsansatz
  • Beobachtung und Vorhersage der Eingabedaten erfolgen abhängig vom Synchronisationszustand

Internal ticks: Denkdimension

  • CTM besitzt eine eigene interne Denk-Zeitachse und aktualisiert sowie verfeinert Informationen intern wiederholt, unabhängig von der Reihenfolge der Daten
  • In dieser Dimension entfaltet sich intelligente Aktivität

Recurrent weights: Synapses

  • Über ein U-NET-artiges MLP werden „pre-activations“ erzeugt, wobei die letzten M Werte beibehalten werden
  • Jedes Neuron erhält den Verlaufsvektor der „pre-activations“ als Zeitreihe über ein individuelles MLP und erzeugt daraus „post-activations“

Synchronization as a representation

  • Das Modell interagiert mit der Außenwelt über eine Synchronisationsmatrix zwischen Neuronen
  • Synchronisationswerte werden direkt als reale Verhaltensindikatoren verwendet, etwa für Ausgabe, Beobachtung oder attention query
  • Mit zunehmender Modellbreite D steigt Ausdrucksstärke und Informationsmenge quadratisch
  • In Kombination mit Eingabedatenmodulen wie attention zeigt sich eine noch stärkere Informationsverarbeitungskapazität

Loss function

  • Für jeden internen Tick wird eine Ausgabe erzeugt, dazu die zugehörige Loss und Konfidenz (1 - normalisierte Entropie) berechnet
  • Die gesamte Loss aggregiert den Zeitpunkt mit minimalem Verlust und den Zeitpunkt maximaler Konfidenz dynamisch, um adaptives Lernen passend zur Schwierigkeit der Aufgabe zu fördern

Experiment: ImageNet

Demonstrations

  • CTM trifft Vorhersagen für Bilddaten mithilfe verschiedener attention heads und neuronaler Synchronisation
  • Genauigkeit, Calibration und verschiedene Metriken nach Konfidenzschwellen werden visualisiert

Results

  • CTM passt über adaptive compute seine Denkschritte an; es wurde beobachtet, dass zusätzlicher Nutzen nach einer bestimmten Anzahl von Schritten nur noch gering ausfällt
  • 16 attention heads, Klassenvorhersagen/Genauigkeit je Schritt sowie neuronale Aktivität werden gemeinsam visualisiert

Discussion

  • CTM betont die intuitive und flexible Interaktion mit Daten
  • Durch die auf neuronaler Synchronisation basierende Repräsentation unterscheidet es sich auch bei visueller Erkennung klar von bisherigen Ansätzen
  • Dies deutet darauf hin, dass das Element Zeit (TIME) grundlegend mit der Art verbunden ist, wie Menschen Informationen verarbeiten

Experiment: Solving 2D Mazes

The why and the how

  • Das Lösen von 2D-Labyrinthen ist ohne Hilfsmittel eine sehr schwierige Aufgabe für neuronale Netzmodelle
  • CTM wird mit direkter Pfadvorhersage (L/R/U/D/W) trainiert, wobei die attention-Muster absichtlich mit dem tatsächlichen Pfad übereinstimmen
  • In Generalisierungstests löst es auch komplexe und lange Labyrinthe mit hoher Genauigkeit und starker Generalisierung

Results & Discussion

  • CTM zeigt selbst bei den längsten Pfaden eine überwältigende Leistung im Vergleich zu bestehenden Baselines
  • Es bildet ein strategisches internes World Model ähnlich dem des Menschen, was auf echte Reasoning-Fähigkeit statt bloßem Auswendiglernen hinweist

A World Model

  • Auch ohne position encoding erstellt es allein aus visuellen Informationen ein internes Umweltmodell zur Problemlösung

Experiment: Parity

  • Es wurde darauf trainiert, verschachtelte Parität binärer Sequenzen (gerade/ungerade Summe) vorherzusagen, wobei die vollständige Eingabe bereitgestellt wird
  • Bei Verwendung von mehr als 75 internen Denkticks kann CTM 100 % Genauigkeit erreichen
  • Bei LSTM wird das Training instabil, wenn die Zahl interner Denkticks steigt

Learning sequential algorithms

  • Anhand der Bewegung der attention heads und der Muster neuronaler Aktivierung lernt CTM jeweils Strategien, die Daten vorwärts oder rückwärts zu durchlaufen
  • Das ist ein Hinweis auf Fähigkeiten zu strategischer Planung (Planning) und schrittweiser Ausführung

Experiment: Q&A MNIST

Memory via Synchronization

  • Mit der MNIST-Q&A-Aufgabe wird die Fähigkeit von CTM zu Langzeitgedächtnis und Abruf getestet
  • Auch wenn ein Eingabebild das Verlaufsfenster neuronaler Aktivierung verlässt, speichert und ruft das Modell Langzeitgedächtnisinformationen über Synchronisation ab

Results & Generalization

  • Mit steigender Zahl interner Denkticks verbessert sich die Leistung, und die Generalisierungsfähigkeit bei komplexen Fragen und Längen ist hervorragend
  • LSTM ist bei mehr Ticks instabil, während CTM konsistent lernt und schlussfolgert

Additional experiments

CTM versus humans

  • Auf CIFAR-10 wird die Leistung von Menschen, Feedforward-Modellen, LSTM und CTM verglichen
  • Bei Calibration (Übereinstimmung probabilistischer Vorhersagen) ist CTM dem Menschen überlegen
  • Die Dynamiken neuronaler Synchronisation zeigen im Unterschied zu bisherigen Verfahren sehr vielfältige und komplexe interne Eigenschaften

CIFAR-100, ablation studies

  • Mit größerer Modellbreite wird eine Zunahme neuronaler Vielfalt und Dynamik beobachtet
  • Abhängig von der Zahl interner Ticks zeigen sich je nach Aufgabe unterschiedliche interne Denkprozesse (eine Verteilung mit „zwei Gipfeln“)

Sorting real numbers

  • Beim Sortieren von 30 reellen Zahlen zeigt CTM emergentes Verhalten, bei dem sich die interne Rechenzeit (Warte-Ticks) je nach Abstand bzw. Lücke zwischen den Werten verändert

Reinforcement Learning

  • In RL-Umgebungen wie MiniGrid und CartPole nutzt CTM interne kontinuierliche Denkeinheiten für Interaktion mit der Umgebung und Policy-Entscheidungen
  • Es zeigt ähnliche Endleistung wie LSTM und belegt dabei die Wirksamkeit kontinuierlicher Denkverläufe

Conclusion

  • CTM erreicht die Verbindung biologischer Plausibilität und AI-Effizienz auf neue Weise
  • Durch die Einführung neuronenspezifischer Modelle und einer neuen auf neuronaler Synchronisation basierenden Repräsentationsform realisiert es bislang nicht gesehene Repräsentationsfähigkeiten
  • Bei Bildklassifikation, Labyrinthlösung, Gedächtnis, Sortierung, RL und weiteren Aufgaben zeigt es architektonische Konsistenz und hohe Anpassungsfähigkeit
  • Es belegt die Synergie von Neurowissenschaft und Machine Learning sowie die Bedeutung des Entwurfs von Denkmaschinen, die auf Zeit und Synchronisation fokussieren

1 Kommentare

 
GN⁺ 2025-05-13
Hacker-News-Kommentar
  • Was mich an dieser Arbeit beunruhigt, ist, dass es im bestehenden Bereich des maschinellen Lernens bereits sehr viel Forschung zu biologisch plausiblen Spiking Neural Networks und zeitabhängigen künstlichen neuronalen Netzen gibt, die Terminologie und der Ansatz der Arbeit diese umfangreiche Vorarbeit aber offenbar nicht angemessen würdigen. Insbesondere könnte es Menschen verwirren, die synaptische Integrationsphase als „Denken(thinking)“ zu bezeichnen. Denken ist für gewöhnliche Menschen ein Prozess der wiederholten Erzeugung, Bewertung und Überarbeitung von Ideen, doch in der Arbeit wird dieser Begriff auf die Ebene eines einzelnen Unit-Prozesses gelegt. Das ist auch von der bestehenden ANN- oder Machine-Learning-Terminologie sehr weit entfernt. Diese Bezeichnung als „Denken“ wirkt unpassend. Ich habe nicht alle Zitate geprüft und reagiere nur spontan auf Formulierungen aus einer mir vertrauten Forschungslinie.

    • Mit dem Hinweis, dass es mir leid tut: Ich wollte ursprünglich auf diesen Kommentar antworten, habe aber stattdessen eine separate Antwort im Thread des übergeordneten Kommentars hinterlassen. Der Versuch der Arbeit, biologische Spiking-Netze nachzuahmen, wirkt ziemlich lose; der eigentliche Hauptbeitrag scheint die Verwendung des transponierten Dot-Produkts der Ausgabematrix zu sein, der Rest sind Diffusions-/Attention-Methoden für die Eingaben. Es ist im Grunde eine Kaskade rekursiver Modelle, die Input-Attention und Output-Attention kombiniert.
    • Forschende im maschinellen Lernen, die in den letzten 10–20 Jahren Forschung aus den Neurowissenschaften anerkannt haben, mussten sich anscheinend oft den Vorwurf der Selbstdarstellung anhören. Deshalb überrascht mich das nicht besonders.
    • Diese Arbeit wird präsentiert, als wäre sie eine neue Idee, erwähnt aber jahrzehntelange Forschung zu Spiking Neural Nets oder ähnlichen Gebieten fast gar nicht.
    • Ich wäre dankbar, wenn jemand eine Liste oder kurze Rezension der Bücher oder Arbeiten teilen könnte, die er oder sie zu Konzepten und Implementierungen biologisch inspirierter Algorithmen für besonders aufschlussreich hält.
    • Die Autoren sagen, dass sie nicht die Integration einer einzelnen Synapse als „Denken“ bezeichnen, sondern den Begriff auf die interne Schleife des gesamten Netzwerks pro externem Input anwenden, die sie als „inneren Tick“ bezeichnen, und schreiben ausdrücklich, dass sie dem Denken ähnlich sei.
    • Ich frage mich, ob diese Arbeit vielleicht von Jürgen Schmidhuber geschrieben wurde.
  • Es ist sehr erfreulich, dass dieses wichtige Thema wieder in den Fokus rückt. Im Kontext biologischer Gehirne und Körper denkt man bei „Zeit“ leicht an lineare Newtonsche Zeit, aber in Gehirn-Körper-Systemen geht es zentral darum, eine geordnete Abfolge von Verhalten und Berechnung über verschiedene Ausschnitte der „Gegenwart“ hinweg zu erzeugen — von einer 300-ms-„repräsentierten Gegenwart“ bis hin zu 50 Mikrosekunden in Zellen, die die Position eines Geräuschs bewerten. Wer mehr über bedingte Temporalität erfahren möchte, kann sich die jüngste Arbeit ansehen, in der John Bickle im European Journal of Neuroscience RW Williams interviewt.

  • Mein Eindruck nach der Lektüre der Arbeit ist, dass sie sich in Wirklichkeit überhaupt nicht wie biologische/spikende Netzwerke anfühlt. In der Arbeit wird die Historie der Eingaben erhalten und Multi-Head-Attention verwendet, um ein internes Modell dafür zu erzeugen, wie frühere „präsynaptische“ Eingaben in die aktuelle Ausgabe einfließen. Das ist eher wie ein leicht modifizierter Transformer, der die Eingabeverläufe speichert und per Attention die Ausgabe erzeugt. Auch die „Synchronisation“ entsteht dadurch, dass man über die gesamten Post-Aktivierungen das Skalarprodukt bildet und die resultierende Matrix in den Ausgaberaum projiziert. Da mehrere Ausgaben multipliziert werden müssen, um in jedem Zeitschritt den richtigen Wert zu erzeugen, wurde diese Kopplung wohl „Synchronisation“ genannt. Das wirkt auf mich wie eine Art Induktion von „Sparseheit“, bei der mehrere Ausgabewerte zu einer Matrix zusammengefasst werden, um die Bedeutung ihrer Kombination stärker hervorzuheben als die Individualität jedes einzelnen Werts. Das ist ein grundlegender Mechanismus von Attention, bei dem Ausgaben aus mehreren Subsystemen per Skalarprodukt kombiniert werden.

    • Die Schwäche der Arbeit ist, dass sich die Leistungsvergleiche auf LSTM (ein einfaches rekurrentes Modell) beschränken. Mit mehreren Schichten von Input-/Output-Attention ließe sich vermutlich schon eine ähnliche Struktur und Leistung erzielen. Echte Transformer sind zwar etwas anders, aber es gibt keinen großen Unterschied zu der Kombination aus Input-Attention und U-Net-Struktur, die die Arbeit verwendet.
  • An diesem Wochenende gibt es drei interessante Dinge: 1) Continuous Thought Machines (ein zeitreihenkodierendes neuronales Netz, das biologischen Gehirnen ähnelt), 2) „Zero Data Reasoning“ (eine KI, die durch direktes Handeln lernt statt durch Vortraining auf riesigen Datenmengen), 3) Intellect-2 (eine weltweit verteilte Reinforcement-Learning-Struktur). Aus Sicht eines Nicht-Fachmanns fühlt es sich an, als wären wir der Singularität wieder einen Schritt näher gekommen.

    • Für mich fühlt es sich nicht in diesem Ausmaß so an. Wegen der riesigen Zahl an Arbeiten und unterschiedlichen Forschungsrichtungen ist es schwer vorherzusagen, was so einschlagen wird wie Diffusion, Transformer, AlphaZero oder Chat GPT-3. Auch wenn es wie radikale Fortschritte aussieht, entstehen solche Entwicklungen aus der Kumulation unzähliger Studien und Versuch-und-Irrtum-Prozesse. Es wäre schön, wenn sich alle drei Fortschritte gut zusammenführen ließen, aber ich weiß es auch nicht.
    • Ich denke, man sollte einzelnen Arbeiten nicht zu viel Bedeutung beimessen. Im besten Fall ignoriert man dadurch eine Menge grundlegender Vorarbeiten, im schlimmsten Fall setzt man aufgrund rosiger Erwartungen übermäßig auf eine einzelne Idee.
    • Intellect-2 und Zero Data Reasoning sind beides Strukturen, die auf LLMs laufen (schon der Name „Zero Data Reasoning“ kann eher irreführend sein). Wer echte LLM-Innovationen sehen will, sollte sich anschauen, wie InceptionLabs mit Diffusionsmodellen die Inferenz um das 16-Fache gesteigert hat. Die Leistung unserer zeitbasierten Reinforcement-Learning-Algorithmen liegt im Vergleich zu Inferenzmodellen noch weit zurück, und trotz des AI-Booms stecken Robotik und autonomes Fahren weiterhin fest. Auch die Technik aus dieser Arbeit hat Potenzial, aber es wäre besser, wenn jemand die Terminologie etwas sauberer fassen und besser verdaulich machen würde. Im Moment denke ich noch, dass wir wegen des Phänomens, dass größere Modelle Schwachstellen in Belohnungsfunktionen besonders gut ausnutzen, in vielen Bereichen noch weit von wirklich nützlicher AI entfernt sind.
    • Wenn man Implementierungen aus Arbeiten tatsächlich ausführt, stellt sich oft heraus, dass die Ergebnisse nicht so gut sind wie in der Arbeit beworben oder dass Code fehlt. Um sich nicht vom AI-Hype mitreißen zu lassen, sollte man sich angewöhnen, die konkreten Resultate und Grenzen einer Arbeit zu lesen, vorhandenen Code herunterzuladen und selbst laufen zu lassen sowie Tests mit Eingaben außerhalb des Trainingssatzes durchzuführen.
    • Ich bin auch kein Experte, aber für mich ist das so, als würde man glauben, Roboter würden bald die Welt beherrschen, nur weil Kamera, Aktuatoren und Batterie erfunden wurden. Mit anderen Worten: Das ist kein Sprung, sondern eher ein kleiner Babyschritt.
    • Die Kritik ist damit nicht einfach vom Tisch. Dass breit bekannte Arbeiten und Projekte bereits einen Durchbruch wie Take-off oder AGI darstellen, lässt sich durchaus bestreiten. Aber solche Arbeiten könnten Stellvertreter einer größeren Forschungsrichtung sein. Es fühlt sich also eher so an, als würde ein „Babyhäschen“ in konsistenter Richtung immer wieder kleine Sprünge machen. Ab wann man etwas als Sprung bezeichnet, hängt vom Betrachter ab, aber das Kaninchen bewegt sich auf jeden Fall vorwärts.
  • Die Implementierung von zeitlichen Kodierungsmechanismen wie Spike-Timing und Synchronisation ist sehr schwierig, weshalb moderne neuronale Netze eher auf Einfachheit und Recheneffizienz als auf zeitliche Dynamik setzen. Das echte Simulieren einer Zeitdomäne ist auch aus Hardware-Sicht ein sehr schwieriges Problem, vor allem weil eine zusätzliche Hyperparameter-Achse hinzukommt und es dadurch fast unmöglich wird, gültige Parameterkombinationen zu finden. Eine recheneffiziente Struktur zu finden ist viel schneller, denn wenn in zukünftigen Zeitschritten Spikes auftreten, entsteht eine ereignisartige Struktur ähnlich einer Priority Queue, wodurch der Rechenaufwand sprunghaft ansteigt. Wenn das Ziel wirklich „harte Echtzeitinteraktion“ ist, mag das etwas anderes sein, aber aus praktischer bzw. produktionstechnischer Sicht halte ich es nicht für besonders sinnvoll, solchen Strukturen nachzujagen. Dass mit STDP (Spike-Timing-Dependent Plasticity) Online-Lernen ohne Supervision möglich ist, wirkt nach wie vor sehr attraktiv, aber auf Siliziumbasis scheint es dafür vorerst keinen gangbaren Weg zu geben. Dedizierte Hardware zu verwenden kommt im Grunde dem Festverdrahten eines Teils der Hyperparameter als Konstanten im Code gleich, was weder Sicherheit garantiert noch finanziell leicht zu stemmen ist.

    • Wenn zum Beispiel eine mittelgroße FF-Architektur 100 ms braucht, um einen Eingabebatch zu verarbeiten, was passiert dann bei einer CTM-Struktur, wenn man 10 ms auf die FF-Achse legt und das mit 10 internen „Ticks“ multipliziert? Die Zahlen sind grob, aber letztlich geht es um die Frage, ob der induktive Bias für eine explizite Zeitachse wirklich bedeutungsvoll ist. Vielleicht hätte eine solche Struktur am Ende dieselbe Schwierigkeit bei der Suche.
  • Die Grundidee dieser Maschinen ist an sich nicht völlig neu. In einer Arbeit von 2002 wurden Liquid State Machines (LSM) vorgestellt; dabei werden kontinuierliche Eingaben in ein Spiking Neural Network eingespeist und der Liquid State über eine Dense-Schicht ausgelesen, die mit allen Neuronen im Netzwerk verbunden ist. Eine Arbeit von 2019 nutzte LSM zum Spielen von Atari-Spielen; manchmal übertraf das Menschen, aber nicht immer, und es wurden auch ähnliche Fehlermuster wie bei klassischen neuronalen Netzen beobachtet. Die Leistung war gegenüber traditionellen neuronalen Netzen nicht besonders hoch. Ich würde mir wünschen, dass es mehr Forschung zu neuronalen Netzen gibt, die Eingaben (z. B. Audio) kontinuierlich verarbeiten und kontinuierlich ausgeben und dabei nur die Plastizitätsprinzipien des Gehirns anwenden — ohne Backpropagation. Ich habe das selbst auch versucht, aber vielleicht verstehen wir noch nicht gut genug, wie das Gehirn funktioniert; jedenfalls kenne ich noch keine perfekte Antwort.

  • Ironischerweise lädt diese Webseite in Firefox auf iOS ständig neu.

    • Bei mir geht sie im Browser gar nicht erst auf.
  • Das Schlüsselelement der nächsten Modellgeneration wird das Prinzip „neurons that fire together wire together“ sein. Ich halte Spiking Neural Networks als alternativen Ansatz für äußerst spannend.