- Titans-Architektur und MIRAS-Framework sind so konzipiert, dass KI-Modelle den Kerngedächtnisspeicher auch während der Ausführung aktualisieren und große Kontexte schnell verarbeiten können
- Titans kombiniert die Geschwindigkeit von RNN und die Genauigkeit von Transformern, indem Informationen mit hoher „Überraschung“ gezielt im Langzeitgedächtnis gespeichert werden
- MIRAS ist als theoretische Blaupause entworfen, die Speicherstruktur, Bias, Vergessen und Optimierung in einem integrierten Modellrahmen für Sequenzmodelle systematisiert
- In Experimenten erreichen Titans und MIRAS-Varianten (YAAD, MONETA, MEMORA) in der Lang-Kontext-Verarbeitung und Effizienz bessere Werte als neuere Modelle wie Transformer++ und Mamba-2
- Die Studie zeigt einen Wechsel zu einer neuen Generation von Langzeit-Kontext-KI-Modellen, die die Effizienz von RNN und die Ausdrucksstärke von Transformern verbindet
Überblick über Titans und MIRAS
- Titans-Architektur und MIRAS-Framework sind so konzipiert, dass KI den Speicher in Echtzeit während der Ausführung aktualisiert und große Kontexte verarbeitet
- Bei klassischen Transformern steigt der Rechenaufwand der Aufmerksamkeitsmechanismen bei längeren Sequenzen stark an
- Titans und MIRAS überwinden diese Grenze und ermöglichen Langzeitverständnis des Kontexts und Echtzeitanpassung
- Titans liefert eine konkrete Modellstruktur, MIRAS die entsprechende verallgemeinernde theoretische Blaupause
- Beide Systeme erweitern den Ansatz der Testzeit-Memorierung (test-time memorization), um neue Informationen während der Ausführung ohne Re-Training zu integrieren
Titans: Lernen im laufenden Kontext
- Titans trennt Kurzzeitgedächtnis (Aufmerksamkeitsmechanismus) und Langzeitgedächtnis (neuronales Modul), um die menschliche Gedächtnisstruktur nachzuahmen
- Das Langzeitgedächtnismodul nutzt MLP-Formen, um statt fester Vektoren ein tieferes neuronales Netzwerk für reichhaltigere Informationszusammenfassungen zu verwenden
- Das Kernkonzept ist die „Überraschungsmetrik“ (surprise metric)
- Je stärker eine Eingabe von bestehendem Speicher abweicht, desto höher ist die Überraschung und desto eher wird sie im Langzeitgedächtnis abgelegt
- Beispiel: Ein erwartetes Wort („cat“) hat geringe Überraschung, eine unerwartete Eingabe („banana peel“) eine hohe
- Titans kombiniert Momentum und Gewichtszerfall (weight decay)
- Momentum spiegelt die Kontinuität des jüngsten Kontexts wider und speichert auch zugehörige Informationen
- Vergessen entfernt unnötige Daten, um die Speicherkapazität effizient zu nutzen
MIRAS: Integrierte Perspektive auf Sequenzmodelle
- MIRAS interpretiert alle Sequenzmodelle als assoziatives Gedächtnis (associative memory)
- Es ist definiert, dass verschiedene Modelle letztlich dasselbe Problem lösen: effizientes Kombinieren von neuen Informationen mit vorhandenem Gedächtnis
- MIRAS beschreibt Modelle über vier Designelemente
- Speicherstruktur: Form der Informationsspeicherung (Vektor, Matrix, MLP usw.)
- Aufmerksamkeitsbias: Welche Daten vom Modell priorisiert werden
- Retention Gate: Normalisierungsverfahren zur Steuerung des Vergessens
- Speicheralgorithmus: Methode zur Optimierung der Speicheraktualisierung
- Neben MSE und Innerprodukt-Ähnlichkeit untersucht MIRAS nicht-euklidische Zielfunktionen und Regularisierungen, um die Grenzen dieser Modelle zu überwinden
MIRAS-basierte Modelle
- YAAD: Struktur, die mit Huber loss weniger empfindlich auf Eingabefehler oder Ausreißer reagiert
- MONETA: Verwendet verallgemeinerte Normen, um einen stabilen Erhalt von Langzeitwissen zu gewährleisten
- MEMORA: Beschränkt den Speicher wie eine Wahrscheinlichkeitskarte, um eine ausgewogene Informationsintegration zu garantieren
- Alle drei Modelle erreichen starke Langzeitgedächtnis-Performance ohne Aufmerksamkeit (attention)
Versuchsresultate und Leistung
- Titans und MIRAS-Varianten wurden mit modernen Modellen wie Transformer++, Mamba-2 und Gated DeltaNet verglichen
- In Sprachmodellierung (C4, WikiText) und Zero-Shot-Inferenz (HellaSwag, PIQA) wurden höhere Genauigkeit und geringere Perplexity erreicht
- Auch in Genom-/DNA-Modellierung und Zeitreihenprognose wurde die Generalisierungsleistung bestätigt
- Gedächtnistiefe (Depth) beeinflusst die Leistung entscheidend
- Bei gleicher Speicherkapazität liefern tiefere Strukturen geringere Perplexity und bessere Skalierbarkeit
- In puncto Effizienz behält Titans paralleles Training und lineare Inferenzgeschwindigkeit bei und ermöglicht schnellere Verarbeitung als bestehende Modelle
- Im BABILong-Benchmark liegt die Leistung bei langem Kontextschlussfolgern über GPT-4 mit weniger Parametern höher
- Es verarbeitet effektiv Kontextfenster mit mehr als 2 Millionen Tokens
Fazit
- Titans und MIRAS überwinden die Grenzen fester rekurrenter Zustände und stellen eine neue Speicherstruktur vor, die eingehende Daten im Betrieb in Echtzeit lernt
- MIRAS bietet ein starkes theoretisches Rahmenwerk, das Online-Optimierung, assoziatives Gedächtnis und Architekturentwurf integriert
- Durch den nicht-euklidischen Designraum schafft MIRAS die Grundlage für eine Ära langzeitkontextorientierter KI-Modelle, die Effizienz von RNN und Ausdruckskraft von Transformern vereinen
1 Kommentare
Hacker-News-Kommentare
Stellt das Paper Titans: Learning to Memorize at Test Time vor.
Das Original findet sich unter diesem arXiv-Link.
Die zugehörigen Paper sind unter dem ersten und zweiten Link zu finden. Google verdiene mit dieser Transparenz viel Vertrauen, so die Meinung.
Paper großer US-Labore klaffen oft von der praktischen Leistung auseinander. Als Beispiele für DeepSeek werden dieses Paper und dieses Paper genannt.
Meta mit Llama, Qwen und DeepSeek seien deutlich weiter vorn. Derzeit gibt es nur diese inoffizielle Implementierung.
Besonders beeindruckend gewesen sei zuletzt das Projekt lumine; dazu werden der Paper-Link und die offizielle Forschungsseite geteilt.
Google müsse dafür nicht eigens noch mehr Anerkennung erhalten.
Macht den Witz: „Endlich haben wir den ‘Torment Nexus’ gebaut.“
Dabei wird erwähnt, dass TITAN im Universum von Eclipse Phase ein AI-Netzwerk war, das die Menschheit zerstörte.
Der Kern der Titans-Architektur ist, über interne Fehlersignale (Gradienten) Überraschung und Wichtigkeit zu bewerten und danach das Langzeitgedächtnis zu aktualisieren.
Es wird gefragt, ob man ein Modell mit einer solchen Struktur nicht durch zufällige Rauscheingaben stören könnte.
Das Modell lernt auch während der Inferenz weiter, und in der Trainingsphase lernt es, ‘was gelernt werden soll’.
Sinnlose Eingaben erhalten niedrige Surprise-Embeddings und fließen daher kaum in das Lernen ein.
Menschen erinnern nicht nach Neuheit, sondern nach emotionaler Intensität. Auch AI brauche einen inneren Zustand dessen, ‘was sie will’.
In Umgebungen mit erhaltenem Kontext, etwa bei der Entwicklung einer Codebase, könnte sie sich jedoch an frühere Designentscheidungen und Diskussionen erinnern und dadurch bessere Urteile fällen.
Beim ersten Lesen des Titans-Papers habe man gedacht: „Das wird ein großer Fortschritt.“
Die Person arbeitet zwar nicht in der AI-Branche, denkt aber schon lange über menschenähnlich denkende AI nach.
LLMs hätten diesem Maßstab lange nicht genügt, aber Titans scheine einen Schritt in diese Richtung zu machen.
Diese Gedanken würde man gern in einem Blog festhalten, ist sich aber nicht sicher, ob das ohne Bekanntheit Aufmerksamkeit bekäme.
Trotzdem werde die reale Umsetzung von Titans wohl alle überraschen, sobald sie erscheint.
Texte, die das große Ganze erfassen, könnten eher nützliche Einsichten liefern.
Über Titans wurde bereits einmal dieser Blogbeitrag geschrieben.
Abgesehen von Googles Behauptungen gibt es keine validierte Implementierung, und auch Folgeforschung ist fast nicht vorhanden.
Es wird gefragt, ob Titans gegenüber Prompt Injection anfälliger oder weniger anfällig wäre.
Lernen in Echtzeit könnte die Abwehr stärken, aber umgekehrt könnten sich bösartige Eingaben auch tiefer festsetzen.
Beim Lesen einer Erklärung des Attention-Mechanismus von Transformern habe man sich gefragt, wie eine IDE wie Cursor ihren Speicher verwaltet.
Sie scheine Codebases und Kontext immer besser zu verstehen.
Es erklärt lediglich, wie das Kontextfenster von Transformern funktioniert.
Es wird gefragt, ob man sich Titans als eine Struktur vorstellen könne, die sich ähnlich wie LoRA fortlaufend anpasst.
Falls ja, ob es dann einen Schritt gäbe, in dem LoRA wieder in das Hauptmodell zurückgeführt wird; das wird mit einem Schlafprozess verglichen.
Titans besitzt keine solche Niedrigrang-Struktur.
Stattdessen wird beim Verarbeiten von Eingabe-Chunks das gesamte MLP gelernt.
Es wird gefragt, ob überraschungsbasiertes Lernen den Effekt haben könnte, das Modell noch präziser auf Benutzerprompts auszurichten (Alignment).