Google Titans-Architektur unterstützt KI beim Aufbau von Langzeitgedächtnis

(research.google)

9 Punkte von GN⁺ 2025-12-08 | Noch keine Kommentare. | Auf WhatsApp teilen

Titans-Architektur und MIRAS-Framework sind so konzipiert, dass KI-Modelle den Kerngedächtnisspeicher auch während der Ausführung aktualisieren und große Kontexte schnell verarbeiten können
Titans kombiniert die Geschwindigkeit von RNN und die Genauigkeit von Transformern, indem Informationen mit hoher „Überraschung“ gezielt im Langzeitgedächtnis gespeichert werden
MIRAS ist als theoretische Blaupause entworfen, die Speicherstruktur, Bias, Vergessen und Optimierung in einem integrierten Modellrahmen für Sequenzmodelle systematisiert
In Experimenten erreichen Titans und MIRAS-Varianten (YAAD, MONETA, MEMORA) in der Lang-Kontext-Verarbeitung und Effizienz bessere Werte als neuere Modelle wie Transformer++ und Mamba-2
Die Studie zeigt einen Wechsel zu einer neuen Generation von Langzeit-Kontext-KI-Modellen, die die Effizienz von RNN und die Ausdrucksstärke von Transformern verbindet

Überblick über Titans und MIRAS

Titans-Architektur und MIRAS-Framework sind so konzipiert, dass KI den Speicher in Echtzeit während der Ausführung aktualisiert und große Kontexte verarbeitet
- Bei klassischen Transformern steigt der Rechenaufwand der Aufmerksamkeitsmechanismen bei längeren Sequenzen stark an
- Titans und MIRAS überwinden diese Grenze und ermöglichen Langzeitverständnis des Kontexts und Echtzeitanpassung
Titans liefert eine konkrete Modellstruktur, MIRAS die entsprechende verallgemeinernde theoretische Blaupause
- Beide Systeme erweitern den Ansatz der Testzeit-Memorierung (test-time memorization), um neue Informationen während der Ausführung ohne Re-Training zu integrieren

Titans trennt Kurzzeitgedächtnis (Aufmerksamkeitsmechanismus) und Langzeitgedächtnis (neuronales Modul), um die menschliche Gedächtnisstruktur nachzuahmen
- Das Langzeitgedächtnismodul nutzt MLP-Formen, um statt fester Vektoren ein tieferes neuronales Netzwerk für reichhaltigere Informationszusammenfassungen zu verwenden
Das Kernkonzept ist die „Überraschungsmetrik“ (surprise metric)
- Je stärker eine Eingabe von bestehendem Speicher abweicht, desto höher ist die Überraschung und desto eher wird sie im Langzeitgedächtnis abgelegt
- Beispiel: Ein erwartetes Wort („cat“) hat geringe Überraschung, eine unerwartete Eingabe („banana peel“) eine hohe
Titans kombiniert Momentum und Gewichtszerfall (weight decay)
- Momentum spiegelt die Kontinuität des jüngsten Kontexts wider und speichert auch zugehörige Informationen
- Vergessen entfernt unnötige Daten, um die Speicherkapazität effizient zu nutzen

MIRAS interpretiert alle Sequenzmodelle als assoziatives Gedächtnis (associative memory)
- Es ist definiert, dass verschiedene Modelle letztlich dasselbe Problem lösen: effizientes Kombinieren von neuen Informationen mit vorhandenem Gedächtnis
MIRAS beschreibt Modelle über vier Designelemente
- Speicherstruktur: Form der Informationsspeicherung (Vektor, Matrix, MLP usw.)
- Aufmerksamkeitsbias: Welche Daten vom Modell priorisiert werden
- Retention Gate: Normalisierungsverfahren zur Steuerung des Vergessens
- Speicheralgorithmus: Methode zur Optimierung der Speicheraktualisierung
Neben MSE und Innerprodukt-Ähnlichkeit untersucht MIRAS nicht-euklidische Zielfunktionen und Regularisierungen, um die Grenzen dieser Modelle zu überwinden

YAAD: Struktur, die mit Huber loss weniger empfindlich auf Eingabefehler oder Ausreißer reagiert
MONETA: Verwendet verallgemeinerte Normen, um einen stabilen Erhalt von Langzeitwissen zu gewährleisten
MEMORA: Beschränkt den Speicher wie eine Wahrscheinlichkeitskarte, um eine ausgewogene Informationsintegration zu garantieren
Alle drei Modelle erreichen starke Langzeitgedächtnis-Performance ohne Aufmerksamkeit (attention)

Titans und MIRAS-Varianten wurden mit modernen Modellen wie Transformer++, Mamba-2 und Gated DeltaNet verglichen
- In Sprachmodellierung (C4, WikiText) und Zero-Shot-Inferenz (HellaSwag, PIQA) wurden höhere Genauigkeit und geringere Perplexity erreicht
- Auch in Genom-/DNA-Modellierung und Zeitreihenprognose wurde die Generalisierungsleistung bestätigt
Gedächtnistiefe (Depth) beeinflusst die Leistung entscheidend
- Bei gleicher Speicherkapazität liefern tiefere Strukturen geringere Perplexity und bessere Skalierbarkeit
In puncto Effizienz behält Titans paralleles Training und lineare Inferenzgeschwindigkeit bei und ermöglicht schnellere Verarbeitung als bestehende Modelle
Im BABILong-Benchmark liegt die Leistung bei langem Kontextschlussfolgern über GPT-4 mit weniger Parametern höher
- Es verarbeitet effektiv Kontextfenster mit mehr als 2 Millionen Tokens

Titans und MIRAS überwinden die Grenzen fester rekurrenter Zustände und stellen eine neue Speicherstruktur vor, die eingehende Daten im Betrieb in Echtzeit lernt
MIRAS bietet ein starkes theoretisches Rahmenwerk, das Online-Optimierung, assoziatives Gedächtnis und Architekturentwurf integriert
Durch den nicht-euklidischen Designraum schafft MIRAS die Grundlage für eine Ära langzeitkontextorientierter KI-Modelle, die Effizienz von RNN und Ausdruckskraft von Transformern vereinen