- Titans-Architektur und MIRAS-Framework sind so konzipiert, dass KI-Modelle den Kerngedächtnisspeicher auch während der Ausführung aktualisieren und große Kontexte schnell verarbeiten können
- Titans kombiniert die Geschwindigkeit von RNN und die Genauigkeit von Transformern, indem Informationen mit hoher „Überraschung“ gezielt im Langzeitgedächtnis gespeichert werden
- MIRAS ist als theoretische Blaupause entworfen, die Speicherstruktur, Bias, Vergessen und Optimierung in einem integrierten Modellrahmen für Sequenzmodelle systematisiert
- In Experimenten erreichen Titans und MIRAS-Varianten (YAAD, MONETA, MEMORA) in der Lang-Kontext-Verarbeitung und Effizienz bessere Werte als neuere Modelle wie Transformer++ und Mamba-2
- Die Studie zeigt einen Wechsel zu einer neuen Generation von Langzeit-Kontext-KI-Modellen, die die Effizienz von RNN und die Ausdrucksstärke von Transformern verbindet
Überblick über Titans und MIRAS
- Titans-Architektur und MIRAS-Framework sind so konzipiert, dass KI den Speicher in Echtzeit während der Ausführung aktualisiert und große Kontexte verarbeitet
- Bei klassischen Transformern steigt der Rechenaufwand der Aufmerksamkeitsmechanismen bei längeren Sequenzen stark an
- Titans und MIRAS überwinden diese Grenze und ermöglichen Langzeitverständnis des Kontexts und Echtzeitanpassung
- Titans liefert eine konkrete Modellstruktur, MIRAS die entsprechende verallgemeinernde theoretische Blaupause
- Beide Systeme erweitern den Ansatz der Testzeit-Memorierung (test-time memorization), um neue Informationen während der Ausführung ohne Re-Training zu integrieren
Titans: Lernen im laufenden Kontext
- Titans trennt Kurzzeitgedächtnis (Aufmerksamkeitsmechanismus) und Langzeitgedächtnis (neuronales Modul), um die menschliche Gedächtnisstruktur nachzuahmen
- Das Langzeitgedächtnismodul nutzt MLP-Formen, um statt fester Vektoren ein tieferes neuronales Netzwerk für reichhaltigere Informationszusammenfassungen zu verwenden
- Das Kernkonzept ist die „Überraschungsmetrik“ (surprise metric)
- Je stärker eine Eingabe von bestehendem Speicher abweicht, desto höher ist die Überraschung und desto eher wird sie im Langzeitgedächtnis abgelegt
- Beispiel: Ein erwartetes Wort („cat“) hat geringe Überraschung, eine unerwartete Eingabe („banana peel“) eine hohe
- Titans kombiniert Momentum und Gewichtszerfall (weight decay)
- Momentum spiegelt die Kontinuität des jüngsten Kontexts wider und speichert auch zugehörige Informationen
- Vergessen entfernt unnötige Daten, um die Speicherkapazität effizient zu nutzen
MIRAS: Integrierte Perspektive auf Sequenzmodelle
- MIRAS interpretiert alle Sequenzmodelle als assoziatives Gedächtnis (associative memory)
- Es ist definiert, dass verschiedene Modelle letztlich dasselbe Problem lösen: effizientes Kombinieren von neuen Informationen mit vorhandenem Gedächtnis
- MIRAS beschreibt Modelle über vier Designelemente
- Speicherstruktur: Form der Informationsspeicherung (Vektor, Matrix, MLP usw.)
- Aufmerksamkeitsbias: Welche Daten vom Modell priorisiert werden
- Retention Gate: Normalisierungsverfahren zur Steuerung des Vergessens
- Speicheralgorithmus: Methode zur Optimierung der Speicheraktualisierung
- Neben MSE und Innerprodukt-Ähnlichkeit untersucht MIRAS nicht-euklidische Zielfunktionen und Regularisierungen, um die Grenzen dieser Modelle zu überwinden
MIRAS-basierte Modelle
- YAAD: Struktur, die mit Huber loss weniger empfindlich auf Eingabefehler oder Ausreißer reagiert
- MONETA: Verwendet verallgemeinerte Normen, um einen stabilen Erhalt von Langzeitwissen zu gewährleisten
- MEMORA: Beschränkt den Speicher wie eine Wahrscheinlichkeitskarte, um eine ausgewogene Informationsintegration zu garantieren
- Alle drei Modelle erreichen starke Langzeitgedächtnis-Performance ohne Aufmerksamkeit (attention)
Versuchsresultate und Leistung
- Titans und MIRAS-Varianten wurden mit modernen Modellen wie Transformer++, Mamba-2 und Gated DeltaNet verglichen
- In Sprachmodellierung (C4, WikiText) und Zero-Shot-Inferenz (HellaSwag, PIQA) wurden höhere Genauigkeit und geringere Perplexity erreicht
- Auch in Genom-/DNA-Modellierung und Zeitreihenprognose wurde die Generalisierungsleistung bestätigt
- Gedächtnistiefe (Depth) beeinflusst die Leistung entscheidend
- Bei gleicher Speicherkapazität liefern tiefere Strukturen geringere Perplexity und bessere Skalierbarkeit
- In puncto Effizienz behält Titans paralleles Training und lineare Inferenzgeschwindigkeit bei und ermöglicht schnellere Verarbeitung als bestehende Modelle
- Im BABILong-Benchmark liegt die Leistung bei langem Kontextschlussfolgern über GPT-4 mit weniger Parametern höher
- Es verarbeitet effektiv Kontextfenster mit mehr als 2 Millionen Tokens
Fazit
- Titans und MIRAS überwinden die Grenzen fester rekurrenter Zustände und stellen eine neue Speicherstruktur vor, die eingehende Daten im Betrieb in Echtzeit lernt
- MIRAS bietet ein starkes theoretisches Rahmenwerk, das Online-Optimierung, assoziatives Gedächtnis und Architekturentwurf integriert
- Durch den nicht-euklidischen Designraum schafft MIRAS die Grundlage für eine Ära langzeitkontextorientierter KI-Modelle, die Effizienz von RNN und Ausdruckskraft von Transformern vereinen
Noch keine Kommentare.