9 Punkte von GN⁺ 2025-12-08 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Titans-Architektur und MIRAS-Framework sind so konzipiert, dass KI-Modelle den Kerngedächtnisspeicher auch während der Ausführung aktualisieren und große Kontexte schnell verarbeiten können
  • Titans kombiniert die Geschwindigkeit von RNN und die Genauigkeit von Transformern, indem Informationen mit hoher „Überraschung“ gezielt im Langzeitgedächtnis gespeichert werden
  • MIRAS ist als theoretische Blaupause entworfen, die Speicherstruktur, Bias, Vergessen und Optimierung in einem integrierten Modellrahmen für Sequenzmodelle systematisiert
  • In Experimenten erreichen Titans und MIRAS-Varianten (YAAD, MONETA, MEMORA) in der Lang-Kontext-Verarbeitung und Effizienz bessere Werte als neuere Modelle wie Transformer++ und Mamba-2
  • Die Studie zeigt einen Wechsel zu einer neuen Generation von Langzeit-Kontext-KI-Modellen, die die Effizienz von RNN und die Ausdrucksstärke von Transformern verbindet

Überblick über Titans und MIRAS

  • Titans-Architektur und MIRAS-Framework sind so konzipiert, dass KI den Speicher in Echtzeit während der Ausführung aktualisiert und große Kontexte verarbeitet
    • Bei klassischen Transformern steigt der Rechenaufwand der Aufmerksamkeitsmechanismen bei längeren Sequenzen stark an
    • Titans und MIRAS überwinden diese Grenze und ermöglichen Langzeitverständnis des Kontexts und Echtzeitanpassung
  • Titans liefert eine konkrete Modellstruktur, MIRAS die entsprechende verallgemeinernde theoretische Blaupause
    • Beide Systeme erweitern den Ansatz der Testzeit-Memorierung (test-time memorization), um neue Informationen während der Ausführung ohne Re-Training zu integrieren

Titans: Lernen im laufenden Kontext

  • Titans trennt Kurzzeitgedächtnis (Aufmerksamkeitsmechanismus) und Langzeitgedächtnis (neuronales Modul), um die menschliche Gedächtnisstruktur nachzuahmen
    • Das Langzeitgedächtnismodul nutzt MLP-Formen, um statt fester Vektoren ein tieferes neuronales Netzwerk für reichhaltigere Informationszusammenfassungen zu verwenden
  • Das Kernkonzept ist die „Überraschungsmetrik“ (surprise metric)
    • Je stärker eine Eingabe von bestehendem Speicher abweicht, desto höher ist die Überraschung und desto eher wird sie im Langzeitgedächtnis abgelegt
    • Beispiel: Ein erwartetes Wort („cat“) hat geringe Überraschung, eine unerwartete Eingabe („banana peel“) eine hohe
  • Titans kombiniert Momentum und Gewichtszerfall (weight decay)
    • Momentum spiegelt die Kontinuität des jüngsten Kontexts wider und speichert auch zugehörige Informationen
    • Vergessen entfernt unnötige Daten, um die Speicherkapazität effizient zu nutzen

MIRAS: Integrierte Perspektive auf Sequenzmodelle

  • MIRAS interpretiert alle Sequenzmodelle als assoziatives Gedächtnis (associative memory)
    • Es ist definiert, dass verschiedene Modelle letztlich dasselbe Problem lösen: effizientes Kombinieren von neuen Informationen mit vorhandenem Gedächtnis
  • MIRAS beschreibt Modelle über vier Designelemente
    • Speicherstruktur: Form der Informationsspeicherung (Vektor, Matrix, MLP usw.)
    • Aufmerksamkeitsbias: Welche Daten vom Modell priorisiert werden
    • Retention Gate: Normalisierungsverfahren zur Steuerung des Vergessens
    • Speicheralgorithmus: Methode zur Optimierung der Speicheraktualisierung
  • Neben MSE und Innerprodukt-Ähnlichkeit untersucht MIRAS nicht-euklidische Zielfunktionen und Regularisierungen, um die Grenzen dieser Modelle zu überwinden

MIRAS-basierte Modelle

  • YAAD: Struktur, die mit Huber loss weniger empfindlich auf Eingabefehler oder Ausreißer reagiert
  • MONETA: Verwendet verallgemeinerte Normen, um einen stabilen Erhalt von Langzeitwissen zu gewährleisten
  • MEMORA: Beschränkt den Speicher wie eine Wahrscheinlichkeitskarte, um eine ausgewogene Informationsintegration zu garantieren
  • Alle drei Modelle erreichen starke Langzeitgedächtnis-Performance ohne Aufmerksamkeit (attention)

Versuchsresultate und Leistung

  • Titans und MIRAS-Varianten wurden mit modernen Modellen wie Transformer++, Mamba-2 und Gated DeltaNet verglichen
    • In Sprachmodellierung (C4, WikiText) und Zero-Shot-Inferenz (HellaSwag, PIQA) wurden höhere Genauigkeit und geringere Perplexity erreicht
    • Auch in Genom-/DNA-Modellierung und Zeitreihenprognose wurde die Generalisierungsleistung bestätigt
  • Gedächtnistiefe (Depth) beeinflusst die Leistung entscheidend
    • Bei gleicher Speicherkapazität liefern tiefere Strukturen geringere Perplexity und bessere Skalierbarkeit
  • In puncto Effizienz behält Titans paralleles Training und lineare Inferenzgeschwindigkeit bei und ermöglicht schnellere Verarbeitung als bestehende Modelle
  • Im BABILong-Benchmark liegt die Leistung bei langem Kontextschlussfolgern über GPT-4 mit weniger Parametern höher
    • Es verarbeitet effektiv Kontextfenster mit mehr als 2 Millionen Tokens

Fazit

  • Titans und MIRAS überwinden die Grenzen fester rekurrenter Zustände und stellen eine neue Speicherstruktur vor, die eingehende Daten im Betrieb in Echtzeit lernt
  • MIRAS bietet ein starkes theoretisches Rahmenwerk, das Online-Optimierung, assoziatives Gedächtnis und Architekturentwurf integriert
  • Durch den nicht-euklidischen Designraum schafft MIRAS die Grundlage für eine Ära langzeitkontextorientierter KI-Modelle, die Effizienz von RNN und Ausdruckskraft von Transformern vereinen

Noch keine Kommentare.

Noch keine Kommentare.