9 Punkte von GN⁺ 2025-12-08 | 1 Kommentare | Auf WhatsApp teilen
  • Titans-Architektur und MIRAS-Framework sind so konzipiert, dass KI-Modelle den Kerngedächtnisspeicher auch während der Ausführung aktualisieren und große Kontexte schnell verarbeiten können
  • Titans kombiniert die Geschwindigkeit von RNN und die Genauigkeit von Transformern, indem Informationen mit hoher „Überraschung“ gezielt im Langzeitgedächtnis gespeichert werden
  • MIRAS ist als theoretische Blaupause entworfen, die Speicherstruktur, Bias, Vergessen und Optimierung in einem integrierten Modellrahmen für Sequenzmodelle systematisiert
  • In Experimenten erreichen Titans und MIRAS-Varianten (YAAD, MONETA, MEMORA) in der Lang-Kontext-Verarbeitung und Effizienz bessere Werte als neuere Modelle wie Transformer++ und Mamba-2
  • Die Studie zeigt einen Wechsel zu einer neuen Generation von Langzeit-Kontext-KI-Modellen, die die Effizienz von RNN und die Ausdrucksstärke von Transformern verbindet

Überblick über Titans und MIRAS

  • Titans-Architektur und MIRAS-Framework sind so konzipiert, dass KI den Speicher in Echtzeit während der Ausführung aktualisiert und große Kontexte verarbeitet
    • Bei klassischen Transformern steigt der Rechenaufwand der Aufmerksamkeitsmechanismen bei längeren Sequenzen stark an
    • Titans und MIRAS überwinden diese Grenze und ermöglichen Langzeitverständnis des Kontexts und Echtzeitanpassung
  • Titans liefert eine konkrete Modellstruktur, MIRAS die entsprechende verallgemeinernde theoretische Blaupause
    • Beide Systeme erweitern den Ansatz der Testzeit-Memorierung (test-time memorization), um neue Informationen während der Ausführung ohne Re-Training zu integrieren

Titans: Lernen im laufenden Kontext

  • Titans trennt Kurzzeitgedächtnis (Aufmerksamkeitsmechanismus) und Langzeitgedächtnis (neuronales Modul), um die menschliche Gedächtnisstruktur nachzuahmen
    • Das Langzeitgedächtnismodul nutzt MLP-Formen, um statt fester Vektoren ein tieferes neuronales Netzwerk für reichhaltigere Informationszusammenfassungen zu verwenden
  • Das Kernkonzept ist die „Überraschungsmetrik“ (surprise metric)
    • Je stärker eine Eingabe von bestehendem Speicher abweicht, desto höher ist die Überraschung und desto eher wird sie im Langzeitgedächtnis abgelegt
    • Beispiel: Ein erwartetes Wort („cat“) hat geringe Überraschung, eine unerwartete Eingabe („banana peel“) eine hohe
  • Titans kombiniert Momentum und Gewichtszerfall (weight decay)
    • Momentum spiegelt die Kontinuität des jüngsten Kontexts wider und speichert auch zugehörige Informationen
    • Vergessen entfernt unnötige Daten, um die Speicherkapazität effizient zu nutzen

MIRAS: Integrierte Perspektive auf Sequenzmodelle

  • MIRAS interpretiert alle Sequenzmodelle als assoziatives Gedächtnis (associative memory)
    • Es ist definiert, dass verschiedene Modelle letztlich dasselbe Problem lösen: effizientes Kombinieren von neuen Informationen mit vorhandenem Gedächtnis
  • MIRAS beschreibt Modelle über vier Designelemente
    • Speicherstruktur: Form der Informationsspeicherung (Vektor, Matrix, MLP usw.)
    • Aufmerksamkeitsbias: Welche Daten vom Modell priorisiert werden
    • Retention Gate: Normalisierungsverfahren zur Steuerung des Vergessens
    • Speicheralgorithmus: Methode zur Optimierung der Speicheraktualisierung
  • Neben MSE und Innerprodukt-Ähnlichkeit untersucht MIRAS nicht-euklidische Zielfunktionen und Regularisierungen, um die Grenzen dieser Modelle zu überwinden

MIRAS-basierte Modelle

  • YAAD: Struktur, die mit Huber loss weniger empfindlich auf Eingabefehler oder Ausreißer reagiert
  • MONETA: Verwendet verallgemeinerte Normen, um einen stabilen Erhalt von Langzeitwissen zu gewährleisten
  • MEMORA: Beschränkt den Speicher wie eine Wahrscheinlichkeitskarte, um eine ausgewogene Informationsintegration zu garantieren
  • Alle drei Modelle erreichen starke Langzeitgedächtnis-Performance ohne Aufmerksamkeit (attention)

Versuchsresultate und Leistung

  • Titans und MIRAS-Varianten wurden mit modernen Modellen wie Transformer++, Mamba-2 und Gated DeltaNet verglichen
    • In Sprachmodellierung (C4, WikiText) und Zero-Shot-Inferenz (HellaSwag, PIQA) wurden höhere Genauigkeit und geringere Perplexity erreicht
    • Auch in Genom-/DNA-Modellierung und Zeitreihenprognose wurde die Generalisierungsleistung bestätigt
  • Gedächtnistiefe (Depth) beeinflusst die Leistung entscheidend
    • Bei gleicher Speicherkapazität liefern tiefere Strukturen geringere Perplexity und bessere Skalierbarkeit
  • In puncto Effizienz behält Titans paralleles Training und lineare Inferenzgeschwindigkeit bei und ermöglicht schnellere Verarbeitung als bestehende Modelle
  • Im BABILong-Benchmark liegt die Leistung bei langem Kontextschlussfolgern über GPT-4 mit weniger Parametern höher
    • Es verarbeitet effektiv Kontextfenster mit mehr als 2 Millionen Tokens

Fazit

  • Titans und MIRAS überwinden die Grenzen fester rekurrenter Zustände und stellen eine neue Speicherstruktur vor, die eingehende Daten im Betrieb in Echtzeit lernt
  • MIRAS bietet ein starkes theoretisches Rahmenwerk, das Online-Optimierung, assoziatives Gedächtnis und Architekturentwurf integriert
  • Durch den nicht-euklidischen Designraum schafft MIRAS die Grundlage für eine Ära langzeitkontextorientierter KI-Modelle, die Effizienz von RNN und Ausdruckskraft von Transformern vereinen

1 Kommentare

 
GN⁺ 2025-12-08
Hacker-News-Kommentare
  • Stellt das Paper Titans: Learning to Memorize at Test Time vor.
    Das Original findet sich unter diesem arXiv-Link.

    • Fragt sich, ob es noch ein anderes Unternehmen gibt, das AI-Forschung auf diesem Niveau offenlegt.
      Die zugehörigen Paper sind unter dem ersten und zweiten Link zu finden. Google verdiene mit dieser Transparenz viel Vertrauen, so die Meinung.
      • Auch chinesische Unternehmen wie DeepSeek veröffentlichen aktiv Forschung und validieren sie tatsächlich über offene Modelle.
        Paper großer US-Labore klaffen oft von der praktischen Leistung auseinander. Als Beispiele für DeepSeek werden dieses Paper und dieses Paper genannt.
      • Die Veröffentlichung von Papers ist gut, aber selbst nach 11 Monaten lassen sich Modellcode oder Gewichte der Titans-Architektur noch immer nicht herunterladen.
        Meta mit Llama, Qwen und DeepSeek seien deutlich weiter vorn. Derzeit gibt es nur diese inoffizielle Implementierung.
      • Auch Bytedance veröffentlicht sehr aktiv Papers.
        Besonders beeindruckend gewesen sei zuletzt das Projekt lumine; dazu werden der Paper-Link und die offizielle Forschungsseite geteilt.
      • Auch Meta teilt Forschung öffentlich, und zuletzt zeigten auch chinesische Unternehmen einen ähnlichen Trend.
      • 80 % des Ökosystems bauen bereits auf Forschung auf, die von vielen Unternehmen und Einzelpersonen veröffentlicht wurde.
        Google müsse dafür nicht eigens noch mehr Anerkennung erhalten.
  • Macht den Witz: „Endlich haben wir den ‘Torment Nexus’ gebaut.“
    Dabei wird erwähnt, dass TITAN im Universum von Eclipse Phase ein AI-Netzwerk war, das die Menschheit zerstörte.

  • Der Kern der Titans-Architektur ist, über interne Fehlersignale (Gradienten) Überraschung und Wichtigkeit zu bewerten und danach das Langzeitgedächtnis zu aktualisieren.
    Es wird gefragt, ob man ein Modell mit einer solchen Struktur nicht durch zufällige Rauscheingaben stören könnte.

    • Das sei eine vereinfachte Interpretation der Funktionsweise von Titans.
      Das Modell lernt auch während der Inferenz weiter, und in der Trainingsphase lernt es, ‘was gelernt werden soll’.
      Sinnlose Eingaben erhalten niedrige Surprise-Embeddings und fließen daher kaum in das Lernen ein.
    • Tatsächlich könne man jede AI durch zufällige Eingaben aus dem Tritt bringen.
    • Wahrscheinlich hätten die Forschenden dieses Problem von Anfang an erkannt, und das Missverständnis entstehe nur aus einer oberflächlichen Erklärung.
    • Wie beim menschlichen Emotionssystem (limbisches System) brauche auch AI vermutlich einen emotionsbasierten Gedächtnismechanismus.
      Menschen erinnern nicht nach Neuheit, sondern nach emotionaler Intensität. Auch AI brauche einen inneren Zustand dessen, ‘was sie will’.
    • So wie Menschen in einer Gehirnwäsche-Umgebung falsche Informationen wiederholen können, könnte bei AI etwas Ähnliches passieren, wenn der Eingabestrom eingeschränkt ist.
      In Umgebungen mit erhaltenem Kontext, etwa bei der Entwicklung einer Codebase, könnte sie sich jedoch an frühere Designentscheidungen und Diskussionen erinnern und dadurch bessere Urteile fällen.
  • Beim ersten Lesen des Titans-Papers habe man gedacht: „Das wird ein großer Fortschritt.“
    Die Person arbeitet zwar nicht in der AI-Branche, denkt aber schon lange über menschenähnlich denkende AI nach.
    LLMs hätten diesem Maßstab lange nicht genügt, aber Titans scheine einen Schritt in diese Richtung zu machen.
    Diese Gedanken würde man gern in einem Blog festhalten, ist sich aber nicht sicher, ob das ohne Bekanntheit Aufmerksamkeit bekäme.
    Trotzdem werde die reale Umsetzung von Titans wohl alle überraschen, sobald sie erscheint.

    • Wer kontinuierlich bloggt, kann mit der Zeit durchaus zu einer bekannten Person werden.
    • Viele AI-Texte neigen derzeit dazu, sich nur in technischen Details zu verlieren.
      Texte, die das große Ganze erfassen, könnten eher nützliche Einsichten liefern.
    • Es wird vorgeschlagen, den Text auf HN zu teilen und dort Feedback einzuholen.
  • Über Titans wurde bereits einmal dieser Blogbeitrag geschrieben.

    • Allerdings gibt es noch kein vortrainiertes Modell.
      Abgesehen von Googles Behauptungen gibt es keine validierte Implementierung, und auch Folgeforschung ist fast nicht vorhanden.
  • Es wird gefragt, ob Titans gegenüber Prompt Injection anfälliger oder weniger anfällig wäre.
    Lernen in Echtzeit könnte die Abwehr stärken, aber umgekehrt könnten sich bösartige Eingaben auch tiefer festsetzen.

  • Beim Lesen einer Erklärung des Attention-Mechanismus von Transformern habe man sich gefragt, wie eine IDE wie Cursor ihren Speicher verwaltet.
    Sie scheine Codebases und Kontext immer besser zu verstehen.

    • Mit der Speicherverwaltung solcher IDEs habe dieses Paper jedoch nichts zu tun.
      Es erklärt lediglich, wie das Kontextfenster von Transformern funktioniert.
  • Es wird gefragt, ob man sich Titans als eine Struktur vorstellen könne, die sich ähnlich wie LoRA fortlaufend anpasst.
    Falls ja, ob es dann einen Schritt gäbe, in dem LoRA wieder in das Hauptmodell zurückgeführt wird; das wird mit einem Schlafprozess verglichen.

    • LoRA ist in der Regel ein extern angefügter niedrigrangiger Adapter und daher etwas anderes als Titans.
      Titans besitzt keine solche Niedrigrang-Struktur.
    • Theoretisch ließe sich LoRA einsetzen, aber wegen Kapazitätsgrenzen wäre es schwer, es als vollständigen Ersatz zu verwenden.
      Stattdessen wird beim Verarbeiten von Eingabe-Chunks das gesamte MLP gelernt.
  • Es wird gefragt, ob überraschungsbasiertes Lernen den Effekt haben könnte, das Modell noch präziser auf Benutzerprompts auszurichten (Alignment).