11 Punkte von GN⁺ 2024-02-27 | Noch keine Kommentare. | Auf WhatsApp teilen

Mamba ist ein State-Space-Modell (SSM), das Transformer herausfordert

  • KI beherrscht derzeit die Welt, und im Zentrum davon stehen Transformer
  • Mamba gehört zu einer alternativen Modellklasse namens State Space Model (SSM)
  • Mamba bietet eine ähnliche Leistung und Skalierbarkeit wie Transformer und kann zugleich bei langen Sequenzlängen ausgeführt werden
  • Besonders bemerkenswert ist, dass Mamba den „quadratischen Flaschenhals“ des „Attention-Mechanismus“ beseitigt und dadurch lange Kontexte ermöglicht
  • Mamba läuft bis zu 5-mal schneller als Transformer

Probleme von Transformern – Attention allein reicht möglicherweise nicht aus

  • Bei Transformern kann jedes Token auf vorherige Token verweisen, wodurch das Modell mit wachsendem Kontext langsamer wird
  • Das Speichern dieses KV-Caches erfordert zudem eine Speicherkomplexität von O(n)
  • Es gibt zwar Techniken, die Engpässe bestehender Transformer abmildern, doch für eine grundlegende Lösung ist ein anderer Ansatz nötig

Backbone für Foundation-Modelle

  • Zwei wichtige Bestandteile eines guten ML-Architektur-Backbones
    • Kommunikation zwischen Tokens
    • Berechnung innerhalb von Tokens
  • Transformer-Blöcke bestehen aus Attention und MLPs
  • Mamba nutzt für die Kommunikation SSMs, die von der Regelungstheorie inspiriert sind, und behält für die Berechnung Projektionen im Stil von MLPs bei

Motivation für Mamba – zurück zu Temple Run

  • Zustand (State) bezeichnet die Variablen, die nötig sind, um das zukünftige Verhalten eines Systems zu bestimmen
  • Der Zustand komprimiert alles, was über die Vergangenheit bekannt sein muss, und wird in einen Markov-Entscheidungsprozess überführt

Diskretisierung – in einer quantisierten Welt leben

  • Der Prozess, kontinuierliche Differentialgleichungen in diskrete Differenzengleichungen umzuwandeln, wird Diskretisierung (discretisation) genannt
  • Mamba verwendet die Zero-Order-Hold-(ZOH)-Diskretisierung

Die SSM-Matrizen verstehen

  • Die Matrizen A, B, C und D übernehmen die Zustandsübergänge, die Abbildung neuer Eingaben auf den Zustand, die Abbildung des Zustands auf die SSM-Ausgabe sowie das Durchreichen neuer Eingaben an die Ausgabe

Effizienz vs. Effektivität: Attention is Focus, Selectivity is Prioritisation (Attention ist Fokus, Selektivität ist Priorisierung)

  • Transformer sind sehr effektiv, aber nicht unbedingt effizient
  • Die Mamba-Architektur bietet eine Lösung, die die Pareto-Grenze von Effizienz und Effektivität verschiebt

Selektionsmechanismus

  • Selektivität (Selectivity) ermöglicht es, jedes Token passend zu seinem Bedarf in einen Zustand zu überführen
  • Mamba macht die Matrizen A, B und C zu Funktionen von x und damit nicht statisch, sondern kontextabhängig

Probleme der Selektivität

  • Durch den Selektionsmechanismus kann die Berechnung langsamer sein als bei nichtselektiven SSMs
  • Durch Hardware-Optimierungen kann Mamba dennoch schneller laufen als ähnlich große Transformer

Maschinelles Lernen und politische Ökonomie – wie groß sollte der Zustand sein?

  • Der Trade-off zwischen Effizienz und Effektivität in Sequenzmodellen wird dadurch bestimmt, wie gut der Zustand komprimiert wird
  • Die Zustandsrepräsentation ist entscheidend, und der Schlüssel liegt in einer selektiven und dynamischen Kompression des Zustands

Informationsfluss bei Transformer vs. Mamba

  • Transformer lernen über Trainingsdaten und Kontextdaten
  • Bei Mamba werden Trainingsdaten und Kontextdaten komprimiert/gefiltert und so zugänglich gemacht

Zustandsaustausch als neues Prompting-Paradigma

  • Mit Modellen wie Mamba lassen sich gemeinsam nutzbare Zustandsbibliotheken teilen, die aus Fachdaten erzeugt wurden
  • Zustände ermöglichen es, zur Inferenzzeit ohne Backprop unendliches Kontextlernen anzuwenden

Mamba und mechanistische Interpretierbarkeit

  • Die Interpretierbarkeit von Mamba konzentriert sich darauf, die Informationsbewegung zwischen Tokens zu verstehen

Was Mamba und SSMs als Nächstes tun werden

  • Modelle wie Mamba könnten sich in Szenarien mit sehr langen Kontexten und benötigtem Langzeitgedächtnis als besonders leistungsfähig erweisen

Agenten und AI-Sicherheit

  • Sprachmodelle sind ihrem Wesen nach sicher, doch die Möglichkeit langfristiger Sequenz-Inferenz belebt die Bedeutung agentenbasierter AI-Sicherheit neu

Die beste Zusammenarbeit von Transformer und Mamba

  • Es ist wertvoll, Mambas lange Kontexte mit der hohen Auflösung von Transformern bei kurzen Sequenzen zu kombinieren

Meinung von GN⁺

  • Mamba löst die Engpässe von Transformern und präsentiert eine wirksame Alternative für die Verarbeitung langer Sequenzen
  • Diese Technologie könnte besonders in Bereichen nützlich sein, in denen lange Datensequenzen wichtig sind, etwa Medizin, Genetik und natürliche Sprachverarbeitung
  • Es sind weitere Forschungen nötig, um zu klären, ob Mambas Selektionsmechanismus tatsächlich wirksam ist
  • Mambas Selektivität könnte helfen, ein Gleichgewicht zwischen der hohen Genauigkeit von Transformern und Effizienz zu finden

Noch keine Kommentare.

Noch keine Kommentare.