Mamba ist ein State-Space-Modell (SSM), das Transformer herausfordert
- KI beherrscht derzeit die Welt, und im Zentrum davon stehen Transformer
- Mamba gehört zu einer alternativen Modellklasse namens State Space Model (SSM)
- Mamba bietet eine ähnliche Leistung und Skalierbarkeit wie Transformer und kann zugleich bei langen Sequenzlängen ausgeführt werden
- Besonders bemerkenswert ist, dass Mamba den „quadratischen Flaschenhals“ des „Attention-Mechanismus“ beseitigt und dadurch lange Kontexte ermöglicht
- Mamba läuft bis zu 5-mal schneller als Transformer
Probleme von Transformern – Attention allein reicht möglicherweise nicht aus
- Bei Transformern kann jedes Token auf vorherige Token verweisen, wodurch das Modell mit wachsendem Kontext langsamer wird
- Das Speichern dieses KV-Caches erfordert zudem eine Speicherkomplexität von O(n)
- Es gibt zwar Techniken, die Engpässe bestehender Transformer abmildern, doch für eine grundlegende Lösung ist ein anderer Ansatz nötig
Backbone für Foundation-Modelle
- Zwei wichtige Bestandteile eines guten ML-Architektur-Backbones
- Kommunikation zwischen Tokens
- Berechnung innerhalb von Tokens
- Transformer-Blöcke bestehen aus Attention und MLPs
- Mamba nutzt für die Kommunikation SSMs, die von der Regelungstheorie inspiriert sind, und behält für die Berechnung Projektionen im Stil von MLPs bei
Motivation für Mamba – zurück zu Temple Run
- Zustand (State) bezeichnet die Variablen, die nötig sind, um das zukünftige Verhalten eines Systems zu bestimmen
- Der Zustand komprimiert alles, was über die Vergangenheit bekannt sein muss, und wird in einen Markov-Entscheidungsprozess überführt
Diskretisierung – in einer quantisierten Welt leben
- Der Prozess, kontinuierliche Differentialgleichungen in diskrete Differenzengleichungen umzuwandeln, wird Diskretisierung (discretisation) genannt
- Mamba verwendet die Zero-Order-Hold-(ZOH)-Diskretisierung
Die SSM-Matrizen verstehen
- Die Matrizen A, B, C und D übernehmen die Zustandsübergänge, die Abbildung neuer Eingaben auf den Zustand, die Abbildung des Zustands auf die SSM-Ausgabe sowie das Durchreichen neuer Eingaben an die Ausgabe
Effizienz vs. Effektivität: Attention is Focus, Selectivity is Prioritisation (Attention ist Fokus, Selektivität ist Priorisierung)
- Transformer sind sehr effektiv, aber nicht unbedingt effizient
- Die Mamba-Architektur bietet eine Lösung, die die Pareto-Grenze von Effizienz und Effektivität verschiebt
Selektionsmechanismus
- Selektivität (Selectivity) ermöglicht es, jedes Token passend zu seinem Bedarf in einen Zustand zu überführen
- Mamba macht die Matrizen A, B und C zu Funktionen von x und damit nicht statisch, sondern kontextabhängig
Probleme der Selektivität
- Durch den Selektionsmechanismus kann die Berechnung langsamer sein als bei nichtselektiven SSMs
- Durch Hardware-Optimierungen kann Mamba dennoch schneller laufen als ähnlich große Transformer
Maschinelles Lernen und politische Ökonomie – wie groß sollte der Zustand sein?
- Der Trade-off zwischen Effizienz und Effektivität in Sequenzmodellen wird dadurch bestimmt, wie gut der Zustand komprimiert wird
- Die Zustandsrepräsentation ist entscheidend, und der Schlüssel liegt in einer selektiven und dynamischen Kompression des Zustands
Informationsfluss bei Transformer vs. Mamba
- Transformer lernen über Trainingsdaten und Kontextdaten
- Bei Mamba werden Trainingsdaten und Kontextdaten komprimiert/gefiltert und so zugänglich gemacht
Zustandsaustausch als neues Prompting-Paradigma
- Mit Modellen wie Mamba lassen sich gemeinsam nutzbare Zustandsbibliotheken teilen, die aus Fachdaten erzeugt wurden
- Zustände ermöglichen es, zur Inferenzzeit ohne Backprop unendliches Kontextlernen anzuwenden
Mamba und mechanistische Interpretierbarkeit
- Die Interpretierbarkeit von Mamba konzentriert sich darauf, die Informationsbewegung zwischen Tokens zu verstehen
Was Mamba und SSMs als Nächstes tun werden
- Modelle wie Mamba könnten sich in Szenarien mit sehr langen Kontexten und benötigtem Langzeitgedächtnis als besonders leistungsfähig erweisen
Agenten und AI-Sicherheit
- Sprachmodelle sind ihrem Wesen nach sicher, doch die Möglichkeit langfristiger Sequenz-Inferenz belebt die Bedeutung agentenbasierter AI-Sicherheit neu
Die beste Zusammenarbeit von Transformer und Mamba
- Es ist wertvoll, Mambas lange Kontexte mit der hohen Auflösung von Transformern bei kurzen Sequenzen zu kombinieren
Meinung von GN⁺
- Mamba löst die Engpässe von Transformern und präsentiert eine wirksame Alternative für die Verarbeitung langer Sequenzen
- Diese Technologie könnte besonders in Bereichen nützlich sein, in denen lange Datensequenzen wichtig sind, etwa Medizin, Genetik und natürliche Sprachverarbeitung
- Es sind weitere Forschungen nötig, um zu klären, ob Mambas Selektionsmechanismus tatsächlich wirksam ist
- Mambas Selektivität könnte helfen, ein Gleichgewicht zwischen der hohen Genauigkeit von Transformern und Effizienz zu finden
Noch keine Kommentare.