Jamba – produktionsreifes Mamba-basiertes KI-Modell

xguru · 2024-03-30T09:46:02+09:00

AI21 Labs hat Jamba vorgestellt, das weltweit erste produktionsreife KI-Modell auf Basis der Mamba-Architektur Jamba kombiniert die Stärken von Mamba SSM (Structured State Space Model) und der traditionellen Transformer-Architektur und bietet damit beeindruckende Leistungs- und Effizienzsteigerungen Umfangreiches Kontextfenster von 256K Tokens. Verarbeitet bis zu 140K Tokens auf einer einzelnen 80GB-GPU Jambas hybride Architektur und Leistung Jamba nutzt in seiner hybriden SSM-Transformer-Architektur Mixture-of-Experts-(MoE)-Layer, bei denen bei der Inferenz nur 12B der insgesamt 52B Parameter verwendet werden Es kann deutlich längere Kontexte verarbeiten als konkurrierende Modelle wie Metas Llama 2 und behält dabei hohen Durchsatz und Effizienz bei Bietet bei langen Kontexten einen 3-fach höheren Durchsatz und ist effizienter als ähnlich große Transformer-basierte Modelle Charakteristisch ist ein Block- und Layer-Ansatz, bei dem jeder Jamba-Block eine Attention- oder Mamba-Layer enthält, gefolgt von einem Multi-Layer Perceptron (MLP) In dieser Struktur ist eine von jeweils acht Layern als Transformer-Layer ausgelegt Zeigt in verschiedenen Benchmarks hervorragende Ergebnisse und übertrifft oder erreicht im Vergleich zu aktuellen Modellen gleicher Größe bei einer breiten Palette von Aufgaben deren Leistung Lizenz Jamba wird als Open Weights unter der Apache-2.0-Lizenz veröffentlicht und ist auf Hugging Face verfügbar Derzeit wird Jamba als Forschungsmodell ohne die für den kommerziellen Einsatz erforderlichen Sicherheitsvorkehrungen veröffentlicht, AI21 Labs plant jedoch, in den kommenden Wochen eine sicherere Version zu veröffentlichen

(maginative.com)

11 Punkte von xguru 2024-03-30 | 1 Kommentare | Auf WhatsApp teilen

AI21 Labs hat Jamba vorgestellt, das weltweit erste produktionsreife KI-Modell auf Basis der Mamba-Architektur
Jamba kombiniert die Stärken von Mamba SSM (Structured State Space Model) und der traditionellen Transformer-Architektur und bietet damit beeindruckende Leistungs- und Effizienzsteigerungen
Umfangreiches Kontextfenster von 256K Tokens. Verarbeitet bis zu 140K Tokens auf einer einzelnen 80GB-GPU

Jambas hybride Architektur und Leistung

Jamba nutzt in seiner hybriden SSM-Transformer-Architektur Mixture-of-Experts-(MoE)-Layer, bei denen bei der Inferenz nur 12B der insgesamt 52B Parameter verwendet werden
Es kann deutlich längere Kontexte verarbeiten als konkurrierende Modelle wie Metas Llama 2 und behält dabei hohen Durchsatz und Effizienz bei
Bietet bei langen Kontexten einen 3-fach höheren Durchsatz und ist effizienter als ähnlich große Transformer-basierte Modelle
Charakteristisch ist ein Block- und Layer-Ansatz, bei dem jeder Jamba-Block eine Attention- oder Mamba-Layer enthält, gefolgt von einem Multi-Layer Perceptron (MLP)
In dieser Struktur ist eine von jeweils acht Layern als Transformer-Layer ausgelegt
Zeigt in verschiedenen Benchmarks hervorragende Ergebnisse und übertrifft oder erreicht im Vergleich zu aktuellen Modellen gleicher Größe bei einer breiten Palette von Aufgaben deren Leistung

Lizenz

Jamba wird als Open Weights unter der Apache-2.0-Lizenz veröffentlicht und ist auf Hugging Face verfügbar
Derzeit wird Jamba als Forschungsmodell ohne die für den kommerziellen Einsatz erforderlichen Sicherheitsvorkehrungen veröffentlicht, AI21 Labs plant jedoch, in den kommenden Wochen eine sicherere Version zu veröffentlichen

1 Kommentare

xguru 2024-03-30

Hacker-News-Kommentare

Teilen eines Links zu einem aktuellen Thread mit einer Erklärung zu Mamba
- Zwei Links werden bereitgestellt: ein Thread zur Erklärung von Mamba und ein besserer Thread.
Empfehlung des Videos von Sasha Rush für alle, die neugierig auf die Trade-offs zwischen Transformer- und State-Space-Model-Layern sind
- Das Video von Sasha Rush hilft dabei, die Unterschiede zwischen Transformer- und State-Space-Model-Layern zu verstehen.
Schilderung von Problemen beim Versuch, das Modell unter Linux mit einer oder zwei 4090-GPUs zum Laufen zu bringen
- Beim Laden des Checkpoints unter Linux mit 4090-GPUs treten Probleme auf; der VRAM scheint ausreichend zu sein, dennoch schlägt es fehl. Das Interesse an dem Versuch wird ausgedrückt.
Begrüßung des Erscheinens eines vollständigen produktionsreifen Modells auf Basis von Mamba sowie Ausdruck von Interesse an sowohl der Leistung als auch dem Durchsatz bei Benchmarks mit langen Kontextfenstern
- Der Eindruck ist, dass Mamba bei langen Kontexten den Durchsatz stark erhöht, dabei aber etwas Genauigkeit einbüßt.
Hinweis auf die Ineffizienz von LLMs (Large Language Models)
- Es wird die Ineffizienz von LLMs erwähnt, die 80 GB GPU-Speicher benötigen, verbunden mit der Hoffnung, dass bei den Algorithmen noch viel Raum für Verbesserungen besteht.
Infragestellen der Notwendigkeit von Self-Attention-Layern
- Es wird gefragt, warum Self-Attention-Layer enthalten sind, anstatt nur SSM- und MLP-Layer abwechselnd zu verwenden.
Erklärung der Leistungsverbesserung des Modells Jamba-v0.1-hybrid-MoE
- Es wird die Meinung geäußert, dass Jamba-v0.1-hybrid-MoE längere Kontexte, höhere Geschwindigkeit und geringere Kosten als bestehende Modelle bietet und damit der Vorstellung ein Ende setzen wird, dass „ein Modell alles beherrscht“.
Hinweis auf das Problem der Namensüberschneidung bei Mamba
- Es wird betont, wie wichtig die Namenswahl ist, da Mamba bereits als Name eines populären Python-Pakets verwendet wird.
Erwähnung des Namens Sparabo und amüsierte Bemerkung darüber, dass alte Namen an neue Dinge vergeben werden
- Es wird gefragt, ob es den Namen Sparabo gibt, und Interesse daran geäußert, dass alte Namen für neue Dinge verwendet werden.
Hinweis darauf, dass Arbeit an langen Kontexten mit MemGPT zusammenhängt, verbunden mit dem Vorschlag, dass ein ähnliches Konzept auch auf Modelle der Mamba-Architektur angewendet werden könnte
- Es wird auf Arbeiten zu langen Kontexten im Zusammenhang mit MemGPT hingewiesen und die Ansicht geäußert, dass sich dies auch auf Modelle mit Mamba-Architektur anwenden ließe.