- AI21 Labs hat Jamba vorgestellt, das weltweit erste produktionsreife KI-Modell auf Basis der Mamba-Architektur
- Jamba kombiniert die Stärken von Mamba SSM (Structured State Space Model) und der traditionellen Transformer-Architektur und bietet damit beeindruckende Leistungs- und Effizienzsteigerungen
- Umfangreiches Kontextfenster von 256K Tokens. Verarbeitet bis zu 140K Tokens auf einer einzelnen 80GB-GPU
Jambas hybride Architektur und Leistung
- Jamba nutzt in seiner hybriden SSM-Transformer-Architektur Mixture-of-Experts-(MoE)-Layer, bei denen bei der Inferenz nur 12B der insgesamt 52B Parameter verwendet werden
- Es kann deutlich längere Kontexte verarbeiten als konkurrierende Modelle wie Metas Llama 2 und behält dabei hohen Durchsatz und Effizienz bei
- Bietet bei langen Kontexten einen 3-fach höheren Durchsatz und ist effizienter als ähnlich große Transformer-basierte Modelle
- Charakteristisch ist ein Block- und Layer-Ansatz, bei dem jeder Jamba-Block eine Attention- oder Mamba-Layer enthält, gefolgt von einem Multi-Layer Perceptron (MLP)
- In dieser Struktur ist eine von jeweils acht Layern als Transformer-Layer ausgelegt
- Zeigt in verschiedenen Benchmarks hervorragende Ergebnisse und übertrifft oder erreicht im Vergleich zu aktuellen Modellen gleicher Größe bei einer breiten Palette von Aufgaben deren Leistung
Lizenz
- Jamba wird als Open Weights unter der Apache-2.0-Lizenz veröffentlicht und ist auf Hugging Face verfügbar
- Derzeit wird Jamba als Forschungsmodell ohne die für den kommerziellen Einsatz erforderlichen Sicherheitsvorkehrungen veröffentlicht, AI21 Labs plant jedoch, in den kommenden Wochen eine sicherere Version zu veröffentlichen
1 Kommentare
Hacker-News-Kommentare