11 Punkte von xguru 2024-03-30 | 1 Kommentare | Auf WhatsApp teilen
  • AI21 Labs hat Jamba vorgestellt, das weltweit erste produktionsreife KI-Modell auf Basis der Mamba-Architektur
  • Jamba kombiniert die Stärken von Mamba SSM (Structured State Space Model) und der traditionellen Transformer-Architektur und bietet damit beeindruckende Leistungs- und Effizienzsteigerungen
  • Umfangreiches Kontextfenster von 256K Tokens. Verarbeitet bis zu 140K Tokens auf einer einzelnen 80GB-GPU

Jambas hybride Architektur und Leistung

  • Jamba nutzt in seiner hybriden SSM-Transformer-Architektur Mixture-of-Experts-(MoE)-Layer, bei denen bei der Inferenz nur 12B der insgesamt 52B Parameter verwendet werden
  • Es kann deutlich längere Kontexte verarbeiten als konkurrierende Modelle wie Metas Llama 2 und behält dabei hohen Durchsatz und Effizienz bei
  • Bietet bei langen Kontexten einen 3-fach höheren Durchsatz und ist effizienter als ähnlich große Transformer-basierte Modelle
  • Charakteristisch ist ein Block- und Layer-Ansatz, bei dem jeder Jamba-Block eine Attention- oder Mamba-Layer enthält, gefolgt von einem Multi-Layer Perceptron (MLP)
  • In dieser Struktur ist eine von jeweils acht Layern als Transformer-Layer ausgelegt
  • Zeigt in verschiedenen Benchmarks hervorragende Ergebnisse und übertrifft oder erreicht im Vergleich zu aktuellen Modellen gleicher Größe bei einer breiten Palette von Aufgaben deren Leistung

Lizenz

  • Jamba wird als Open Weights unter der Apache-2.0-Lizenz veröffentlicht und ist auf Hugging Face verfügbar
  • Derzeit wird Jamba als Forschungsmodell ohne die für den kommerziellen Einsatz erforderlichen Sicherheitsvorkehrungen veröffentlicht, AI21 Labs plant jedoch, in den kommenden Wochen eine sicherere Version zu veröffentlichen

1 Kommentare

 
xguru 2024-03-30

Hacker-News-Kommentare

  • Teilen eines Links zu einem aktuellen Thread mit einer Erklärung zu Mamba
  • Empfehlung des Videos von Sasha Rush für alle, die neugierig auf die Trade-offs zwischen Transformer- und State-Space-Model-Layern sind
    • Das Video von Sasha Rush hilft dabei, die Unterschiede zwischen Transformer- und State-Space-Model-Layern zu verstehen.
  • Schilderung von Problemen beim Versuch, das Modell unter Linux mit einer oder zwei 4090-GPUs zum Laufen zu bringen
    • Beim Laden des Checkpoints unter Linux mit 4090-GPUs treten Probleme auf; der VRAM scheint ausreichend zu sein, dennoch schlägt es fehl. Das Interesse an dem Versuch wird ausgedrückt.
  • Begrüßung des Erscheinens eines vollständigen produktionsreifen Modells auf Basis von Mamba sowie Ausdruck von Interesse an sowohl der Leistung als auch dem Durchsatz bei Benchmarks mit langen Kontextfenstern
    • Der Eindruck ist, dass Mamba bei langen Kontexten den Durchsatz stark erhöht, dabei aber etwas Genauigkeit einbüßt.
  • Hinweis auf die Ineffizienz von LLMs (Large Language Models)
    • Es wird die Ineffizienz von LLMs erwähnt, die 80 GB GPU-Speicher benötigen, verbunden mit der Hoffnung, dass bei den Algorithmen noch viel Raum für Verbesserungen besteht.
  • Infragestellen der Notwendigkeit von Self-Attention-Layern
    • Es wird gefragt, warum Self-Attention-Layer enthalten sind, anstatt nur SSM- und MLP-Layer abwechselnd zu verwenden.
  • Erklärung der Leistungsverbesserung des Modells Jamba-v0.1-hybrid-MoE
    • Es wird die Meinung geäußert, dass Jamba-v0.1-hybrid-MoE längere Kontexte, höhere Geschwindigkeit und geringere Kosten als bestehende Modelle bietet und damit der Vorstellung ein Ende setzen wird, dass „ein Modell alles beherrscht“.
  • Hinweis auf das Problem der Namensüberschneidung bei Mamba
    • Es wird betont, wie wichtig die Namenswahl ist, da Mamba bereits als Name eines populären Python-Pakets verwendet wird.
  • Erwähnung des Namens Sparabo und amüsierte Bemerkung darüber, dass alte Namen an neue Dinge vergeben werden
    • Es wird gefragt, ob es den Namen Sparabo gibt, und Interesse daran geäußert, dass alte Namen für neue Dinge verwendet werden.
  • Hinweis darauf, dass Arbeit an langen Kontexten mit MemGPT zusammenhängt, verbunden mit dem Vorschlag, dass ein ähnliches Konzept auch auf Modelle der Mamba-Architektur angewendet werden könnte
    • Es wird auf Arbeiten zu langen Kontexten im Zusammenhang mit MemGPT hingewiesen und die Ansicht geäußert, dass sich dies auch auf Modelle mit Mamba-Architektur anwenden ließe.