7 Punkte von GN⁺ 2024-10-16 | 1 Kommentare | Auf WhatsApp teilen
  • Zamba2-7B erreicht SOTA bei Benchmark-Leistung und Inferenz-Effizienz im Vergleich zu den derzeit wichtigen 7B-Modellen wie Mistral-7B, Gemma-7B und Llama3-8B
  • Zamba2-7B ist 25 % schneller bis zum ersten Token, steigert die Tokens pro Sekunde um 20 % und reduziert den Speicherverbrauch im Vergleich zu Llama3-8B und anderen deutlich, was eine sehr starke Inferenz-Effizienz zeigt

Architekturverbesserungen von Zamba2-7B gegenüber Zamba1-7B

  • Mamba1-Blöcke wurden durch Mamba2-Blöcke ersetzt
  • Statt eines einzelnen gemeinsam genutzten Attention-Blocks werden zwei gemeinsam genutzte Attention-Blöcke verwendet, die im gesamten Netzwerk in einem ABAB-Muster verschachtelt sind
  • Auf jeden gemeinsam genutzten MLP-Block wird ein LoRA-Projektor angewendet, sodass das MLP bei jedem Aufruf der gemeinsam genutzten Schicht je nach Tiefe spezialisiert werden kann
  • Die Modellgewichte wurden als Open Source unter der Apache-2.0-Lizenz veröffentlicht

Leistung von Zamba2-7B auf Sprachmodellierungs-Evaluierungssätzen

  • Unter Berücksichtigung von Latenz und Generierungsgeschwindigkeit zeigt Zamba2 auf Standard-Evaluierungssätzen für Sprachmodellierung eine sehr starke Leistung
  • Unter den kleinen Sprachmodellen mit 8B oder weniger führt es sowohl bei Qualität als auch bei Leistung

Warum Zamba2-7B bestehende SOTA-Modelle übertrifft

  1. Die neue Architektur mit gemeinsam genutzter Attention ermöglicht es, dem Mamba2-Backbone mehr Parameter zuzuweisen. Gemeinsam genutzte Transformer-Blöcke bewahren die reichhaltigen sequenzübergreifenden Abhängigkeiten der Attention-Berechnung
  2. Das Vortrainings-Dataset mit 3 Billionen Tokens besteht aus einer Kombination aus Zyda und aktiv gefilterten sowie deduplizierten öffentlichen Datasets und erreicht im Vergleich zu bisherigen führenden Open-Source-Vortrainings-Datasets die höchste Qualität
  3. In einer separaten Vortrainingsphase des „Annealing“ wird die Lernrate über 100 Milliarden hochwertige Tokens hinweg stark abgesenkt. Das Annealing-Set wird aus verschiedenen hochwertigen Quellen gesammelt und streng qualitätskontrolliert

Dank der hervorragenden Qualität der Vortrainings- und Annealing-Datasets zeigt Zamba2-7B eine sehr starke Leistung pro Trainingstoken und liegt deutlich über den Kurven der Konkurrenzmodelle

Die hybride SSM-Attention-Architektur von Zamba

  • Zamba2-7B nutzt und erweitert die ursprüngliche hybride SSM-Attention-Architektur von Zamba
  • Die zentrale Zamba-Architektur besteht aus einem Mamba-Layer-Backbone, das mit einem oder mehreren gemeinsam genutzten Attention-Layern verschachtelt ist (Zamba1 nutzt 1, Zamba2 2 gemeinsam genutzte Attention-Blöcke)
  • Diese Attention verwendet gemeinsam genutzte Gewichte, um die Parameterkosten des Modells zu minimieren
  • Es scheint, dass die Verbindung der ursprünglichen Modelleinbettungen des Inputs mit diesen Attention-Blöcken die Informationsbewahrung über die Tiefe hinweg verbessert und damit die Leistung steigert
  • Die Zamba2-Architektur gewinnt zusätzliche Ausdruckskraft, indem sie auf die gemeinsam genutzten MLPs LoRA-Projektionsmatrizen anwendet, sodass jeder Block sich leicht auf seine jeweilige Position spezialisieren kann, während der Parameter-Overhead gering bleibt

Faktoren für das Erreichen von SOTA-Inferenz-Effizienz

  1. Mamba2-Blöcke sind sehr effizient und erreichen etwa den 4-fachen Durchsatz von Transformer-Blöcken mit derselben Parameterzahl
  2. Mamba-Blöcke benötigen nur kleine Hidden States zum Speichern und kein KV-Cache, sodass KV-Zustände nur für Aufrufe der gemeinsam genutzten Attention-Blöcke gespeichert werden müssen
  3. Die Modellgröße wurde so gewählt, dass sie sich auf moderner Hardware sehr gut parallelisieren lässt (z. B. auf mehreren Streaming-Multiprozessoren einer GPU oder auf Multi-Core-CPUs)

Training und Veröffentlichung von Zamba2-7B

  • Zamba2-7B wurde mit einem internen Trainings-Framework auf Basis von Megatron-LM auf 128 H100-GPUs etwa 50 Tage lang trainiert
  • Zamba2-7B zeigt, dass sich im 7B-Maßstab auch mit kleinen Teams und angemessenem Budget der Stand der Technik erreichen und übertreffen lässt
  • Es wurde unter einer Open-Source-Lizenz veröffentlicht, sodass Forschende, Entwickler und Unternehmen seine Fähigkeiten nutzen können
  • Man hofft, dass die AI-Community Zambas einzigartige Architektur weiter erforscht und die Grenzen effizienter Foundation Models weiter verschiebt

Veröffentlichte Zamba2-7B-Modelle:

Zyphras Vision

  • Das Team von Zyphra widmet sich der Demokratisierung fortschrittlicher AI-Systeme, der Erforschung neuer Architekturen an der Leistungsgrenze und der Förderung wissenschaftlicher Forschung und des Verständnisses leistungsfähiger Modelle
  • Man freut sich auf die Zusammenarbeit mit anderen, die diese Vision teilen

Meinung von GN⁺

  • Dass Zyphra Zamba2 als Open Source veröffentlicht hat, ist von großer Bedeutung. Es dürfte zur Demokratisierung von AI-Technologie beitragen, da nun jeder modernste Sprachmodelle kostenlos nutzen und erforschen kann
  • Die neue Architektur von Zamba2 zeigt einen Weg auf, die Grenzen bestehender Transformer-basierter Modelle zu überwinden und effizientere Sprachmodelle zu entwickeln. Zamba-spezifische Ideen wie Shared Attention und LoRA-Projektion dürften die künftige Forschung an Sprachmodellen inspirieren
  • Ermutigend ist auch, dass selbst kleine bis mittelgroße Teams mit aktueller Hardware große Sprachmodelle mit SOTA-Leistung entwickeln können. Dadurch dürfte sich die Entwicklung von Foundation Models durch die Beteiligung verschiedenster Organisationen weiter beschleunigen
  • Es bleibt zu beobachten, wie sich die Leistung von Zamba2 in realen Anwendungen zeigt. Hervorragende Benchmark-Werte übertragen sich nicht automatisch auf Aufgaben in der Praxis. Wichtig wird sein, dass Fachleute aus unterschiedlichen Bereichen Zamba2 einsetzen und ihre Vor- und Nachteile teilen

1 Kommentare

 
GN⁺ 2024-10-16
Hacker-News-Kommentare
  • Für alle, die nach den im Artikel nicht verlinkten Gewichten suchen, hier die Links

  • Ich frage mich, ob die Leistungssteigerung auf Verbesserungen am Datensatz oder an der Architektur zurückzuführen ist. Das dürfte ein teures Experiment sein

  • Ich bin es leid, dass LLM-Releases Benchmarks selektiv verwenden. Mich würde ein Vergleich mit den SOTA-Modellen qwen2.5/phi3.5 interessieren

    • Kennt jemand ein aktuelles unabhängiges Leaderboard? Lmsys und livebench lassen die meisten wichtigen neueren Modelle aus
  • Es ist gut, dass mehr Modelle unter Apache-Lizenz erscheinen, besonders mit unterschiedlichen Architekturen

  • Angesichts des Umfangs theoretischer Arbeit zu den Mamba2-Blöcken sind die Leistungsgewinne sehr gering

    • Attention ist weiterhin wichtig
  • Wenn zwei Attention-Heads verwendet werden, frage ich mich, ob sich jeder Head auf unterschiedliche Aspekte der Daten konzentriert

    • In der Gedächtnisforschung gibt es das Konzept der doppelten Repräsentation von Ereignissen. Eine ist eine genauere Repräsentation, die andere stärker kontextgewichtet
    • Bei LLMs könnte man sich ein System vorstellen, in dem ein Attention-Head auf genaue Repräsentationen fokussiert ist und der andere auf gröbere Informationen. Ich kenne mich mit LLMs aber nicht gut genug aus, um sicher zu sein, ob das nur eine einfache Analogie ist
  • Ich frage mich, was an 7B so besonders ist. Warum nicht 8B, 9B oder 11.234B? Ist 7B irgendwie als Zweierpotenz zu verstehen?

  • Ein weiterer Tag, ein weiterer Weltrekord in der KI

    • Das erinnert mich an Sergey Bubka. Er hat den Weltrekord im Stabhochsprung der Männer 35 Mal gebrochen
  • Hat jemand eine Idee, welche Sprachen dieses Modell unterstützt?