Zyphra stellt Zamba2-7B vor, ein kleines Sprachmodell, das Llama3 übertrifft

(zyphra.com)

7 Punkte von GN⁺ 2024-10-16 | 1 Kommentare | Auf WhatsApp teilen

Zamba2-7B erreicht SOTA bei Benchmark-Leistung und Inferenz-Effizienz im Vergleich zu den derzeit wichtigen 7B-Modellen wie Mistral-7B, Gemma-7B und Llama3-8B
Zamba2-7B ist 25 % schneller bis zum ersten Token, steigert die Tokens pro Sekunde um 20 % und reduziert den Speicherverbrauch im Vergleich zu Llama3-8B und anderen deutlich, was eine sehr starke Inferenz-Effizienz zeigt

Architekturverbesserungen von Zamba2-7B gegenüber Zamba1-7B

Mamba1-Blöcke wurden durch Mamba2-Blöcke ersetzt
Statt eines einzelnen gemeinsam genutzten Attention-Blocks werden zwei gemeinsam genutzte Attention-Blöcke verwendet, die im gesamten Netzwerk in einem ABAB-Muster verschachtelt sind
Auf jeden gemeinsam genutzten MLP-Block wird ein LoRA-Projektor angewendet, sodass das MLP bei jedem Aufruf der gemeinsam genutzten Schicht je nach Tiefe spezialisiert werden kann
Die Modellgewichte wurden als Open Source unter der Apache-2.0-Lizenz veröffentlicht

Leistung von Zamba2-7B auf Sprachmodellierungs-Evaluierungssätzen

Unter Berücksichtigung von Latenz und Generierungsgeschwindigkeit zeigt Zamba2 auf Standard-Evaluierungssätzen für Sprachmodellierung eine sehr starke Leistung
Unter den kleinen Sprachmodellen mit 8B oder weniger führt es sowohl bei Qualität als auch bei Leistung

Warum Zamba2-7B bestehende SOTA-Modelle übertrifft

Die neue Architektur mit gemeinsam genutzter Attention ermöglicht es, dem Mamba2-Backbone mehr Parameter zuzuweisen. Gemeinsam genutzte Transformer-Blöcke bewahren die reichhaltigen sequenzübergreifenden Abhängigkeiten der Attention-Berechnung
Das Vortrainings-Dataset mit 3 Billionen Tokens besteht aus einer Kombination aus Zyda und aktiv gefilterten sowie deduplizierten öffentlichen Datasets und erreicht im Vergleich zu bisherigen führenden Open-Source-Vortrainings-Datasets die höchste Qualität
In einer separaten Vortrainingsphase des „Annealing“ wird die Lernrate über 100 Milliarden hochwertige Tokens hinweg stark abgesenkt. Das Annealing-Set wird aus verschiedenen hochwertigen Quellen gesammelt und streng qualitätskontrolliert

Dank der hervorragenden Qualität der Vortrainings- und Annealing-Datasets zeigt Zamba2-7B eine sehr starke Leistung pro Trainingstoken und liegt deutlich über den Kurven der Konkurrenzmodelle

Die hybride SSM-Attention-Architektur von Zamba

Zamba2-7B nutzt und erweitert die ursprüngliche hybride SSM-Attention-Architektur von Zamba
Die zentrale Zamba-Architektur besteht aus einem Mamba-Layer-Backbone, das mit einem oder mehreren gemeinsam genutzten Attention-Layern verschachtelt ist (Zamba1 nutzt 1, Zamba2 2 gemeinsam genutzte Attention-Blöcke)
Diese Attention verwendet gemeinsam genutzte Gewichte, um die Parameterkosten des Modells zu minimieren
Es scheint, dass die Verbindung der ursprünglichen Modelleinbettungen des Inputs mit diesen Attention-Blöcken die Informationsbewahrung über die Tiefe hinweg verbessert und damit die Leistung steigert
Die Zamba2-Architektur gewinnt zusätzliche Ausdruckskraft, indem sie auf die gemeinsam genutzten MLPs LoRA-Projektionsmatrizen anwendet, sodass jeder Block sich leicht auf seine jeweilige Position spezialisieren kann, während der Parameter-Overhead gering bleibt

Faktoren für das Erreichen von SOTA-Inferenz-Effizienz

Mamba2-Blöcke sind sehr effizient und erreichen etwa den 4-fachen Durchsatz von Transformer-Blöcken mit derselben Parameterzahl
Mamba-Blöcke benötigen nur kleine Hidden States zum Speichern und kein KV-Cache, sodass KV-Zustände nur für Aufrufe der gemeinsam genutzten Attention-Blöcke gespeichert werden müssen
Die Modellgröße wurde so gewählt, dass sie sich auf moderner Hardware sehr gut parallelisieren lässt (z. B. auf mehreren Streaming-Multiprozessoren einer GPU oder auf Multi-Core-CPUs)

Training und Veröffentlichung von Zamba2-7B

Zamba2-7B wurde mit einem internen Trainings-Framework auf Basis von Megatron-LM auf 128 H100-GPUs etwa 50 Tage lang trainiert
Zamba2-7B zeigt, dass sich im 7B-Maßstab auch mit kleinen Teams und angemessenem Budget der Stand der Technik erreichen und übertreffen lässt
Es wurde unter einer Open-Source-Lizenz veröffentlicht, sodass Forschende, Entwickler und Unternehmen seine Fähigkeiten nutzen können
Man hofft, dass die AI-Community Zambas einzigartige Architektur weiter erforscht und die Grenzen effizienter Foundation Models weiter verschiebt

Veröffentlichte Zamba2-7B-Modelle:

Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct
Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B
Pure PyTorch: https://github.com/Zyphra/Zamba2

Zyphras Vision

Das Team von Zyphra widmet sich der Demokratisierung fortschrittlicher AI-Systeme, der Erforschung neuer Architekturen an der Leistungsgrenze und der Förderung wissenschaftlicher Forschung und des Verständnisses leistungsfähiger Modelle
Man freut sich auf die Zusammenarbeit mit anderen, die diese Vision teilen

Meinung von GN⁺

Dass Zyphra Zamba2 als Open Source veröffentlicht hat, ist von großer Bedeutung. Es dürfte zur Demokratisierung von AI-Technologie beitragen, da nun jeder modernste Sprachmodelle kostenlos nutzen und erforschen kann
Die neue Architektur von Zamba2 zeigt einen Weg auf, die Grenzen bestehender Transformer-basierter Modelle zu überwinden und effizientere Sprachmodelle zu entwickeln. Zamba-spezifische Ideen wie Shared Attention und LoRA-Projektion dürften die künftige Forschung an Sprachmodellen inspirieren
Ermutigend ist auch, dass selbst kleine bis mittelgroße Teams mit aktueller Hardware große Sprachmodelle mit SOTA-Leistung entwickeln können. Dadurch dürfte sich die Entwicklung von Foundation Models durch die Beteiligung verschiedenster Organisationen weiter beschleunigen
Es bleibt zu beobachten, wie sich die Leistung von Zamba2 in realen Anwendungen zeigt. Hervorragende Benchmark-Werte übertragen sich nicht automatisch auf Aufgaben in der Praxis. Wichtig wird sein, dass Fachleute aus unterschiedlichen Bereichen Zamba2 einsetzen und ihre Vor- und Nachteile teilen

1 Kommentare

GN⁺ 2024-10-16

Hacker-News-Kommentare

Für alle, die nach den im Artikel nicht verlinkten Gewichten suchen, hier die Links
- Basismodell: Zyphra/Zamba2-7B
- Instruct-Tuning: Zyphra/Zamba2-7B-Instruct
Ich frage mich, ob die Leistungssteigerung auf Verbesserungen am Datensatz oder an der Architektur zurückzuführen ist. Das dürfte ein teures Experiment sein
Ich bin es leid, dass LLM-Releases Benchmarks selektiv verwenden. Mich würde ein Vergleich mit den SOTA-Modellen qwen2.5/phi3.5 interessieren
- Kennt jemand ein aktuelles unabhängiges Leaderboard? Lmsys und livebench lassen die meisten wichtigen neueren Modelle aus
Es ist gut, dass mehr Modelle unter Apache-Lizenz erscheinen, besonders mit unterschiedlichen Architekturen
Angesichts des Umfangs theoretischer Arbeit zu den Mamba2-Blöcken sind die Leistungsgewinne sehr gering
- Attention ist weiterhin wichtig
Wenn zwei Attention-Heads verwendet werden, frage ich mich, ob sich jeder Head auf unterschiedliche Aspekte der Daten konzentriert
- In der Gedächtnisforschung gibt es das Konzept der doppelten Repräsentation von Ereignissen. Eine ist eine genauere Repräsentation, die andere stärker kontextgewichtet
- Bei LLMs könnte man sich ein System vorstellen, in dem ein Attention-Head auf genaue Repräsentationen fokussiert ist und der andere auf gröbere Informationen. Ich kenne mich mit LLMs aber nicht gut genug aus, um sicher zu sein, ob das nur eine einfache Analogie ist
Ich frage mich, was an 7B so besonders ist. Warum nicht 8B, 9B oder 11.234B? Ist 7B irgendwie als Zweierpotenz zu verstehen?
Ein weiterer Tag, ein weiterer Weltrekord in der KI
- Das erinnert mich an Sergey Bubka. Er hat den Weltrekord im Stabhochsprung der Männer 35 Mal gebrochen
Hat jemand eine Idee, welche Sprachen dieses Modell unterstützt?