- „High-quality Sparse Mixture of Experts Model (SMoE, hochwertiges spärliches Mixture-of-Experts-Modell)“
- Übertrifft Llama 2 70B in den meisten Benchmarks und bietet 6-fach schnellere Inferenz
- Erreicht in den meisten Standard-Benchmarks eine ähnliche oder bessere Leistung als GPT 3.5
- Das leistungsstärkste Open-Weights-Modell mit permissiver Lizenz und das beste Modell beim Preis-Leistungs-Verhältnis
- Unterstützt 32k-Token-Kontext
- Verarbeitet Englisch, Französisch, Italienisch, Deutsch und Spanisch
- Zeigt starke Leistung bei der Code-Generierung
- Als Instruction-Following-Modell auf MT-Bench feinabstimmbar und erzielt 8,3 Punkte
- MMLU 70,6 % (Llama 2 70B 69,9 %, GPT 3.5 70,0 %)
Mit spärlicher Architektur die Grenzen offener Modelle erweitern
- Mixtral ist ein spärliches Expertennetzwerk und ein Decoder-only-Modell
- Der Feedforward-Block wählt aus 8 verschiedenen Parametergruppen; in jeder Schicht wählt ein Router-Netzwerk pro Token zwei Expertengruppen aus und kombiniert deren Ausgaben
- Diese Technik ermöglicht es, die Anzahl der Modellparameter zu erhöhen und gleichzeitig Kosten und Latenz unter Kontrolle zu halten. Mixtral hat insgesamt 46,7B Parameter, verwendet aber nur 12,9B Parameter pro Token
Leistung
- Mixtral zeigt im Vergleich zu den Llama-2-Modellen und dem Basismodell GPT3.5 in den meisten Benchmarks eine gleichwertige oder bessere Leistung.
- Im Vergleich zu Llama 2 70B liefert Mixtral wahrheitsgetreuere Antworten (73,9 % gegenüber 50,2 % im TruthfulQA-Benchmark) und zeigt im BBQ-Benchmark weniger Bias.
- Mixtral beherrscht Französisch, Deutsch, Spanisch, Italienisch und Englisch.
Auf Anweisungen abgestimmtes Modell
- Mixtral 8x7B Instruct durchläuft Supervised Fine-Tuning und Direct Preference Optimization (DPO), um die Befolgung von Anweisungen zu optimieren.
- Mit 8,30 Punkten auf MT-Bench wird es zum besten Open-Source-Modell mit einer Leistung auf dem Niveau von GPT3.5.
Deployment mit dem Open-Source-Stack von Mixtral
- Damit die Community Mixtral mit einem vollständig Open-Source-Stack ausführen kann, wurden Änderungen am vLLM-Projekt eingereicht.
- Derzeit nutzt Mistral AI Mixtral 8x7B hinter dem Endpunkt mistral-small; dieser ist als Beta verfügbar
- Für Early Access zu allen Generation- und Embedding-Endpunkten ist eine Registrierung möglich
2 Kommentare
Wie auch in den Kommentaren unten erwähnt wurde, dachte ich beim ersten Blick auf 8x7B zunächst: Bedeutet das, dass die Gesamtzahl der Parameter 56B ist?
Hacker-News-Kommentare
Meinung von Andrej Karpathy:
Verfügbarkeit des Modells bei Huggingface:
Bitte um eine Erklärung für Softwareingenieure:
Reaktionen auf die Größe von Mixtral 8x7B:
Ausblick auf die Zukunft der KI:
Fragen zur Funktionsweise sowie zu Vor- und Nachteilen von MoE:
Verwirrung über die Modellparameter:
Erklärung zu Mistrals Ansatz:
Sprachfähigkeiten von Mixtral 8x7B:
Bitte um Informationen zum Modell und zu den Gewichten:
Fragen zur Wettbewerbsfähigkeit am Markt: