Mistral AI stellt Mixtral 8x7B vor, das Llama 2 70B übertrifft

(mistral.ai)

12 Punkte von GN⁺ 2023-12-12 | 2 Kommentare | Auf WhatsApp teilen

„High-quality Sparse Mixture of Experts Model (SMoE, hochwertiges spärliches Mixture-of-Experts-Modell)“
Übertrifft Llama 2 70B in den meisten Benchmarks und bietet 6-fach schnellere Inferenz
Erreicht in den meisten Standard-Benchmarks eine ähnliche oder bessere Leistung als GPT 3.5
Das leistungsstärkste Open-Weights-Modell mit permissiver Lizenz und das beste Modell beim Preis-Leistungs-Verhältnis
Unterstützt 32k-Token-Kontext
Verarbeitet Englisch, Französisch, Italienisch, Deutsch und Spanisch
Zeigt starke Leistung bei der Code-Generierung
Als Instruction-Following-Modell auf MT-Bench feinabstimmbar und erzielt 8,3 Punkte
MMLU 70,6 % (Llama 2 70B 69,9 %, GPT 3.5 70,0 %)

Mit spärlicher Architektur die Grenzen offener Modelle erweitern

Mixtral ist ein spärliches Expertennetzwerk und ein Decoder-only-Modell
Der Feedforward-Block wählt aus 8 verschiedenen Parametergruppen; in jeder Schicht wählt ein Router-Netzwerk pro Token zwei Expertengruppen aus und kombiniert deren Ausgaben
Diese Technik ermöglicht es, die Anzahl der Modellparameter zu erhöhen und gleichzeitig Kosten und Latenz unter Kontrolle zu halten. Mixtral hat insgesamt 46,7B Parameter, verwendet aber nur 12,9B Parameter pro Token

Leistung

Mixtral zeigt im Vergleich zu den Llama-2-Modellen und dem Basismodell GPT3.5 in den meisten Benchmarks eine gleichwertige oder bessere Leistung.
Im Vergleich zu Llama 2 70B liefert Mixtral wahrheitsgetreuere Antworten (73,9 % gegenüber 50,2 % im TruthfulQA-Benchmark) und zeigt im BBQ-Benchmark weniger Bias.
Mixtral beherrscht Französisch, Deutsch, Spanisch, Italienisch und Englisch.

Auf Anweisungen abgestimmtes Modell

Mixtral 8x7B Instruct durchläuft Supervised Fine-Tuning und Direct Preference Optimization (DPO), um die Befolgung von Anweisungen zu optimieren.
Mit 8,30 Punkten auf MT-Bench wird es zum besten Open-Source-Modell mit einer Leistung auf dem Niveau von GPT3.5.

Deployment mit dem Open-Source-Stack von Mixtral

Damit die Community Mixtral mit einem vollständig Open-Source-Stack ausführen kann, wurden Änderungen am vLLM-Projekt eingereicht.
Derzeit nutzt Mistral AI Mixtral 8x7B hinter dem Endpunkt mistral-small; dieser ist als Beta verfügbar
Für Early Access zu allen Generation- und Embedding-Endpunkten ist eine Registrierung möglich

2 Kommentare

cosine20 2023-12-12

Wie auch in den Kommentaren unten erwähnt wurde, dachte ich beim ersten Blick auf 8x7B zunächst: Bedeutet das, dass die Gesamtzahl der Parameter 56B ist?

GN⁺ 2023-12-12

Hacker-News-Kommentare

Meinung von Andrej Karpathy:
- Offizieller Beitrag zu Mixtral 8x7B und Veröffentlichung des Inferenz-Codes von vLLM
- Die Erklärung von HuggingFace zu MoE (Mixture of Experts) ist hilfreich
- Erreicht die Leistung eines 70B-Modells bei der Inferenzgeschwindigkeit eines dichten 12,9B-Modells
- Positive Reaktion auf die Verwendung des Begriffs "open weights"
- Hinweis darauf, dass der Name "8x7B" irreführend sein kann
- Erwähnung der Verwirrung darüber, wie jedes Token und jede Schicht 2 von 8 Experten auswählt
- Vorstellung des Modells Mistral-medium
Verfügbarkeit des Modells bei Huggingface:
- Das Mixtral-Modell ist bei Mistralai und TheBloke verfügbar
Bitte um eine Erklärung für Softwareingenieure:
- Es wird ein Verständnis dafür benötigt, wie Mixture of Experts funktioniert
Reaktionen auf die Größe von Mixtral 8x7B:
- Interesse daran, dass 4,5 Milliarden Parameter als "small"-Modell betrachtet werden
Ausblick auf die Zukunft der KI:
- Positive Einschätzung, dass MoE die Zukunft der KI sein könnte
Fragen zur Funktionsweise sowie zu Vor- und Nachteilen von MoE:
- Es wird eine Erklärung benötigt, welche Vorteile MoE gegenüber bestehenden Modellen hat
Verwirrung über die Modellparameter:
- Verwirrung über den Namen "8x7B", die tatsächliche Anzahl der Parameter und die beim Token-Generieren verwendeten Parameter
Erklärung zu Mistrals Ansatz:
- Der CEO erwähnt, dass Mistral das Modell nicht zensiert und einen freien Zugang anstrebt
Sprachfähigkeiten von Mixtral 8x7B:
- Beherrscht Französisch, Deutsch, Spanisch, Italienisch und Englisch sehr gut
Bitte um Informationen zum Modell und zu den Gewichten:
- Bitte um Links zum Modell und zu den Gewichten
Fragen zur Wettbewerbsfähigkeit am Markt:
- Zweifel und Fragen zur Zukunftsperspektive, obwohl das Unternehmen ein Modell besitzt, das GPT 3.5 übertrifft, und welche Chancen es im Wettbewerb mit OpenAI/Google hat