12 Punkte von GN⁺ 2023-12-12 | 2 Kommentare | Auf WhatsApp teilen
  • „High-quality Sparse Mixture of Experts Model (SMoE, hochwertiges spärliches Mixture-of-Experts-Modell)“
  • Übertrifft Llama 2 70B in den meisten Benchmarks und bietet 6-fach schnellere Inferenz
  • Erreicht in den meisten Standard-Benchmarks eine ähnliche oder bessere Leistung als GPT 3.5
  • Das leistungsstärkste Open-Weights-Modell mit permissiver Lizenz und das beste Modell beim Preis-Leistungs-Verhältnis
  • Unterstützt 32k-Token-Kontext
  • Verarbeitet Englisch, Französisch, Italienisch, Deutsch und Spanisch
  • Zeigt starke Leistung bei der Code-Generierung
  • Als Instruction-Following-Modell auf MT-Bench feinabstimmbar und erzielt 8,3 Punkte
  • MMLU 70,6 % (Llama 2 70B 69,9 %, GPT 3.5 70,0 %)

Mit spärlicher Architektur die Grenzen offener Modelle erweitern

  • Mixtral ist ein spärliches Expertennetzwerk und ein Decoder-only-Modell
  • Der Feedforward-Block wählt aus 8 verschiedenen Parametergruppen; in jeder Schicht wählt ein Router-Netzwerk pro Token zwei Expertengruppen aus und kombiniert deren Ausgaben
  • Diese Technik ermöglicht es, die Anzahl der Modellparameter zu erhöhen und gleichzeitig Kosten und Latenz unter Kontrolle zu halten. Mixtral hat insgesamt 46,7B Parameter, verwendet aber nur 12,9B Parameter pro Token

Leistung

  • Mixtral zeigt im Vergleich zu den Llama-2-Modellen und dem Basismodell GPT3.5 in den meisten Benchmarks eine gleichwertige oder bessere Leistung.
  • Im Vergleich zu Llama 2 70B liefert Mixtral wahrheitsgetreuere Antworten (73,9 % gegenüber 50,2 % im TruthfulQA-Benchmark) und zeigt im BBQ-Benchmark weniger Bias.
  • Mixtral beherrscht Französisch, Deutsch, Spanisch, Italienisch und Englisch.

Auf Anweisungen abgestimmtes Modell

  • Mixtral 8x7B Instruct durchläuft Supervised Fine-Tuning und Direct Preference Optimization (DPO), um die Befolgung von Anweisungen zu optimieren.
  • Mit 8,30 Punkten auf MT-Bench wird es zum besten Open-Source-Modell mit einer Leistung auf dem Niveau von GPT3.5.

Deployment mit dem Open-Source-Stack von Mixtral

  • Damit die Community Mixtral mit einem vollständig Open-Source-Stack ausführen kann, wurden Änderungen am vLLM-Projekt eingereicht.
  • Derzeit nutzt Mistral AI Mixtral 8x7B hinter dem Endpunkt mistral-small; dieser ist als Beta verfügbar
  • Für Early Access zu allen Generation- und Embedding-Endpunkten ist eine Registrierung möglich

2 Kommentare

 
cosine20 2023-12-12

Wie auch in den Kommentaren unten erwähnt wurde, dachte ich beim ersten Blick auf 8x7B zunächst: Bedeutet das, dass die Gesamtzahl der Parameter 56B ist?

 
GN⁺ 2023-12-12
Hacker-News-Kommentare
  • Meinung von Andrej Karpathy:

    • Offizieller Beitrag zu Mixtral 8x7B und Veröffentlichung des Inferenz-Codes von vLLM
    • Die Erklärung von HuggingFace zu MoE (Mixture of Experts) ist hilfreich
    • Erreicht die Leistung eines 70B-Modells bei der Inferenzgeschwindigkeit eines dichten 12,9B-Modells
    • Positive Reaktion auf die Verwendung des Begriffs "open weights"
    • Hinweis darauf, dass der Name "8x7B" irreführend sein kann
    • Erwähnung der Verwirrung darüber, wie jedes Token und jede Schicht 2 von 8 Experten auswählt
    • Vorstellung des Modells Mistral-medium
  • Verfügbarkeit des Modells bei Huggingface:

    • Das Mixtral-Modell ist bei Mistralai und TheBloke verfügbar
  • Bitte um eine Erklärung für Softwareingenieure:

    • Es wird ein Verständnis dafür benötigt, wie Mixture of Experts funktioniert
  • Reaktionen auf die Größe von Mixtral 8x7B:

    • Interesse daran, dass 4,5 Milliarden Parameter als "small"-Modell betrachtet werden
  • Ausblick auf die Zukunft der KI:

    • Positive Einschätzung, dass MoE die Zukunft der KI sein könnte
  • Fragen zur Funktionsweise sowie zu Vor- und Nachteilen von MoE:

    • Es wird eine Erklärung benötigt, welche Vorteile MoE gegenüber bestehenden Modellen hat
  • Verwirrung über die Modellparameter:

    • Verwirrung über den Namen "8x7B", die tatsächliche Anzahl der Parameter und die beim Token-Generieren verwendeten Parameter
  • Erklärung zu Mistrals Ansatz:

    • Der CEO erwähnt, dass Mistral das Modell nicht zensiert und einen freien Zugang anstrebt
  • Sprachfähigkeiten von Mixtral 8x7B:

    • Beherrscht Französisch, Deutsch, Spanisch, Italienisch und Englisch sehr gut
  • Bitte um Informationen zum Modell und zu den Gewichten:

    • Bitte um Links zum Modell und zu den Gewichten
  • Fragen zur Wettbewerbsfähigkeit am Markt:

    • Zweifel und Fragen zur Zukunftsperspektive, obwohl das Unternehmen ein Modell besitzt, das GPT 3.5 übertrifft, und welche Chancen es im Wettbewerb mit OpenAI/Google hat