- „Günstiger, besser, schneller und leistungsfähiger“
- Ein Sparse-Mixture-of-Experts-(SMoE)-Modell, das von insgesamt 141B Parametern nur 39B aktive Parameter verwendet und dadurch im Verhältnis zur Modellgröße eine sehr hohe Kosteneffizienz bietet
Hauptmerkmale von Mixtral 8x22B
- Beherrscht Englisch, Französisch, Italienisch, Deutsch und Spanisch fließend
- Hervorragende Fähigkeiten in Mathematik und beim Coden
- Function Calling ist standardmäßig möglich; zusammen mit dem auf la Plateforme implementierten Modus für eingeschränkte Ausgaben sind damit die Entwicklung großer Anwendungen und die Modernisierung von Tech-Stacks möglich
- Ein Kontextfenster von 64K Tokens ermöglicht präzisen Informationsabruf aus großen Dokumentenmengen
Ein wirklich offenes Modell
- Mistral AI glaubt an die Kraft von Offenheit und breiter Verbreitung, um Innovation und Zusammenarbeit im Bereich KI zu fördern
- Mixtral 8x22B wird unter der permissivsten Open-Source-Lizenz Apache 2.0 veröffentlicht, sodass jeder das Modell ohne Einschränkungen nutzen kann
Höchste Effizienz
- Mistral AI baut Modelle, die für jede Modellgröße die beste Leistung pro Kosten bieten, und liefert damit unter den von der Community bereitgestellten Modellen das beste Verhältnis von Leistung zu Kosten
- Mixtral 8x22B ist eine natürliche Erweiterung der Open-Model-Produktfamilie von Mistral AI. Dank des Sparse-Aktivierungsmusters ist es schneller als dichte 70B-Modelle und bietet gleichzeitig mehr Funktionen als andere Open-Weight-Modelle, die unter permissiven oder restriktiven Lizenzen veröffentlicht werden. Durch die Verfügbarkeit des Basismodells eignet es sich außerdem sehr gut als Grundlage für Fine-Tuning-Anwendungsfälle
Unübertroffene Open-Performance
Schlussfolgern und Wissen
- Mixtral 8x22B ist für Reasoning optimiert
- Bei Benchmarks zu Allgemeinwissen, Schlussfolgern und Wissen (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS) zeigt es unter den führenden offenen LLM-Modellen die beste Leistung
Mehrsprachige Fähigkeiten
- Mixtral 8x22B verfügt von Haus aus über mehrsprachige Fähigkeiten
- In den Benchmarks HellaSwag, Arc Challenge und MMLU auf Französisch, Deutsch, Spanisch und Italienisch übertrifft es LLaMA 2 70B deutlich
Mathematik und Coden
- Mixtral 8x22B zeigt bei Coding- und Mathematikaufgaben im Vergleich zu anderen offenen Modellen die beste Leistung
- In Coding- und Mathematik-Benchmarks (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4) erreicht es unter den führenden offenen Modellen die beste Leistung
- Die heute vorgestellte Instructed-Version von Mixtral 8x22B zeigt noch bessere Mathematikleistung und erzielt 90,8 % bei GSM8K maj@8 sowie 44,6 % bei Math maj@4
Meinung von GN⁺
- Mixtral 8x22B ist das größte Open Model von Mistral und zugleich durch den Einsatz von Sparsity ein im Verhältnis zu den Kosten sehr effizientes Modell. Das ist als eine der Entwicklungsrichtungen von Open-Source-LLM-Modellen bemerkenswert
- Die starke mehrsprachige Leistung sowie die Mathematik-/Coding-Fähigkeiten im Verhältnis zur Modellgröße wirken wie die Differenzierungsmerkmale von Mixtral 8x22B. Bei anderen Sprachen als Englisch ist die Breite der unterstützten Sprachen jedoch eher begrenzt, und verglichen mit aktuellen LLMs wie GPT-4 liegen auch die Coding- und Mathematikfähigkeiten zurück
- Die Nutzung der Apache-2.0-Lizenz, die jedem eine freie Verwendung ermöglicht, ist ein Vorteil, gleichzeitig scheint aber auch das Missbrauchspotenzial hoch. Für eine verantwortungsvolle Entwicklung und Nutzung von Open-Source-KI-Modellen sind verstärkte Anstrengungen der Community nötig
- Dass die Entwicklung von Anwendungen mit dem Mixtral-Modell und die Modernisierung von Tech-Stacks möglich sind, ist attraktiv, für den Einsatz in großen Services scheinen jedoch weiterhin technische und kostenbezogene Grenzen zu bestehen. Dennoch ist zu erwarten, dass innovationsgetriebene Beispiele auf Open-Source-Basis zunehmen werden
- In Korea entwickeln auch KakaoBrain, NAVER und LG AI Research eigene LLMs. Im Hinblick auf den koreanischen Markt, etwa bei der Leistungsfähigkeit in der Verarbeitung der koreanischen Sprache, dürften diese Modelle wettbewerbsfähig sein
6 Kommentare
Mixtral 8x22B-Basismodell: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
Mixtral 8x22B-Instruct-Modell: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1
Es scheint bereits zur Nutzung in Azure AI Studio registriert zu sein. (
mistralai-Mixtral-8x7B-v01,mistral-community-Mixtral-8x22B-v0-1)Polyglot wurde nicht von Kakao Brain, sondern von TUNiB AI und EleutherAI entwickelt. Da liegt wohl eine Halluzination vor T_T
Ah, stimmt. Ich habe es korrigiert. Danke.
Wenn man Claude Opus bittet, seine Meinung zu äußern, bringt es manchmal solche inländischen Themen ein. Interessant haha
Hacker-News-Kommentare
Zusammenfassung:
LMStudiogefällt nicht, und die Nutzung vonOllamaper CLI ist umständlichMistral-Reihe