Mistral AI stellt neues Open-Model Mixtral 8x22B vor

(mistral.ai)

9 Punkte von GN⁺ 2024-04-18 | 6 Kommentare | Auf WhatsApp teilen

„Günstiger, besser, schneller und leistungsfähiger“
Ein Sparse-Mixture-of-Experts-(SMoE)-Modell, das von insgesamt 141B Parametern nur 39B aktive Parameter verwendet und dadurch im Verhältnis zur Modellgröße eine sehr hohe Kosteneffizienz bietet

Hauptmerkmale von Mixtral 8x22B

Beherrscht Englisch, Französisch, Italienisch, Deutsch und Spanisch fließend
Hervorragende Fähigkeiten in Mathematik und beim Coden
Function Calling ist standardmäßig möglich; zusammen mit dem auf la Plateforme implementierten Modus für eingeschränkte Ausgaben sind damit die Entwicklung großer Anwendungen und die Modernisierung von Tech-Stacks möglich
Ein Kontextfenster von 64K Tokens ermöglicht präzisen Informationsabruf aus großen Dokumentenmengen

Ein wirklich offenes Modell

Mistral AI glaubt an die Kraft von Offenheit und breiter Verbreitung, um Innovation und Zusammenarbeit im Bereich KI zu fördern
Mixtral 8x22B wird unter der permissivsten Open-Source-Lizenz Apache 2.0 veröffentlicht, sodass jeder das Modell ohne Einschränkungen nutzen kann

Höchste Effizienz

Mistral AI baut Modelle, die für jede Modellgröße die beste Leistung pro Kosten bieten, und liefert damit unter den von der Community bereitgestellten Modellen das beste Verhältnis von Leistung zu Kosten
Mixtral 8x22B ist eine natürliche Erweiterung der Open-Model-Produktfamilie von Mistral AI. Dank des Sparse-Aktivierungsmusters ist es schneller als dichte 70B-Modelle und bietet gleichzeitig mehr Funktionen als andere Open-Weight-Modelle, die unter permissiven oder restriktiven Lizenzen veröffentlicht werden. Durch die Verfügbarkeit des Basismodells eignet es sich außerdem sehr gut als Grundlage für Fine-Tuning-Anwendungsfälle

Unübertroffene Open-Performance

Schlussfolgern und Wissen

Mixtral 8x22B ist für Reasoning optimiert
Bei Benchmarks zu Allgemeinwissen, Schlussfolgern und Wissen (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS) zeigt es unter den führenden offenen LLM-Modellen die beste Leistung

Mehrsprachige Fähigkeiten

Mixtral 8x22B verfügt von Haus aus über mehrsprachige Fähigkeiten
In den Benchmarks HellaSwag, Arc Challenge und MMLU auf Französisch, Deutsch, Spanisch und Italienisch übertrifft es LLaMA 2 70B deutlich

Mathematik und Coden

Mixtral 8x22B zeigt bei Coding- und Mathematikaufgaben im Vergleich zu anderen offenen Modellen die beste Leistung
In Coding- und Mathematik-Benchmarks (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4) erreicht es unter den führenden offenen Modellen die beste Leistung
Die heute vorgestellte Instructed-Version von Mixtral 8x22B zeigt noch bessere Mathematikleistung und erzielt 90,8 % bei GSM8K maj@8 sowie 44,6 % bei Math maj@4

Meinung von GN⁺

Mixtral 8x22B ist das größte Open Model von Mistral und zugleich durch den Einsatz von Sparsity ein im Verhältnis zu den Kosten sehr effizientes Modell. Das ist als eine der Entwicklungsrichtungen von Open-Source-LLM-Modellen bemerkenswert
Die starke mehrsprachige Leistung sowie die Mathematik-/Coding-Fähigkeiten im Verhältnis zur Modellgröße wirken wie die Differenzierungsmerkmale von Mixtral 8x22B. Bei anderen Sprachen als Englisch ist die Breite der unterstützten Sprachen jedoch eher begrenzt, und verglichen mit aktuellen LLMs wie GPT-4 liegen auch die Coding- und Mathematikfähigkeiten zurück
Die Nutzung der Apache-2.0-Lizenz, die jedem eine freie Verwendung ermöglicht, ist ein Vorteil, gleichzeitig scheint aber auch das Missbrauchspotenzial hoch. Für eine verantwortungsvolle Entwicklung und Nutzung von Open-Source-KI-Modellen sind verstärkte Anstrengungen der Community nötig
Dass die Entwicklung von Anwendungen mit dem Mixtral-Modell und die Modernisierung von Tech-Stacks möglich sind, ist attraktiv, für den Einsatz in großen Services scheinen jedoch weiterhin technische und kostenbezogene Grenzen zu bestehen. Dennoch ist zu erwarten, dass innovationsgetriebene Beispiele auf Open-Source-Basis zunehmen werden
In Korea entwickeln auch KakaoBrain, NAVER und LG AI Research eigene LLMs. Im Hinblick auf den koreanischen Markt, etwa bei der Leistungsfähigkeit in der Verarbeitung der koreanischen Sprache, dürften diese Modelle wettbewerbsfähig sein

6 Kommentare

ninebow 2024-04-19

Mixtral 8x22B-Basismodell: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
Mixtral 8x22B-Instruct-Modell: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1

dormis 2024-04-19

Es scheint bereits zur Nutzung in Azure AI Studio registriert zu sein. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

vkehfdl1 2024-04-18

Polyglot wurde nicht von Kakao Brain, sondern von TUNiB AI und EleutherAI entwickelt. Da liegt wohl eine Halluzination vor T_T

xguru 2024-04-19

Ah, stimmt. Ich habe es korrigiert. Danke.

xguru 2024-04-18

Wenn man Claude Opus bittet, seine Meinung zu äußern, bringt es manchmal solche inländischen Themen ein. Interessant haha

GN⁺ 2024-04-18

Hacker-News-Kommentare

Zusammenfassung:

Eine steuerbezogene Frage in ChatGPT eingegeben, woraufhin Werbung für einen Essay-Schreibservice erschien
Um eine einfache Erklärung des Konzepts „Mixture-of-Experts“ gebeten
- Das Konzept mit untergeordneten Experten ist verständlich, aber es wird gefragt, wie während des Trainings entschieden wird, welches Fachgebiet jeweils festgelegt wird
Enttäuschung über die Größe des 64K-Token-Kontextfensters
- Dass es nicht an die 128K von GPT-4 Turbo heranreicht, könnte künftig zum Running Gag werden
- Es wird erwartet, dass es in Zukunft auf das Niveau von 1 Billion Token anwächst
Nach der besten Methode gefragt, ein LLM auf einem MacBook Pro auszuführen
- Die Oberfläche von LMStudio gefällt nicht, und die Nutzung von Ollama per CLI ist umständlich
- Bevorzugt wird eine Lösung, bei der sich Einstellungen wie bei OpenAI fein abstimmen lassen und Prompts leicht bearbeitet werden können
Grenzen offener Modelle
- Ohne Zugriff auf die Trainingsdaten lässt sich ein Modell nicht reproduzieren
Ergebnisse des Leistungsvergleichs mit der Mistral-Reihe
Vorteile beim Betrieb eines AI-Startups
- Jedes Mal, wenn ein neues großes Modell veröffentlicht wird, verbessert sich das Produkt automatisch
Frage, ob eine „non-instructed“-Version eines LLM eine Version ohne die Anleitung der „instructed“-Variante ist
Durch LLMs wird die Bedeutung von RAM wieder stärker hervorgehoben
- Bedauern, dem MacBook Pro nicht zusätzlich 32 GB RAM spendiert zu haben
Erwartungen an quantisierte Modelle
- Hoffnung auf ein 3-Bit-Modell, das auf einem MacBook Pro mit 64 GB lauffähig ist