Mistral 7B

(mistral.ai)

11 Punkte von GN⁺ 2023-09-28 | 1 Kommentare | Auf WhatsApp teilen

Das bislang leistungsstärkste Sprachmodell
Ein Modell mit 7,3B Parametern, das in allen Benchmarks Llama 2 13B und in vielen Benchmarks Llama 1 34B übertrifft
Verwendet Grouped-query attention (GQA) für schnellere Inferenz und Sliding Window Attention (SWA), um längere Sequenzen zu geringeren Kosten zu verarbeiten
Unter der Apache-2.0-Lizenz verfügbar und ohne Einschränkungen nutzbar
Kann auf jeder Cloud (AWS/GCP/Azure) mit dem vLLM-Inferenzserver und skypilot bereitgestellt werden und ist auch auf HuggingFace verfügbar
Lässt sich einfach feinabstimmen, und das für Chat feinabgestimmte Modell übertrifft Llama 2 13B Chat

1 Kommentare

GN⁺ 2023-09-28

Mistral ist im Gegensatz zu Meta und DeciLM das erste Unternehmen, das ein Modell dieser Klasse unter einer Apache-Lizenz veröffentlicht.
Das Modell läuft gut auf einem MacBook Air M1 und ist mit GPT-3.5 vergleichbar.
Es gibt Fragen zur möglichen Nutzung einer „Function-Calling-API“ für die Verarbeitung strukturierter Daten wie JSON.
Es wurden Bedenken zum für das Training verwendeten Datensatz geäußert sowie zur Möglichkeit, dass Benchmark-Leaks die Ergebnisse aufgebläht haben könnten.
Die Ankündigung des Modells erfolgte über die Torrent-Tracker-URI von Twitter.
In Tests von Coding-Assistenten für LLMs schnitt Mistral nicht so gut ab wie CodeLlama und GPT-4.
Das Modell funktioniert in FreeChat unter macOS, da es von llama.cpp unterstützt wird.
Es gibt Fragen dazu, warum Projekte offenbar innerhalb großer Kategorien wie 7B-Modelle auf bestimmte Parametergrößen standardisieren.
Es wurden Details zum Training des Modells angefragt, zu den zugrunde liegenden Daten und dazu, wo es trainiert wurde.
Es gibt die Forderung, auf Benchmark-Kontamination im Trainingssatz zu testen.