Da NeurIPS, eine große Deep-Learning-Konferenz, näher rückt, gibt es viel AI-Aktivität
Weitere LLM-Neuigkeiten:
Mistral/Yi dominieren mit Modellen, die per einer neuen Technik namens „neural alignment“ feinabgestimmt wurden, andere Modelle auf dem Hugging-Face-Leaderboard
Das 7B-Modell „schlägt“ die meisten 70B-Modelle
Das getestete 34B-Modell sieht sehr gut aus
Wenn diese Technik auf Mistral Moe angewendet wird, könnte daraus ein hervorragendes Modell werden
Das könnte ein wichtiger Wendepunkt sein, an dem auf dem Desktop lauffähige OSS GPT-4 herausfordern
Mistrals Ansatz:
Mistral legt offenbar keinen großen Wert auf Erklärungen, aber dieser Stil wirkt vertrauenswürdiger als die glattpolierten Unternehmensankündigungen von Google
Einfache Art der Ankündigung:
Bevorzugt werden einfache Ankündigungen im Stil der 90er
Mistrals Modellspezifikation:
Veröffentlichung der Datei params.json mit einer Mixture-of-Experts-Struktur
Vergleich der Ankündigungsweise von Mistral und Google:
Mistrals Art, das Modell anzukündigen, steht im Kontrast zu Googles Gemini-Ankündigung
Mistral scheint auf Basis von Stanfords Megablocks trainiert worden zu sein
Mistrals Marketingstrategie:
Während andere Unternehmen auf Landingpages und Promo-Videos setzen, veröffentlicht Mistral das Modell einfach direkt
Von Mistral veröffentlichte Informationen:
Verwendet eine Mixture-of-Experts-Architektur
8 Experten mit jeweils 7B Parametern
Insgesamt 96 GB an Gewichten, daher auf üblichen Home-GPUs nicht ausführbar
1 Kommentare
Hacker-News-Kommentare
Meinung von Andrej Karpathy:
params.json:hidden_dim / dim = 14336/4096=> 3,5-fache MLP-Erweiterungn_heads / n_kv_heads = 32/8=> 4-faches Multi-Query"moe"=> 8-fach, Top-2 aus Mixture of ExpertsWeitere LLM-Neuigkeiten:
Mistrals Ansatz:
Einfache Art der Ankündigung:
Mistrals Modellspezifikation:
params.jsonmit einer Mixture-of-Experts-StrukturVergleich der Ankündigungsweise von Mistral und Google:
Mistrals Marketingstrategie:
Von Mistral veröffentlichte Informationen: