- Das Team von Mistral AI hat ein 24B-Parameter-Modell namens Mistral Small 3 unter der Apache-2.0-Lizenz veröffentlicht.
- Das Modell kann mit größeren Modellen wie Llama 3.3 70B oder Qwen 32B konkurrieren und eignet sich als Alternative zu proprietären Modellen wie GPT4o-mini.
- Mistral Small 3 wurde in einer für lokale Deployments geeigneten Größe entwickelt und verkürzt durch die geringere Anzahl an Layern die Verarbeitungszeit.
- Es erreicht auf MMLU eine Genauigkeit von über 81 % und weist eine Latenz von 150 tokens/s auf.
Leistung
Menschliche Bewertung
- Gemeinsam mit einem externen Evaluierungsanbieter wurden mehr als 1.000 Coding- und allgemeine Prompt-Sets ausgewertet.
- Dabei wurden die Antworten von Mistral Small 3 mit denen anderer Modelle verglichen, um Präferenzen zu untersuchen.
- Auf eine faire Bewertung wurde sorgfältig geachtet, und man ist von der Aussagekraft der Benchmarks überzeugt.
Instruktionsleistung
- Das instruktionstuned Modell zeigt eine wettbewerbsfähige Leistung gegenüber offenen Modellen mit der dreifachen Größe sowie dem Modell GPT4o-mini.
- Bei Benchmarks zu Code, Mathematik, Allgemeinwissen und Befolgung von Anweisungen erzielt es eine hohe Genauigkeit.
Vortrainingsleistung
- Mistral Small 3 ist ein 24B-Modell, das in seiner Größenklasse eine Spitzenleistung bietet und mit dreimal größeren Modellen wie Llama 3.3 70B konkurriert.
Anwendungsfälle für Mistral Small 3
- Interaktive Unterstützung mit schnellen Antworten: Hervorragende Leistung in Szenarien, in denen schnelle und präzise Antworten wichtig sind.
- Funktionsaufrufe mit geringer Latenz: Kann in automatisierten Workflows schnelle Funktionsausführungen verarbeiten.
- Erstellung von Fachexperten für Spezialgebiete: Durch Feinabstimmung auf bestimmte Domänen lassen sich hochpräzise Expertenmodelle erstellen.
- Lokale Inferenz: Nützlich für Einzelpersonen oder Organisationen, die mit sensiblen Informationen arbeiten.
Mistral Small 3 im bevorzugten Tech-Stack verwenden
- Mistral Small 3 ist auf la Plateforme als
mistral-small-latest oder mistral-small-2501 verfügbar.
- In Zusammenarbeit mit Hugging Face, Ollama, Kaggle, Together AI und Fireworks AI wird das Modell auf verschiedenen Plattformen bereitgestellt.
Ausblick
- Mistral Small 3 ergänzt große Open-Source-Reasoning-Modelle wie DeepSeek und kann als starke Basismodell-Grundlage zur Verbesserung von Reasoning-Fähigkeiten genutzt werden.
- Künftig sollen sowohl kleinere als auch größere Modelle veröffentlicht werden.
Die Open-Source-Modelle von Mistral
- Geplant ist, General-Purpose-Modelle unter der Apache-2.0-Lizenz bereitzustellen.
- Die Modellgewichte können heruntergeladen und lokal bereitgestellt sowie frei angepasst und genutzt werden.
- Die Bereitstellung soll über serverlose API, On-Premises- und VPC-Deployments sowie Plattformen für Anpassung und Orchestrierung erfolgen.
1 Kommentare
Hacker-News-Kommentare
Das Modell Mistral Small zielt darauf ab, das optimale Modell zu sein, das auf einem Notebook mit ordentlicher Leistung ausgeführt werden kann, und wird mit Llama 3.3 70B und Qwen 2.5 32B verglichen
Tom von Epoch AI baut derzeit eine Infrastruktur auf, um LLM-Bewertungen systematisch und in großem Maßstab durchzuführen
Mit dem Wechsel zur Apache-2.0-Lizenz entfernt man sich von einer nicht-kommerziellen Lizenz
Beim Ausprobieren mit Prompts zur Codegenerierung zeigte sich eine ähnliche Leistung wie bei qwen2.5-coder-32b
Die wichtigsten Punkte dieser Veröffentlichung sind wie folgt
Durch die jüngsten MoE-Modellveröffentlichungen fühlen sich 24GB VRAM inzwischen unzureichend an
Das Modell Mistral Small beantwortet die Frage nach dem ersten Album von Mary J. Blige korrekt
Es gibt die Frage, warum man kleine Modelle verwendet
Es gibt die Meinung, dass die Anzahl der Parameter im Modellnamen enthalten sein sollte