5 Punkte von GN⁺ 2025-01-31 | 1 Kommentare | Auf WhatsApp teilen
  • Das Team von Mistral AI hat ein 24B-Parameter-Modell namens Mistral Small 3 unter der Apache-2.0-Lizenz veröffentlicht.
  • Das Modell kann mit größeren Modellen wie Llama 3.3 70B oder Qwen 32B konkurrieren und eignet sich als Alternative zu proprietären Modellen wie GPT4o-mini.
  • Mistral Small 3 wurde in einer für lokale Deployments geeigneten Größe entwickelt und verkürzt durch die geringere Anzahl an Layern die Verarbeitungszeit.
  • Es erreicht auf MMLU eine Genauigkeit von über 81 % und weist eine Latenz von 150 tokens/s auf.

Leistung

Menschliche Bewertung

  • Gemeinsam mit einem externen Evaluierungsanbieter wurden mehr als 1.000 Coding- und allgemeine Prompt-Sets ausgewertet.
  • Dabei wurden die Antworten von Mistral Small 3 mit denen anderer Modelle verglichen, um Präferenzen zu untersuchen.
  • Auf eine faire Bewertung wurde sorgfältig geachtet, und man ist von der Aussagekraft der Benchmarks überzeugt.

Instruktionsleistung

  • Das instruktionstuned Modell zeigt eine wettbewerbsfähige Leistung gegenüber offenen Modellen mit der dreifachen Größe sowie dem Modell GPT4o-mini.
  • Bei Benchmarks zu Code, Mathematik, Allgemeinwissen und Befolgung von Anweisungen erzielt es eine hohe Genauigkeit.

Vortrainingsleistung

  • Mistral Small 3 ist ein 24B-Modell, das in seiner Größenklasse eine Spitzenleistung bietet und mit dreimal größeren Modellen wie Llama 3.3 70B konkurriert.

Anwendungsfälle für Mistral Small 3

  • Interaktive Unterstützung mit schnellen Antworten: Hervorragende Leistung in Szenarien, in denen schnelle und präzise Antworten wichtig sind.
  • Funktionsaufrufe mit geringer Latenz: Kann in automatisierten Workflows schnelle Funktionsausführungen verarbeiten.
  • Erstellung von Fachexperten für Spezialgebiete: Durch Feinabstimmung auf bestimmte Domänen lassen sich hochpräzise Expertenmodelle erstellen.
  • Lokale Inferenz: Nützlich für Einzelpersonen oder Organisationen, die mit sensiblen Informationen arbeiten.

Mistral Small 3 im bevorzugten Tech-Stack verwenden

  • Mistral Small 3 ist auf la Plateforme als mistral-small-latest oder mistral-small-2501 verfügbar.
  • In Zusammenarbeit mit Hugging Face, Ollama, Kaggle, Together AI und Fireworks AI wird das Modell auf verschiedenen Plattformen bereitgestellt.

Ausblick

  • Mistral Small 3 ergänzt große Open-Source-Reasoning-Modelle wie DeepSeek und kann als starke Basismodell-Grundlage zur Verbesserung von Reasoning-Fähigkeiten genutzt werden.
  • Künftig sollen sowohl kleinere als auch größere Modelle veröffentlicht werden.

Die Open-Source-Modelle von Mistral

  • Geplant ist, General-Purpose-Modelle unter der Apache-2.0-Lizenz bereitzustellen.
  • Die Modellgewichte können heruntergeladen und lokal bereitgestellt sowie frei angepasst und genutzt werden.
  • Die Bereitstellung soll über serverlose API, On-Premises- und VPC-Deployments sowie Plattformen für Anpassung und Orchestrierung erfolgen.

1 Kommentare

 
GN⁺ 2025-01-31
Hacker-News-Kommentare
  • Das Modell Mistral Small zielt darauf ab, das optimale Modell zu sein, das auf einem Notebook mit ordentlicher Leistung ausgeführt werden kann, und wird mit Llama 3.3 70B und Qwen 2.5 32B verglichen

    • Läuft auf einem M2 64GB MacBook Pro über Ollama und ist schnell sowie leistungsstark
    • Erfordert den Download von 14GB Modellgewichten
  • Tom von Epoch AI baut derzeit eine Infrastruktur auf, um LLM-Bewertungen systematisch und in großem Maßstab durchzuführen

    • Führt die Bewertungen mit der Inspect-Bibliothek der britischen Regierung durch
    • Bewertete Mistral Small 3 auf MATH Level 5 und erzielte eine Genauigkeit von 0,45
    • Zur Messung der durchschnittlichen Genauigkeit wurde bei 1.324 Fragen jeweils 8-mal gesampelt
  • Mit dem Wechsel zur Apache-2.0-Lizenz entfernt man sich von einer nicht-kommerziellen Lizenz

  • Beim Ausprobieren mit Prompts zur Codegenerierung zeigte sich eine ähnliche Leistung wie bei qwen2.5-coder-32b

    • Beeindruckend ist, dass kleine Modelle zunehmend ausgefeiltere Ausgaben liefern
    • Es gibt Erwartungen an eine neue Version des 8x7B-Mixtral-Modells
  • Die wichtigsten Punkte dieser Veröffentlichung sind wie folgt

    • Anwendung der Apache-2.0-Lizenz
    • Niedrige Latenz (11 ms/Token)
    • Die Leistung liegt zwischen Qwen 2.5 32B und Llama 3.3 70B
    • Das Modell Mistral Small läuft mit einer Geschwindigkeit von 9 Token/s
  • Durch die jüngsten MoE-Modellveröffentlichungen fühlen sich 24GB VRAM inzwischen unzureichend an

    • Mistral Small 3 verwendet weder RL noch synthetische Daten
  • Das Modell Mistral Small beantwortet die Frage nach dem ersten Album von Mary J. Blige korrekt

  • Es gibt die Frage, warum man kleine Modelle verwendet

  • Es gibt die Meinung, dass die Anzahl der Parameter im Modellnamen enthalten sein sollte