11 Punkte von GN⁺ 2023-09-28 | 1 Kommentare | Auf WhatsApp teilen
  • Das bislang leistungsstärkste Sprachmodell
  • Ein Modell mit 7,3B Parametern, das in allen Benchmarks Llama 2 13B und in vielen Benchmarks Llama 1 34B übertrifft
  • Verwendet Grouped-query attention (GQA) für schnellere Inferenz und Sliding Window Attention (SWA), um längere Sequenzen zu geringeren Kosten zu verarbeiten
  • Unter der Apache-2.0-Lizenz verfügbar und ohne Einschränkungen nutzbar
  • Kann auf jeder Cloud (AWS/GCP/Azure) mit dem vLLM-Inferenzserver und skypilot bereitgestellt werden und ist auch auf HuggingFace verfügbar
  • Lässt sich einfach feinabstimmen, und das für Chat feinabgestimmte Modell übertrifft Llama 2 13B Chat

1 Kommentare

 
GN⁺ 2023-09-28
Hacker-News-Kommentare
  • Mistral ist im Gegensatz zu Meta und DeciLM das erste Unternehmen, das ein Modell dieser Klasse unter einer Apache-Lizenz veröffentlicht.
  • Das Modell läuft gut auf einem MacBook Air M1 und ist mit GPT-3.5 vergleichbar.
  • Es gibt Fragen zur möglichen Nutzung einer „Function-Calling-API“ für die Verarbeitung strukturierter Daten wie JSON.
  • Es wurden Bedenken zum für das Training verwendeten Datensatz geäußert sowie zur Möglichkeit, dass Benchmark-Leaks die Ergebnisse aufgebläht haben könnten.
  • Die Ankündigung des Modells erfolgte über die Torrent-Tracker-URI von Twitter.
  • In Tests von Coding-Assistenten für LLMs schnitt Mistral nicht so gut ab wie CodeLlama und GPT-4.
  • Das Modell funktioniert in FreeChat unter macOS, da es von llama.cpp unterstützt wird.
  • Es gibt Fragen dazu, warum Projekte offenbar innerhalb großer Kategorien wie 7B-Modelle auf bestimmte Parametergrößen standardisieren.
  • Es wurden Details zum Training des Modells angefragt, zu den zugrunde liegenden Daten und dazu, wo es trainiert wurde.
  • Es gibt die Forderung, auf Benchmark-Kontamination im Trainingssatz zu testen.