6 Punkte von GN⁺ 2024-07-25 | 1 Kommentare | Auf WhatsApp teilen
  • Mistral Large 2 unterstützt ein 128k-Kontextfenster sowie mehrere Sprachen, darunter Französisch, Deutsch, Spanisch, Italienisch, Chinesisch, Japanisch und Koreanisch
    • Außerdem werden mehr als 80 Programmiersprachen unterstützt, darunter Python, Java, C, C++, JavaScript und Bash
  • Es wurde für Inferenz auf einem einzelnen Node entwickelt und besteht aus 123 Milliarden Parametern, wodurch auf einem einzelnen Node ein hoher Durchsatz möglich ist
  • Es wird unter der Mistral Research License veröffentlicht, die Nutzung und Modifikation für Forschung und nichtkommerzielle Zwecke erlaubt. Für die kommerzielle Nutzung ist eine Mistral Commercial License erforderlich

Allgemeine Leistung

  • Mistral Large 2 setzt einen neuen Maßstab bei den Performance/Kosten-Bewertungen
  • Insbesondere erreicht die vortrainierte Version bei MMLU eine Genauigkeit von 84,0 % und markiert damit einen neuen Punkt auf der Performance/Kosten-Pareto-Front

Code und Schlussfolgern

  • Aufbauend auf den Erfahrungen mit Codestral 22B und Codestral Mamba wurde Mistral Large 2 mit großen Mengen an Code trainiert
  • Mistral Large 2 ist dem bisherigen Mistral Large deutlich überlegen und zeigt eine Leistung auf Augenhöhe mit führenden Modellen wie GPT-4o, Claude 3 Opus und Llama 3 405B
  • Es wurde viel Aufwand betrieben, um die Reasoning-Fähigkeiten des Modells zu verbessern, und das Modell wurde feinabgestimmt, um die Tendenz zur Erzeugung faktisch falscher Informationen zu minimieren
  • Das Modell wurde darauf trainiert, einzugestehen, wenn es keine Lösung finden kann oder nicht genügend Informationen vorliegen

Befolgung von Anweisungen und Alignment

  • Mistral Large 2 bietet deutlich verbesserte Instruction-Following- und Dialogfähigkeiten
  • Da in vielen Business-Anwendungen Prägnanz wichtig ist, wurde viel Aufwand darauf verwendet, möglichst knappe und auf den Punkt gebrachte Antworten zu erzeugen

Sprachliche Vielfalt

  • Mistral Large 2 wurde mit umfangreichen mehrsprachigen Daten trainiert und zeigt starke Leistung in Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Russisch, Chinesisch, Japanisch, Koreanisch, Arabisch und Hindi

Tool-Nutzung und Function Calling

  • Mistral Large 2 verfügt über verbesserte Function-Calling- und Retrieval-Funktionen und wurde darauf trainiert, als treibende Engine komplexer Business-Anwendungen zu dienen

Zugriff auf Mistral-Modelle über Cloud-Service-Provider

  • Durch die ausgeweitete Partnerschaft mit Google Cloud Platform werden die Modelle von Mistral AI in Vertex AI bereitgestellt
  • Die Modelle von Mistral AI sind auch in Azure AI Studio, Amazon Bedrock und IBM watsonx.ai verfügbar

Zusammenfassung von GN⁺

  • Mistral Large 2 unterstützt verschiedene Sprachen und Programmiersprachen und bietet hohen Durchsatz auf einem einzelnen Node.
  • Die Fähigkeiten zur Codegenerierung und zum Schlussfolgern wurden deutlich verbessert, während die Tendenz zur Erzeugung faktisch falscher Informationen minimiert wurde.
  • Durch das Training auf umfangreichen mehrsprachigen Daten zeigt es starke Leistung in zahlreichen Sprachen.
  • Über Partnerschaften mit Google Cloud Platform, Azure AI Studio, Amazon Bedrock und IBM watsonx.ai wird es globalen Nutzern bereitgestellt.
  • Es wurde dafür entwickelt, in Business-Anwendungen knappe und präzise Antworten zu erzeugen.

1 Kommentare

 
GN⁺ 2024-07-25
Hacker-News-Meinungen
  • Beim Test von Mistral Large 2 und Llama 3.1 405b ließ sich kein klarer Sieger zwischen den beiden Modellen feststellen
  • Wenn man bereits Claude nutzt, ist es besser, dabei zu bleiben
  • Wünsche an Claude:
    • Es soll klüger werden
    • Ein längeres Kontextfenster (1M+)
    • Native Audioeingabe und Verständnis von Tonfall
    • Weniger moralische Urteile bei Ablehnungen
    • Es soll schneller werden
    • Mehr Output-Token
  • Der Wettbewerb zwischen den Modellen wird immer intensiver
  • Claude 3.5 Sonnet übertrifft alle anderen Modelle deutlich
  • Ich weiß nicht so recht, wie man Mistral oder Llama im Alltag regelmäßig einsetzen soll
  • Ich entwickle einen AI-Coding-Assistenten und habe verschiedene Modelle ausprobiert; Mistral Large 2 war dabei am enttäuschendsten
  • Die nicht-kommerzielle Lizenz ist enttäuschend
  • Es kann mit Llama 3.1 405b konkurrieren, aber die Lizenz ist restriktiver
  • Die Unterschiede zwischen den Modellen werden kleiner, daher wäre es möglicherweise besser, Llama 405B für einen bestimmten Anwendungsfall feinzujustieren
  • Solange es keinen großen Qualitätssprung gibt, wird es im aktuellen Zustand keine großen Unterschiede geben
  • Ich freue mich über den intensiven Wettbewerb
  • Es werden mit hohem Kostenaufwand SOTA-Modelle gebaut, aber sie bleiben auf dem Niveau von GPT-4o und Claude Opus stehen
  • Allein durch den Einsatz von mehr Daten und GPUs stößt man an Grenzen
  • Benutzererfahrung und „Persönlichkeit“ werden wichtiger werden
  • Ich nutze Claude Sonnet gern und finde es schärfer als andere Modelle
  • Man darf nicht vergessen, dass jeder weitere Schritt mehr Energie und Ressourcen erfordert
  • Es werden die jüngsten Modell-Benchmark-Ergebnisse von PyLLMs geteilt
    • Ich war von der Geschwindigkeit und Qualität von Nemo überrascht
    • Mistral Large ist gut, aber sehr langsam
  • Ich bin verwirrt, welches Claude-Modell leistungsfähiger ist: Opus oder Sonnet 3.5
  • Mistral Large 2 verfügt über verbesserte Funktionen für Function Calling und Retrieval
  • Ich frage mich, ob eine Function-Calling-Genauigkeit von etwa 50 % bedeutet, dass bei komplexen Aufgaben die Hälfte der Fälle scheitert
  • Ich bevorzuge ChatGPT-4o und nutze Claude, wenn es Probleme gibt, bekomme damit aber keine besseren Ergebnisse