- Mistral Large 2 unterstützt ein 128k-Kontextfenster sowie mehrere Sprachen, darunter Französisch, Deutsch, Spanisch, Italienisch, Chinesisch, Japanisch und Koreanisch
- Außerdem werden mehr als 80 Programmiersprachen unterstützt, darunter Python, Java, C, C++, JavaScript und Bash
- Es wurde für Inferenz auf einem einzelnen Node entwickelt und besteht aus 123 Milliarden Parametern, wodurch auf einem einzelnen Node ein hoher Durchsatz möglich ist
- Es wird unter der Mistral Research License veröffentlicht, die Nutzung und Modifikation für Forschung und nichtkommerzielle Zwecke erlaubt. Für die kommerzielle Nutzung ist eine Mistral Commercial License erforderlich
Allgemeine Leistung
- Mistral Large 2 setzt einen neuen Maßstab bei den Performance/Kosten-Bewertungen
- Insbesondere erreicht die vortrainierte Version bei MMLU eine Genauigkeit von 84,0 % und markiert damit einen neuen Punkt auf der Performance/Kosten-Pareto-Front
Code und Schlussfolgern
- Aufbauend auf den Erfahrungen mit Codestral 22B und Codestral Mamba wurde Mistral Large 2 mit großen Mengen an Code trainiert
- Mistral Large 2 ist dem bisherigen Mistral Large deutlich überlegen und zeigt eine Leistung auf Augenhöhe mit führenden Modellen wie GPT-4o, Claude 3 Opus und Llama 3 405B
- Es wurde viel Aufwand betrieben, um die Reasoning-Fähigkeiten des Modells zu verbessern, und das Modell wurde feinabgestimmt, um die Tendenz zur Erzeugung faktisch falscher Informationen zu minimieren
- Das Modell wurde darauf trainiert, einzugestehen, wenn es keine Lösung finden kann oder nicht genügend Informationen vorliegen
Befolgung von Anweisungen und Alignment
- Mistral Large 2 bietet deutlich verbesserte Instruction-Following- und Dialogfähigkeiten
- Da in vielen Business-Anwendungen Prägnanz wichtig ist, wurde viel Aufwand darauf verwendet, möglichst knappe und auf den Punkt gebrachte Antworten zu erzeugen
Sprachliche Vielfalt
- Mistral Large 2 wurde mit umfangreichen mehrsprachigen Daten trainiert und zeigt starke Leistung in Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Russisch, Chinesisch, Japanisch, Koreanisch, Arabisch und Hindi
Tool-Nutzung und Function Calling
- Mistral Large 2 verfügt über verbesserte Function-Calling- und Retrieval-Funktionen und wurde darauf trainiert, als treibende Engine komplexer Business-Anwendungen zu dienen
Zugriff auf Mistral-Modelle über Cloud-Service-Provider
- Durch die ausgeweitete Partnerschaft mit Google Cloud Platform werden die Modelle von Mistral AI in Vertex AI bereitgestellt
- Die Modelle von Mistral AI sind auch in Azure AI Studio, Amazon Bedrock und IBM watsonx.ai verfügbar
Zusammenfassung von GN⁺
- Mistral Large 2 unterstützt verschiedene Sprachen und Programmiersprachen und bietet hohen Durchsatz auf einem einzelnen Node.
- Die Fähigkeiten zur Codegenerierung und zum Schlussfolgern wurden deutlich verbessert, während die Tendenz zur Erzeugung faktisch falscher Informationen minimiert wurde.
- Durch das Training auf umfangreichen mehrsprachigen Daten zeigt es starke Leistung in zahlreichen Sprachen.
- Über Partnerschaften mit Google Cloud Platform, Azure AI Studio, Amazon Bedrock und IBM watsonx.ai wird es globalen Nutzern bereitgestellt.
- Es wurde dafür entwickelt, in Business-Anwendungen knappe und präzise Antworten zu erzeugen.
1 Kommentare
Hacker-News-Meinungen