Veröffentlichung von Mistral NeMo

(mistral.ai)

6 Punkte von GN⁺ 2024-07-19 | 1 Kommentare | Auf WhatsApp teilen

Veröffentlichung von Mistral NeMo, einem in Zusammenarbeit mit NVIDIA entwickelten Modell mit 12 Milliarden Parametern
Bietet ein großes Kontextfenster von bis zu 128k Token
In Schlussfolgern, Weltwissen und Coding-Genauigkeit auf Best-in-Class-Niveau
Dank Standardarchitektur leicht in Systemen einsetzbar, die Mistral 7B verwenden
Veröffentlichung vortrainierter Base- und Instruction-tuned-Checkpoints unter der Apache-2.0-Lizenz, um die Adoption durch Forschende und Unternehmen zu fördern
Mit Quantisierungsbewusstsein trainiert, wodurch FP8-Inferenz ohne Leistungsverlust möglich ist

Mehrsprachiges Modell

Entwickelt für globale mehrsprachige Anwendungen
Für Function Calling trainiert und mit großem Kontextfenster ausgestattet
Besonders stark in Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Chinesisch, Japanisch, Koreanisch, Arabisch und Hindi
Ziel ist es, Nutzern aller Sprachen ein KI-Modell auf dem neuesten Stand der Technik bereitzustellen

Tekken, ein effizienterer Tokenizer

Verwendet den neuen auf Tiktoken basierenden Tokenizer Tekken
Komprimiert natürlichsprachlichen Text und Source Code in mehr als 100 Sprachen effizienter als der SentencePiece-Tokenizer
Etwa 30 % effizienter bei Source Code, Chinesisch, Italienisch, Französisch, Deutsch, Spanisch und Russisch
In Koreanisch bzw. Arabisch jeweils 2- bzw. 3-mal effizienter
Im Vergleich zum Llama-3-Tokenizer bessere Kompressionsleistung in rund 85 % der Sprachen

Instruction Fine-Tuning

Mistral NeMo durchläuft fortgeschrittene Fine-Tuning- und Alignment-Phasen
Im Vergleich zu Mistral 7B deutlich besser darin, Anweisungen präzise zu befolgen, Schlussfolgerungen zu ziehen, Multi-Turn-Gespräche zu verarbeiten und Code zu generieren

1 Kommentare

GN⁺ 2024-07-19

Hacker-News-Kommentare

Mistral NeMo ist ein in Zusammenarbeit mit NVIDIA entwickeltes 12B-Modell und bietet ein großes Kontextfenster von bis zu 128k Token
- Es verwendet eine Standardarchitektur und ist dadurch einfach einzusetzen; in Systemen, die Mistral 7B nutzen, lässt es sich leicht ersetzen
- Es stellt vortrainierte Checkpoints unter der Apache-2.0-Lizenz bereit und fördert damit die Akzeptanz bei Forschern und Unternehmen
- Durch Quantisierungsbewusstsein ermöglicht es FP8-Inferenz ohne Leistungsverlust
Mistral NeMo verwendet den neuen Tokenizer Tekken, der auf mehr als 100 Sprachen trainiert wurde und Text sowie Source Code effizienter komprimiert als SentencePiece
- Es wird die Frage aufgeworfen, warum man zu SentencePiece zurückgekehrt ist, obwohl sich Byte-pair encoding als effizientere Kodierungsmethode erwiesen hat
Auch im NVIDIA-Blog gibt es einen Beitrag zu Mistral NeMo
- Es ist als NVIDIA-NIM-Inferenz-Microservice paketiert und bietet performanceoptimierte Inferenz über die NVIDIA-TensorRT-LLM-Engine
- Es wurde so entworfen, dass es in den Speicher von NVIDIA L40S, NVIDIA GeForce RTX 4090 und NVIDIA RTX 4500 GPU passt
- Es wurde mit Megatron-LM auf 3.072 H100 80GB Tensor Core GPU trainiert
Große Modelle werden in schneller Folge veröffentlicht, was darauf hindeutet, dass Unternehmen Wege gefunden haben, skalierbare Prozesse auszuweiten
- Es wird die Frage gestellt, ob das Veröffentlichen von Modellen auf HuggingFace ein Geschäftsmodell ist
- Der Download der Modelldateien ist etwa 25 GB groß und es handelt sich um ein 8fp-quantisiertes Modell
Es gibt die Meinung, dass die Erfahrung, sich bei NVIDIA Enterprise anzumelden, um die Paketversion von "NIM" auszuprobieren, umständlich ist
- Es wäre besser, die Modelldateien frei herunterladen zu können
- Es gibt Unmut darüber, dass NVIDIA trotz seiner Hardware-Dominanz komplizierte Verfahren verlangt
Es gibt die Meinung, dass Mistral, wenn es die Weiterentwicklung von Open Source ernsthaft in Betracht zieht, den für das Modelltraining verwendeten Korpus teilen sollte
- Es wird gefragt, warum zum Veröffentlichungsdatum keine GGUF-Version bereitsteht
Es wird gefragt, ob das Training in mehreren Sprachen einen "Crossover" bietet
- Es besteht Neugier, ob das auf Deutsch Trainierte genutzt werden kann, wenn auf englische Prompts geantwortet wird
Es besteht wenig Verständnis für das Geschäftsmodell, Open-Source-Generative-AI-Modelle kostenlos zu veröffentlichen
- Es wird gefragt, warum ein mit 3.072 H100s trainiertes Modell kostenlos angeboten wird

Veröffentlichung von Mistral NeMo

Mehrsprachiges Modell

Tekken, ein effizienterer Tokenizer

Instruction Fine-Tuning

Links

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare