6 Punkte von GN⁺ 2024-07-19 | 1 Kommentare | Auf WhatsApp teilen
  • Veröffentlichung von Mistral NeMo, einem in Zusammenarbeit mit NVIDIA entwickelten Modell mit 12 Milliarden Parametern
  • Bietet ein großes Kontextfenster von bis zu 128k Token
  • In Schlussfolgern, Weltwissen und Coding-Genauigkeit auf Best-in-Class-Niveau
  • Dank Standardarchitektur leicht in Systemen einsetzbar, die Mistral 7B verwenden
  • Veröffentlichung vortrainierter Base- und Instruction-tuned-Checkpoints unter der Apache-2.0-Lizenz, um die Adoption durch Forschende und Unternehmen zu fördern
  • Mit Quantisierungsbewusstsein trainiert, wodurch FP8-Inferenz ohne Leistungsverlust möglich ist

Mehrsprachiges Modell

  • Entwickelt für globale mehrsprachige Anwendungen
  • Für Function Calling trainiert und mit großem Kontextfenster ausgestattet
  • Besonders stark in Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Chinesisch, Japanisch, Koreanisch, Arabisch und Hindi
  • Ziel ist es, Nutzern aller Sprachen ein KI-Modell auf dem neuesten Stand der Technik bereitzustellen

Tekken, ein effizienterer Tokenizer

  • Verwendet den neuen auf Tiktoken basierenden Tokenizer Tekken
  • Komprimiert natürlichsprachlichen Text und Source Code in mehr als 100 Sprachen effizienter als der SentencePiece-Tokenizer
  • Etwa 30 % effizienter bei Source Code, Chinesisch, Italienisch, Französisch, Deutsch, Spanisch und Russisch
  • In Koreanisch bzw. Arabisch jeweils 2- bzw. 3-mal effizienter
  • Im Vergleich zum Llama-3-Tokenizer bessere Kompressionsleistung in rund 85 % der Sprachen

Instruction Fine-Tuning

  • Mistral NeMo durchläuft fortgeschrittene Fine-Tuning- und Alignment-Phasen
  • Im Vergleich zu Mistral 7B deutlich besser darin, Anweisungen präzise zu befolgen, Schlussfolgerungen zu ziehen, Multi-Turn-Gespräche zu verarbeiten und Code zu generieren

Links

  • Die Gewichte der Base- und Instruction-Modelle werden auf HuggingFace gehostet
  • Mistral NeMo kann mit mistral-inference ausprobiert und mit mistral-finetune angepasst werden
  • Als NVIDIA-NIM-Inferenz-Microservice paketiert und auf ai.nvidia.com verfügbar

1 Kommentare

 
GN⁺ 2024-07-19
Hacker-News-Kommentare
  • Mistral NeMo ist ein in Zusammenarbeit mit NVIDIA entwickeltes 12B-Modell und bietet ein großes Kontextfenster von bis zu 128k Token

    • Es verwendet eine Standardarchitektur und ist dadurch einfach einzusetzen; in Systemen, die Mistral 7B nutzen, lässt es sich leicht ersetzen
    • Es stellt vortrainierte Checkpoints unter der Apache-2.0-Lizenz bereit und fördert damit die Akzeptanz bei Forschern und Unternehmen
    • Durch Quantisierungsbewusstsein ermöglicht es FP8-Inferenz ohne Leistungsverlust
  • Mistral NeMo verwendet den neuen Tokenizer Tekken, der auf mehr als 100 Sprachen trainiert wurde und Text sowie Source Code effizienter komprimiert als SentencePiece

    • Es wird die Frage aufgeworfen, warum man zu SentencePiece zurückgekehrt ist, obwohl sich Byte-pair encoding als effizientere Kodierungsmethode erwiesen hat
  • Auch im NVIDIA-Blog gibt es einen Beitrag zu Mistral NeMo

    • Es ist als NVIDIA-NIM-Inferenz-Microservice paketiert und bietet performanceoptimierte Inferenz über die NVIDIA-TensorRT-LLM-Engine
    • Es wurde so entworfen, dass es in den Speicher von NVIDIA L40S, NVIDIA GeForce RTX 4090 und NVIDIA RTX 4500 GPU passt
    • Es wurde mit Megatron-LM auf 3.072 H100 80GB Tensor Core GPU trainiert
  • Große Modelle werden in schneller Folge veröffentlicht, was darauf hindeutet, dass Unternehmen Wege gefunden haben, skalierbare Prozesse auszuweiten

    • Es wird die Frage gestellt, ob das Veröffentlichen von Modellen auf HuggingFace ein Geschäftsmodell ist
    • Der Download der Modelldateien ist etwa 25 GB groß und es handelt sich um ein 8fp-quantisiertes Modell
  • Es gibt die Meinung, dass die Erfahrung, sich bei NVIDIA Enterprise anzumelden, um die Paketversion von "NIM" auszuprobieren, umständlich ist

    • Es wäre besser, die Modelldateien frei herunterladen zu können
    • Es gibt Unmut darüber, dass NVIDIA trotz seiner Hardware-Dominanz komplizierte Verfahren verlangt
  • Es gibt die Meinung, dass Mistral, wenn es die Weiterentwicklung von Open Source ernsthaft in Betracht zieht, den für das Modelltraining verwendeten Korpus teilen sollte

    • Es wird gefragt, warum zum Veröffentlichungsdatum keine GGUF-Version bereitsteht
  • Es wird gefragt, ob das Training in mehreren Sprachen einen "Crossover" bietet

    • Es besteht Neugier, ob das auf Deutsch Trainierte genutzt werden kann, wenn auf englische Prompts geantwortet wird
  • Es besteht wenig Verständnis für das Geschäftsmodell, Open-Source-Generative-AI-Modelle kostenlos zu veröffentlichen

    • Es wird gefragt, warum ein mit 3.072 H100s trainiertes Modell kostenlos angeboten wird