1 Punkte von GN⁺ 2024-04-12 | 1 Kommentare | Auf WhatsApp teilen

1 Kommentare

 
GN⁺ 2024-04-12
Hacker-News-Kommentare
  • Zum Ausführen des Modells können Tools wie Ollama, Llama.cpp oder Python-Bibliotheken verwendet werden. Es ist auch möglich, etwa die Hälfte des Modells in den RAM zu laden.
  • Für den Leistungsvergleich des Modells kann der inoffizielle Benchmark von Hugging Face genutzt werden. Allerdings gilt dieser für das Base-Modell, und man sollte beachten, dass es Unterschiede zu den tatsächlich für Chats verwendeten instruct-fine-tuned Modellen gibt.
  • Wenn das Modell Mixtral-8x22B-v0.1 eine ähnlich gute Leistung wie das frühere Mixtral-8x7B-Modell zeigt, ist es ein sehr vielversprechendes Modell.
  • Es besteht Interesse daran, ob ChatGPT 4 wieder das Leistungsniveau erreichen kann, das anfangs als „funktioniert wie Magie“ bewertet wurde. Es gibt Bedauern darüber, dass die Leistung zugunsten politischer Korrektheit verschlechtert wurde.
  • Es wirkt so, als würden vor dem Release von Llama3 alle darum konkurrieren, das beste kleine Modell herauszubringen.
  • Durch 4-Bit-Quantisierung werden 85 GB VRAM benötigt, daher lässt es sich mit vier Consumer-GPUs mit 24 GB ausreichend betreiben. Es bleibt auch noch Spielraum für die Optimierung des KV-Cache.
  • Es ist merkwürdig, dass Mistral auch mehr als einen Tag nach der Veröffentlichung der Modellgewichte weder eine offizielle Ankündigung noch eine Modellkarte bereitgestellt hat und das Modell nicht einmal auf der eigenen Plattform von Mistral genutzt werden kann.