Mistral „Mixtral“ 8x7B 32k-Modell [Magnet]

(twitter.com/MistralAI)

2 Punkte von GN⁺ 2023-12-09 | 1 Kommentare | Auf WhatsApp teilen

1 Kommentare

GN⁺ 2023-12-09

Hacker-News-Kommentare

In anderen LLM-Nachrichten liegen auf Hugging Face einige Mistral/Yi-Finetuning-Modelle, die mit einer neuen, noch nicht dokumentierten Technik namens neural alignment trainiert wurden, deutlich vor anderen Modellen
7B „schlägt“ die meisten 70B-Modelle, und auch das getestete 34B sieht sehr gut aus
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
Theoretisch ließe sich diese Technik auch auf Mistral MoE anwenden; wenn der gleiche Sprung wie beim normalen Mistral 7B herauskommt und Mistral MoE selbst gut ist, könnte das Ergebnis ein ziemlich furchteinflößendes Modell werden
Vielleicht ist das ein Wendepunkt, an dem Open-Source-Modelle, die auf dem Desktop laufen können, GPT-4 wirklich dicht auf die Pelle rücken
- Ich habe die 7B-Version ausprobiert, und sie fühlt sich definitiv anders an als alles, was ich bisher getestet habe
  Sie konnte eine Docker-Compose-Datei erklären und auch eine einfache Komponente für eine Vue-Anwendung erzeugen
  Als ich anhand eines Beispiels noch etwas nachfragte, blieb sie über das gesamte Gespräch hinweg merkwürdig konsistent und fokussiert; sie unterschied auch gut, ob ich bei nicht gelöschtem Kontext zu einem neuen Thema wechselte oder mich auf Vorheriges bezog
  Besonders als ich fragte: „What does following mean [docker compose Inhalt]“, antwortete cybertron-7b etwa mit „In the provided YAML configuration, ‘following’ refers to dependency specification“ und griff dabei meinen Ausdruck exakt in Anführungszeichen auf; ich habe noch nie ein Modell gesehen, das so präzise Formulierungen aus dem Gespräch zitiert
- Aus Interesse habe ich für die kleinste Variante mit TheBlokes GGUF-Version[1] ein ollama modelfile erstellt; für ein so kleines Modell fühlt es sich wirklich ziemlich GPT-4-artig an
  Es wirkt konsistenter als openhermes2.5-mistral, das ich zuvor hauptsächlich als lokales LLM genutzt habe
  Wenn ollama installiert ist, kann man es mit ollama run nollama/una-cybertron-7b-v2 ausprobieren
  [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
- Stimmt. UNA scheint MoE über mehrere Ebenen, Experten und praktisch jeden Teil des neuronalen Netzes ausrichten zu können
  Xaberius 34B v1 „BETA“ ist der König, aber es ist buchstäblich noch nur eine Beta
  Als Nächstes werde ich mich auf Mixtral konzentrieren; weil das so modular ist, fühlt es sich wie ein Weihnachtsgeschenk an. Danke an @mistral dafür, das Labor geöffnet zu haben
- Sind LLM-Benchmarks inzwischen nicht bestenfalls bedeutungslos und schlimmstenfalls fast gelogen?
- Stimmt. Mistral kümmert sich nicht besonders darum, Modelle durch „Sicherheitstraining“ quasi zu kastrieren und abzuschwächen
  Deshalb kann die Leistung pro Parameter deutlich besser sein als bei Anthropic/Google/OpenAI, während die Modelle zugleich besser steuerbar bleiben
Andrej Karpathys Einordnung:
Das neue Open-Weights-LLM von @MistralAI
Laut params.json: hidden_dim / dim = 14336/4096 => 3.5X MLP-Erweiterung, n_heads / n_kv_heads = 32/8 => 4X multiquery, "moe" => Mixture of Experts 8X top 2
Der dazugehörige Code scheint das hier zu sein:
https://github.com/mistralai/megablocks-public
Merkwürdigerweise gibt es kein übermäßig einstudiertes, professionelles Launch-Video über die „Revolution der KI“
Falls ihr euch fragt, warum gerade so viel KI-Aktivität herrscht: Die größte Deep-Learning-Konferenz, NeurIPS, ist nächste Woche
https://twitter.com/karpathy/status/1733181701361451130
- Wenn NeurIPS nächste Woche ist, kann man dann von mehreren Unternehmen große Ankündigungen wie neue Architekturen oder Modelle erwarten? Ich kenne die Kultur von Forschungskonferenzen nicht besonders gut und bin neugierig
- hidden_dim / dim = 14336/4096 => 3.5X MLP-Erweiterung und n_heads / n_kv_heads = 32/8 => 4X sind beide exakt genauso wie beim bestehenden Mistral-7B
- EMNLP 2023 läuft ebenfalls gerade, deshalb häufen sich die Ankündigungen
Mistral scheint nicht viel Aufwand in Erklärungen zu stecken, aber diese Vorgehensweise gibt dem Produkt viel mehr Glaubwürdigkeit als Googles glatte, konzernhafte und seelenlose Gemini-Präsentation
- Gewichte zu veröffentlichen ist besser als Dokumentation
  Das erinnert mich daran, wie ein Google-Mitarbeiter damit prahlte, dass Google die Gewichte von Gemini veröffentlicht habe – und zwar nur die des kleinen mobilen Gemini –, als wäre das im Vergleich zu anderen Unternehmen ein großzügiger Schritt
Braucht es wirklich eine große Ankündigung? Man kann es wie in den 90ern machen: https://twitter.com/erhartford/status/1733159666417545641/ph...
- Das wirkt deutlich mutiger und selbstbewusster, als offensichtlich manipulierte und unrealistische Marketingseiten oder -videos zu veröffentlichen
Es sieht nach Mixture of Experts (MoE) aus, und params.json lautet wie folgt
{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }
- Was genau bedeutet in diesem Kontext Experte?
- Ich sehe dort keinen Code; welche Runtime kann diese Gewichte laden?
Auch wenn die Zielsetzungen der Unternehmen nicht genau gleich sind, ist der Kontrast zwischen dieser Modellankündigung und Googles Gemini-Ankündigung von vor zwei Tagen ziemlich lustig
Das steht in starkem Kontrast zu Googles Ansatz von Anfang dieser Woche: „nur Demo, kein Modell“
Sieht so aus, als wäre es mit Stanfords Megablocks trainiert worden: https://github.com/mistralai/megablocks-public
Mag kontrovers sein, aber ich sehe Mistral 7B als den tatsächlichen Stand der Technik bei LLMs
ChatGPT 4 ist zweifellos beeindruckend, und ich bin seit dem ersten Tag Abonnent, aber es läuft in riesigen, weit entfernten Serverfarmen und ist praktisch eine Blackbox
Mistral ist klein, für seine Größe sowohl bei allgemeinen Fragen als auch bei Code erstaunlich konsistent und nützlich, unzensiert, und ein Sprung, von dem man kaum glauben würde, dass er innerhalb eines Jahres möglich ist
Auf einem MacBook Air läuft es mit 12 tok/s, und ich freue mich darauf, es auf dem Desktop auszuprobieren
- Für das, was auf einem MacBook Air lauffähig ist, ist es Stand der Technik, aber nicht für LLMs insgesamt oder Open Source insgesamt
  Yi 34B und Llama2 70B sind immer noch besser
- Wenn 50 % der im Internet konsumierten Informationen in den letzten 24 Stunden entstanden sind, könnten kleine Modelle einen ziemlich großen Vorteil gegenüber großen Modellen haben
  Wenn man ein LLM oder SmallLM wöchentlich oder täglich kontinuierlich neu trainieren oder fine-tunen kann, um aktuelle Informationen abzubilden, haben veraltete Modelle, die vor ein bis zwei Jahren trainiert wurden, es schwer mitzuhalten
  Ich kenne die Lizenz nicht, aber OpenAI könnte ein kleines Modell wie Mistral7B in den GPT-Stack aufnehmen, es jede Woche von Grund auf neu trainieren und dann denselben Preis wie für GPT-4 verlangen
  Es wird sicher Nutzer geben, die ein zwar leistungsschwächeres, aber aktuelleres Modell bevorzugen
- Stimme zu. Mistral 7B ist wirklich erstaunlich gut
  Fine-Tuning-Modelle wie die Intel-Version oder Berkeley Starling fühlen sich, obwohl sie nur 7B haben, ziemlich nah an gpt3.5T an
  Auf ein 13B-Mistral hatte ich mich wirklich gefreut, aber ich weiß nicht, ob dieses MoE auf einer 24-GB-3090 laufen wird
  Ich hoffe, dass es durch Quantisierung, Offloading und kommende Techniken lauffähig wird
- 12 tok/s auf einem MacBook Air wirkt etwas niedrig
  Nutzt du in llama.cpp Metal-GPU-Beschleunigung? Ich habe kein MacBook, aber den llama.cpp-Benchmarks nach sah es so aus, als käme man mit GPU-Beschleunigung auf fast 30 tok/s
- Absolut. Es fühlt sich mindestens auf Augenhöhe mit llama2 13b an
  Wenn es ein mistral 70b gäbe und es gegenüber llama2 im 7b-Format genauso viel besser wäre, wie es hier der Fall ist, läge es sicher ungefähr auf gpt3.5-Niveau
Es gibt jetzt eine experimentell funktionierende Hugging-Face-Version: https://huggingface.co/DiscoResearch/mixtral-7b-8expert
Google liefert Fake-Demos, Mistral erledigt es mit einem einzigen Magnet-Link

Mistral „Mixtral“ 8x7B 32k-Modell [Magnet]

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare