Ich frage mich, wie man dieses Modell am einfachsten ausführt, wenn man die Gewichte und die Hardware hat.
Selbst wenn man die Hälfte des Modells in den RAM auslagert, wüsste ich gern, mit welchem Tool man es laden sollte: Ollama, Llama.cpp oder einfach über eine Python-Bibliothek.
Außerdem frage ich mich, wie man es am besten benchmarken kann, um es mit einem anderen Modell zu vergleichen, und ob es dafür sofort nutzbare Tools gibt.
Der llamafile-Ansatz sieht am besten aus.
Das Binary läuft auf der Kommandozeile oder startet einen kleinen Webserver.
llamafile bietet einen Build für Mixtral-8x7B-Instruct an, daher könnte dieses Modell vermutlich ebenfalls paketiert werden, wahrscheinlich auch in einem Quantisierungsformat.
Das müsste jemand bestätigen, der das Ökosystem besser kennt, aber ich denke, das neue Modell könnte unverändert mit llamafile laufen. https://github.com/Mozilla-Ocho/llamafile
LM Studio ist großartig, um LLMs auf einem MacBook zu testen: https://lmstudio.ai/
In der App ist es sehr einfach, neue Modelle von Hugging Face zu suchen und direkt zu testen.
Auf Hugging Face gibt es einen Nutzer namens The Bloke, der kurz nach Erscheinen eines Modells in voller Größe vorquantisierte Modelle hochlädt.
Man muss diese Seite im Auge behalten und hoffen, dass ein 4-Bit-Modell in die GPU passt.
Vermutlich arbeitet er schon daran.
8x22B – wenn das so gut ist wie Mixtral 8x7B, werden das wirklich spannende Zeiten.
Ich habe gehört, Command R sei das erste Open-Source-Modell, das GPT-4 in Benchmarks geschlagen hat.
Es gibt ja bereits 8x7B, also gäbe es keinen Grund, noch ein 8x7B zu wollen; es dürfte also besser sein, oder?
Etwas off-topic, aber ich frage mich, ob wir inzwischen wieder bei der ChatGPT-4-Performance aus der Zeit sind, als die Leute sie magisch fanden.
Ich meine den Stand, bevor die Leistung stark nachließ, als es politisch korrekter gemacht wurde.
Ich habe mehrere LLMs auf dem MacBook getestet, und meiner Ansicht nach liegen sie noch immer weit hinter GPT-4 zu jedem Zeitpunkt zurück.
Es gibt allerdings viele Modelle auf GPT-3-Niveau und einige, die für bestimmte Aufgaben feinabgestimmt sind.
Was bei offenen Modellen deutlich fehlt, ist Sprachunterstützung.
Ich habe nur ein einziges Modell gesehen, das auf Norwegisch brauchbare Ergebnisse liefert, und bei GPT-4 war das nie ein Problem.
Gemessen an offenen Modellen haben wir meines Erachtens mindestens die Leistung des frühen ChatGPT-4-Releases erreicht.
Ist das ein Wettbewerb, bei dem alle noch ihr bestes kleines Modell herausbringen wollen, bevor Llama 3 erscheint?
262 GB kann man nicht wirklich klein nennen.
Trotzdem wirkt es so, als würden alle jetzt veröffentlichen, weil es später peinlich werden könnte, falls die Ergebnisse schlechter ausfallen als bei Llama 3.
Angesichts der Gerüchte, dass Llama 3 in den nächsten zwei Wochen kommt, klingt das ziemlich plausibel.
Mixtral 8x7B war angenehm zu nutzen, und ich freue mich darauf, auch dieses Modell auszuprobieren.
Ich wünschte, GPT-4 wäre dort dabei.
Das ist immer noch der Maßstab, den es zu schlagen gilt.
4-Bit-Quantisierung dürfte etwa 85 GB VRAM benötigen, sollte also gut auf vier 24-GB-Consumer-GPUs passen und noch etwas Spielraum für KV-Cache-Optimierung lassen.
Bei 4 Bit kann es weniger sein.
Es gibt nämlich ziemlich viele Parameter, die zwischen den Expertenmodellen geteilt werden.
Wenn man es allerdings nicht mit Batch-Größe 1 betreibt, könnte es schmerzhafter werden als eine Konfiguration mit acht GPUs.
Es ist nahezu sicher, dass innerhalb eines Batches die meisten oder alle Experten aktiviert werden.
Die 2-Bit-Quantisierung von Mixtral 8x7B war selbst auf einer 8-GB-GPU für manche Zwecke nutzbar.
Ich bin gespannt, wie dieses neue Modell auf günstigen GPU-Konfigurationen im Bereich 8–16 GB läuft.
Sehr wichtig: Das ist ein Basismodell, kein Instruction-Modell.
Für Chat nützlich ist ein per Instruction Fine-Tuning angepasstes Modell.
Ich frage mich, wie es sich anfühlt, ein starkes Basismodell direkt zu verwenden.
Vervollständigt es einfach den Prompt-Text, als würde es ihn fortschreiben?
Es kam genau passend zum Zeitpunkt der Veröffentlichung von Llama 3.
Am selben Tag hat Google Gemini Pro einen nahezu vollständig offenen, multimodalen Zugang mit langem Kontext vorgestellt, und OpenAI hat GPT-4-Turbo aktualisiert; das war also ein großer Tag mit einer Flut von News.
1 Kommentare
Meinungen auf Hacker News
Selbst wenn man die Hälfte des Modells in den RAM auslagert, wüsste ich gern, mit welchem Tool man es laden sollte: Ollama, Llama.cpp oder einfach über eine Python-Bibliothek.
Außerdem frage ich mich, wie man es am besten benchmarken kann, um es mit einem anderen Modell zu vergleichen, und ob es dafür sofort nutzbare Tools gibt.
Das Binary läuft auf der Kommandozeile oder startet einen kleinen Webserver.
llamafile bietet einen Build für Mixtral-8x7B-Instruct an, daher könnte dieses Modell vermutlich ebenfalls paketiert werden, wahrscheinlich auch in einem Quantisierungsformat.
Das müsste jemand bestätigen, der das Ökosystem besser kennt, aber ich denke, das neue Modell könnte unverändert mit llamafile laufen.
https://github.com/Mozilla-Ocho/llamafile
In der App ist es sehr einfach, neue Modelle von Hugging Face zu suchen und direkt zu testen.
Man muss diese Seite im Auge behalten und hoffen, dass ein 4-Bit-Modell in die GPU passt.
Vermutlich arbeitet er schon daran.
https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
Das ist der Beitrag mit einem Tweet-Link statt dem Profil:
https://twitter.com/MistralAI/status/1777869263778291896
Ich meine den Stand, bevor die Leistung stark nachließ, als es politisch korrekter gemacht wurde.
Es gibt allerdings viele Modelle auf GPT-3-Niveau und einige, die für bestimmte Aufgaben feinabgestimmt sind.
Was bei offenen Modellen deutlich fehlt, ist Sprachunterstützung.
Ich habe nur ein einziges Modell gesehen, das auf Norwegisch brauchbare Ergebnisse liefert, und bei GPT-4 war das nie ein Problem.
Trotzdem wirkt es so, als würden alle jetzt veröffentlichen, weil es später peinlich werden könnte, falls die Ergebnisse schlechter ausfallen als bei Llama 3.
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
Das ist immer noch der Maßstab, den es zu schlagen gilt.
Es gibt nämlich ziemlich viele Parameter, die zwischen den Expertenmodellen geteilt werden.
Wenn man es allerdings nicht mit Batch-Größe 1 betreibt, könnte es schmerzhafter werden als eine Konfiguration mit acht GPUs.
Es ist nahezu sicher, dass innerhalb eines Batches die meisten oder alle Experten aktiviert werden.
Ich bin gespannt, wie dieses neue Modell auf günstigen GPU-Konfigurationen im Bereich 8–16 GB läuft.
Für Chat nützlich ist ein per Instruction Fine-Tuning angepasstes Modell.
Vervollständigt es einfach den Prompt-Text, als würde es ihn fortschreiben?