ExLlamaV2: Eine schnelle Inferenzbibliothek zum Ausführen lokaler LLMs auf gewöhnlichen GPUs

Eine Inferenzbibliothek, die dafür entwickelt wurde, lokale LLMs auf GPUs wie der 3090/4090 auszuführen
Frühes Release; der Code befindet sich noch in der Testphase, und einige wichtige Funktionen sind noch nicht implementiert
Im Vergleich zu V1 bietet ExLlamaV2 schnellere und bessere Kernel, eine sauberere und vielseitigere Codebasis sowie Unterstützung für neue Quantisierungsformate
Verwendet für CUDA-Funktionen eine Torch-C++-Erweiterung, die zur Laufzeit kompiliert wird. Bei der ersten Nutzung der Bibliothek dauert das 10–20 Sekunden, danach wird die Erweiterung für spätere Nutzung zwischengespeichert
Unterstützt wie V1 dieselben 4-Bit-GPTQ-Modelle, außerdem aber auch das neue Format "EXL2", das durch gemischte Quantisierungsstufen innerhalb eines Modells eine durchschnittliche Bitrate zwischen 2 und 8 Bit erreichen kann
Die Auswahl der Parameter für die Quantisierung erfolgt automatisch, und es werden Skripte zum Quantisieren von Modellen bereitgestellt
Es wird außerdem erwähnt, dass einige EXL2-quantisierte Modelle auf HuggingFace hochgeladen wurden, damit Nutzer damit experimentieren können
Zu den künftigen Plänen gehören ein PyPi-Paket mit vorgefertigten Erweiterungen, LoRA-Unterstützung, eine Beispiel-Web-UI, ein Webserver und weitere Sampler

1 Kommentare

GN⁺ 2023-09-14

Hacker-News-Kommentare

Der Artikel behandelt Exllamav2, eine neue Inferenzbibliothek, die es ermöglicht, Sprachmodelle (LLMs) auf Consumer-GPUs auszuführen.
Dies könnte die erste Phase sein, in der große LLMs auf Consumer-GPUs mit konkurrenzfähiger Geschwindigkeit laufen und möglicherweise GPT-3.5-turbo oder GPT-4 übertreffen.
Die Bibliothek verwendet eine einzigartige Methode zur Quantisierung verschiedener Schichten oder Module, um die Perplexität bei der Anpassung der Parameter zu minimieren.
Es besteht Interesse an Leistungsvergleichen zwischen verschiedenen GPUs wie der 3090 und der 4090 sowie daran, wie sie unterschiedliche Modelle verarbeiten.
Der Artikel erwähnt außerdem die Unterstützung für ROCm in einem frühen Stadium, was Neugier darüber weckt, wie sich RTX4090/3090 im Vergleich zur 7900-Serie schlagen werden.
Die Leser interessieren sich für Geschwindigkeitsvergleiche und dafür, wie große Modelle auf High-End-Hardware wie Top-Nvidia-Karten laufen.
Es gibt Fragen zur Leistung von Modellen, die mehrere Karten benötigen, um im Speicher ausgeführt zu werden.
Der Artikel hat im Subreddit "Local LLaMA" eine Diskussion über das Release ausgelöst.
Die Leser fragen sich, wie effektiv es ist, Modelle auf eine einzige Bitbreite zu reduzieren und ob sie dann noch funktionieren oder nur noch Unsinn erzeugen.
Es gibt Fragen zu den Kosten- und Perplexitäts-Benchmarks von ELX2 sowie einige Beschwerden darüber, dass Facebook llama v2 als 70B statt 65B veröffentlicht hat.
Die Leser suchen nach mehr Informationen zu EXL2/GPTQ-Quantisierung, die bei diesem Modell offenbar ein Hauptgrund für die Geschwindigkeitssteigerung ist.
Es werden Vergleiche zwischen "70B Llama 2" und ChatGPT 3.5/4.0 gezogen, verbunden mit Fragen zu ihrer relativen Leistung.

ExLlamaV2: Eine schnelle Inferenzbibliothek zum Ausführen lokaler LLMs auf gewöhnlichen GPUs

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare