- Eine Inferenzbibliothek, die dafür entwickelt wurde, lokale LLMs auf GPUs wie der 3090/4090 auszuführen
- Frühes Release; der Code befindet sich noch in der Testphase, und einige wichtige Funktionen sind noch nicht implementiert
- Im Vergleich zu V1 bietet ExLlamaV2 schnellere und bessere Kernel, eine sauberere und vielseitigere Codebasis sowie Unterstützung für neue Quantisierungsformate
- Verwendet für CUDA-Funktionen eine Torch-C++-Erweiterung, die zur Laufzeit kompiliert wird. Bei der ersten Nutzung der Bibliothek dauert das 10–20 Sekunden, danach wird die Erweiterung für spätere Nutzung zwischengespeichert
- Unterstützt wie V1 dieselben 4-Bit-GPTQ-Modelle, außerdem aber auch das neue Format "EXL2", das durch gemischte Quantisierungsstufen innerhalb eines Modells eine durchschnittliche Bitrate zwischen 2 und 8 Bit erreichen kann
- Die Auswahl der Parameter für die Quantisierung erfolgt automatisch, und es werden Skripte zum Quantisieren von Modellen bereitgestellt
- Es wird außerdem erwähnt, dass einige EXL2-quantisierte Modelle auf HuggingFace hochgeladen wurden, damit Nutzer damit experimentieren können
- Zu den künftigen Plänen gehören ein PyPi-Paket mit vorgefertigten Erweiterungen, LoRA-Unterstützung, eine Beispiel-Web-UI, ein Webserver und weitere Sampler
1 Kommentare
Hacker-News-Kommentare