3 Punkte von GN⁺ 2023-09-14 | 1 Kommentare | Auf WhatsApp teilen
  • Eine Inferenzbibliothek, die dafür entwickelt wurde, lokale LLMs auf GPUs wie der 3090/4090 auszuführen
  • Frühes Release; der Code befindet sich noch in der Testphase, und einige wichtige Funktionen sind noch nicht implementiert
  • Im Vergleich zu V1 bietet ExLlamaV2 schnellere und bessere Kernel, eine sauberere und vielseitigere Codebasis sowie Unterstützung für neue Quantisierungsformate
  • Verwendet für CUDA-Funktionen eine Torch-C++-Erweiterung, die zur Laufzeit kompiliert wird. Bei der ersten Nutzung der Bibliothek dauert das 10–20 Sekunden, danach wird die Erweiterung für spätere Nutzung zwischengespeichert
  • Unterstützt wie V1 dieselben 4-Bit-GPTQ-Modelle, außerdem aber auch das neue Format "EXL2", das durch gemischte Quantisierungsstufen innerhalb eines Modells eine durchschnittliche Bitrate zwischen 2 und 8 Bit erreichen kann
  • Die Auswahl der Parameter für die Quantisierung erfolgt automatisch, und es werden Skripte zum Quantisieren von Modellen bereitgestellt
  • Es wird außerdem erwähnt, dass einige EXL2-quantisierte Modelle auf HuggingFace hochgeladen wurden, damit Nutzer damit experimentieren können
  • Zu den künftigen Plänen gehören ein PyPi-Paket mit vorgefertigten Erweiterungen, LoRA-Unterstützung, eine Beispiel-Web-UI, ein Webserver und weitere Sampler

1 Kommentare

 
GN⁺ 2023-09-14
Hacker-News-Kommentare
  • Der Artikel behandelt Exllamav2, eine neue Inferenzbibliothek, die es ermöglicht, Sprachmodelle (LLMs) auf Consumer-GPUs auszuführen.
  • Dies könnte die erste Phase sein, in der große LLMs auf Consumer-GPUs mit konkurrenzfähiger Geschwindigkeit laufen und möglicherweise GPT-3.5-turbo oder GPT-4 übertreffen.
  • Die Bibliothek verwendet eine einzigartige Methode zur Quantisierung verschiedener Schichten oder Module, um die Perplexität bei der Anpassung der Parameter zu minimieren.
  • Es besteht Interesse an Leistungsvergleichen zwischen verschiedenen GPUs wie der 3090 und der 4090 sowie daran, wie sie unterschiedliche Modelle verarbeiten.
  • Der Artikel erwähnt außerdem die Unterstützung für ROCm in einem frühen Stadium, was Neugier darüber weckt, wie sich RTX4090/3090 im Vergleich zur 7900-Serie schlagen werden.
  • Die Leser interessieren sich für Geschwindigkeitsvergleiche und dafür, wie große Modelle auf High-End-Hardware wie Top-Nvidia-Karten laufen.
  • Es gibt Fragen zur Leistung von Modellen, die mehrere Karten benötigen, um im Speicher ausgeführt zu werden.
  • Der Artikel hat im Subreddit "Local LLaMA" eine Diskussion über das Release ausgelöst.
  • Die Leser fragen sich, wie effektiv es ist, Modelle auf eine einzige Bitbreite zu reduzieren und ob sie dann noch funktionieren oder nur noch Unsinn erzeugen.
  • Es gibt Fragen zu den Kosten- und Perplexitäts-Benchmarks von ELX2 sowie einige Beschwerden darüber, dass Facebook llama v2 als 70B statt 65B veröffentlicht hat.
  • Die Leser suchen nach mehr Informationen zu EXL2/GPTQ-Quantisierung, die bei diesem Modell offenbar ein Hauptgrund für die Geschwindigkeitssteigerung ist.
  • Es werden Vergleiche zwischen "70B Llama 2" und ChatGPT 3.5/4.0 gezogen, verbunden mit Fragen zu ihrer relativen Leistung.