💫 IPEX-LLM
IPEX-LLM ist eine PyTorch-Bibliothek zum Ausführen von LLMs auf Intel-CPUs und -GPUs mit sehr geringer Latenz.
- Sie basiert auf hervorragenden Arbeiten wie der Intel PyTorch Extension (
IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ und weiteren.
- Sie bietet eine nahtlose Integration mit
llama.cpp, Text-Generation-WebUI, HuggingFace transformers und mehr.
- In
ipex-llm gibt es mehr als 50 optimierte/verifizierte Modelle; die vollständige Liste kann dort eingesehen werden.
Neueste Updates 🔥
bigdl-llm wurde in ipex-llm umbenannt; das ursprüngliche BigDL-Projekt ist dort zu finden.
ipex-llm kann jetzt Modelle direkt aus ModelScope(魔搭) laden.
ipex-llm hat Unterstützung für INT2 hinzugefügt, sodass große LLMs auf Intel-GPUs (z. B. Mixtral-8x7B) mit 16 GB VRAM ausgeführt werden können.
- Nutzer können
ipex-llm jetzt über die GUI von Text-Generation-WebUI verwenden.
ipex-llm unterstützt jetzt Self-Speculative Decoding und beschleunigt damit die FP16- bzw. BF16-Inferenzlatenz auf Intel-GPUs und -CPUs jeweils um etwa 30 %.
ipex-llm unterstützt jetzt eine umfassende Liste für das Fine-Tuning von LLMs auf Intel-GPUs.
ipex-llm-Demo
- Unten ist die optimierte Leistung der Modelle
chatglm2-6b und llama-2-13b-chat auf Intel Core CPUs der 12. Generation und Intel Arc GPUs zu sehen.
Schnellstart mit ipex-llm
Installation von ipex-llm
- Windows GPU:
ipex-llm unter Windows mit Intel-GPU installieren
- Linux GPU:
ipex-llm unter Linux mit Intel-GPU installieren
- Docker:
ipex-llm-Docker auf Intel-CPUs und -GPUs verwenden
- Weitere Details finden sich im Installationsleitfaden
Ausführen von ipex-llm
- llama.cpp:
ipex-llm für llama.cpp auf Intel-GPUs ausführen
- vLLM:
ipex-llm in vLLM auf Intel-GPUs und -CPUs ausführen
- FastChat:
ipex-llm im FastChat-Serving auf Intel-GPUs und -CPUs ausführen
- LangChain-Chatchat RAG:
ipex-llm in LangChain-Chatchat ausführen
- Text-Generation-WebUI:
ipex-llm in oobabooga WebUI ausführen
- Benchmarking: Benchmarking von
ipex-llm auf Intel-CPUs und -GPUs ausführen
Codebeispiele
- Low-Bit-Inferenz
- INT4-Inferenz: INT4-LLM-Inferenz auf Intel-GPUs und -CPUs
- FP8/FP4-Inferenz: FP8- und FP4-LLM-Inferenz auf Intel-GPUs
- INT8-Inferenz: INT8-LLM-Inferenz auf Intel-GPUs und -CPUs
- INT2-Inferenz: INT2-LLM-Inferenz auf Intel-GPUs
- FP16/BF16-Inferenz
- FP16-LLM-Inferenz: mit möglicher Self-Speculative-Decoding-Optimierung auf Intel-GPUs
- BF16-LLM-Inferenz: mit möglicher Self-Speculative-Decoding-Optimierung auf Intel-CPUs
- Speichern und Laden
- Low-Bit-Modelle: Low-Bit-Modelle von
ipex-llm speichern und laden
- GGUF: GGUF-Modelle direkt in
ipex-llm laden
- AWQ: AWQ-Modelle direkt in
ipex-llm laden
- GPTQ: GPTQ-Modelle direkt in
ipex-llm laden
- Fine-Tuning
- LLM-Fine-Tuning auf Intel-GPUs, einschließlich LoRA, QLoRA, DPO, QA-LoRA und ReLoRA
- QLoRA-Fine-Tuning auf Intel-CPUs
- Integration mit Community-Bibliotheken
- HuggingFace transformers
- Standard-PyTorch-Modelle
- DeepSpeed-AutoTP
- HuggingFace PEFT
- HuggingFace TRL
- LangChain
- LlamaIndex
- AutoGen
- ModeScope
- Tutorials
- Weitere Details finden sich auf der
ipex-llm-Dokumentationswebsite
Verifizierte Modelle
- Zu den mehr als 50 in
ipex-llm optimierten/verifizierten Modellen gehören LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper und weitere; die Liste ist unten zu finden.
Meinung von GN⁺
IPEX-LLM ist ein leistungsstarkes Werkzeug, um große Sprachmodelle für die Ausführung auf Intel-Hardware zu optimieren, und kann bei Forschung und Entwicklung im Bereich KI sehr hilfreich sein.
- Die Bibliothek ist mit verschiedenen Modellen integriert, was den Vorteil bietet, dass Nutzer leicht darauf zugreifen und sie einsetzen können.
- Da sie jedoch auf Intel-Hardware spezialisiert ist, kann eine optimale Leistung auf Hardware anderer Hersteller nicht garantiert werden.
- Bei der Einführung dieser Technik ist ein ausreichendes Verständnis von Hardware-Kompatibilität und Performance-Tuning erforderlich.
- Da Inferenz und Fine-Tuning großer Sprachmodelle schnell durchgeführt werden können, kann sie dazu beitragen, Zeit und Ressourcen zu sparen.
1 Kommentare
Hacker-News-Kommentare
Erwartung einer VRAM-Revolution bei GPUs
Positive Bewertung von Intels Software-Support
Bitte um Empfehlungen für Intel-GPUs
Interesse an Performance-Benchmarks
Vorschlag zur einfacheren Nutzung von Cloud-GPUs
Fehlende Intel-GPUs bei Cloud-Anbietern
Ausdruck der Erwartung an Produkt-Reviews