1 Punkte von GN⁺ 2024-04-05 | 1 Kommentare | Auf WhatsApp teilen

💫 IPEX-LLM

  • IPEX-LLM ist eine PyTorch-Bibliothek zum Ausführen von LLMs auf Intel-CPUs und -GPUs mit sehr geringer Latenz.
  • Sie basiert auf hervorragenden Arbeiten wie der Intel PyTorch Extension (IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ und weiteren.
  • Sie bietet eine nahtlose Integration mit llama.cpp, Text-Generation-WebUI, HuggingFace transformers und mehr.
  • In ipex-llm gibt es mehr als 50 optimierte/verifizierte Modelle; die vollständige Liste kann dort eingesehen werden.

Neueste Updates 🔥

  • bigdl-llm wurde in ipex-llm umbenannt; das ursprüngliche BigDL-Projekt ist dort zu finden.
  • ipex-llm kann jetzt Modelle direkt aus ModelScope(魔搭) laden.
  • ipex-llm hat Unterstützung für INT2 hinzugefügt, sodass große LLMs auf Intel-GPUs (z. B. Mixtral-8x7B) mit 16 GB VRAM ausgeführt werden können.
  • Nutzer können ipex-llm jetzt über die GUI von Text-Generation-WebUI verwenden.
  • ipex-llm unterstützt jetzt Self-Speculative Decoding und beschleunigt damit die FP16- bzw. BF16-Inferenzlatenz auf Intel-GPUs und -CPUs jeweils um etwa 30 %.
  • ipex-llm unterstützt jetzt eine umfassende Liste für das Fine-Tuning von LLMs auf Intel-GPUs.

ipex-llm-Demo

  • Unten ist die optimierte Leistung der Modelle chatglm2-6b und llama-2-13b-chat auf Intel Core CPUs der 12. Generation und Intel Arc GPUs zu sehen.

Schnellstart mit ipex-llm

Installation von ipex-llm

  • Windows GPU: ipex-llm unter Windows mit Intel-GPU installieren
  • Linux GPU: ipex-llm unter Linux mit Intel-GPU installieren
  • Docker: ipex-llm-Docker auf Intel-CPUs und -GPUs verwenden
  • Weitere Details finden sich im Installationsleitfaden

Ausführen von ipex-llm

  • llama.cpp: ipex-llm für llama.cpp auf Intel-GPUs ausführen
  • vLLM: ipex-llm in vLLM auf Intel-GPUs und -CPUs ausführen
  • FastChat: ipex-llm im FastChat-Serving auf Intel-GPUs und -CPUs ausführen
  • LangChain-Chatchat RAG: ipex-llm in LangChain-Chatchat ausführen
  • Text-Generation-WebUI: ipex-llm in oobabooga WebUI ausführen
  • Benchmarking: Benchmarking von ipex-llm auf Intel-CPUs und -GPUs ausführen

Codebeispiele

  • Low-Bit-Inferenz
    • INT4-Inferenz: INT4-LLM-Inferenz auf Intel-GPUs und -CPUs
    • FP8/FP4-Inferenz: FP8- und FP4-LLM-Inferenz auf Intel-GPUs
    • INT8-Inferenz: INT8-LLM-Inferenz auf Intel-GPUs und -CPUs
    • INT2-Inferenz: INT2-LLM-Inferenz auf Intel-GPUs
  • FP16/BF16-Inferenz
    • FP16-LLM-Inferenz: mit möglicher Self-Speculative-Decoding-Optimierung auf Intel-GPUs
    • BF16-LLM-Inferenz: mit möglicher Self-Speculative-Decoding-Optimierung auf Intel-CPUs
  • Speichern und Laden
    • Low-Bit-Modelle: Low-Bit-Modelle von ipex-llm speichern und laden
    • GGUF: GGUF-Modelle direkt in ipex-llm laden
    • AWQ: AWQ-Modelle direkt in ipex-llm laden
    • GPTQ: GPTQ-Modelle direkt in ipex-llm laden
  • Fine-Tuning
    • LLM-Fine-Tuning auf Intel-GPUs, einschließlich LoRA, QLoRA, DPO, QA-LoRA und ReLoRA
    • QLoRA-Fine-Tuning auf Intel-CPUs
  • Integration mit Community-Bibliotheken
    • HuggingFace transformers
    • Standard-PyTorch-Modelle
    • DeepSpeed-AutoTP
    • HuggingFace PEFT
    • HuggingFace TRL
    • LangChain
    • LlamaIndex
    • AutoGen
    • ModeScope
  • Tutorials
    • Weitere Details finden sich auf der ipex-llm-Dokumentationswebsite

Verifizierte Modelle

  • Zu den mehr als 50 in ipex-llm optimierten/verifizierten Modellen gehören LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper und weitere; die Liste ist unten zu finden.

Meinung von GN⁺

  • IPEX-LLM ist ein leistungsstarkes Werkzeug, um große Sprachmodelle für die Ausführung auf Intel-Hardware zu optimieren, und kann bei Forschung und Entwicklung im Bereich KI sehr hilfreich sein.
  • Die Bibliothek ist mit verschiedenen Modellen integriert, was den Vorteil bietet, dass Nutzer leicht darauf zugreifen und sie einsetzen können.
  • Da sie jedoch auf Intel-Hardware spezialisiert ist, kann eine optimale Leistung auf Hardware anderer Hersteller nicht garantiert werden.
  • Bei der Einführung dieser Technik ist ein ausreichendes Verständnis von Hardware-Kompatibilität und Performance-Tuning erforderlich.
  • Da Inferenz und Fine-Tuning großer Sprachmodelle schnell durchgeführt werden können, kann sie dazu beitragen, Zeit und Ressourcen zu sparen.

1 Kommentare

 
GN⁺ 2024-04-05
Hacker-News-Kommentare
  • Erwartung einer VRAM-Revolution bei GPUs

    Ein Unternehmen hat die Chance, sich von „4 Kerne für immer“ zu lösen und mit der nächsten Consumer-GPU-Generation die langjährige Beschränkung von AMD und Nvidia auf „8–16 GB VRAM für immer“ zu durchbrechen. 32–48 GB VRAM zu einem vernünftigen Preis anzubieten, wäre poetisch.

  • Positive Bewertung von Intels Software-Support

    Intel bewegt sich beim Software-Support in die richtige Richtung. Ich würde gern Benchmark-Daten sehen, und die Geschwindigkeit in den gezeigten Beispielen sieht ziemlich gut aus.

  • Bitte um Empfehlungen für Intel-GPUs

    Ich brauche Empfehlungen für Intel-GPUs mit viel VRAM. Ich frage mich, ob es ein kompatibles Produkt gibt.

  • Interesse an Performance-Benchmarks

    Ich interessiere mich für einen Leistungsvergleich mit llamafile oder anderen Benchmarks. Ein Link zu diesem Benchmark wurde bereitgestellt.

  • Vorschlag zur einfacheren Nutzung von Cloud-GPUs

    Es wäre gut, ein Skript bereitzustellen, mit dem sich die Beispiele bei einem Cloud-Anbieter mit kompatiblen GPUs ausführen lassen. Ich frage mich, ob daran Interesse besteht; ich erwäge, die Konfiguration selbst vorzunehmen.

  • Fehlende Intel-GPUs bei Cloud-Anbietern

    Große Cloud-Anbieter bieten keine Intel-GPUs an.

  • Ausdruck der Erwartung an Produkt-Reviews

    Ich freue mich auf Reviews und bin an Bewertungen künftiger Produkte interessiert.