2 Punkte von GN⁺ 2025-03-08 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Mit der neuesten llama.cpp Portable Zip lässt sich DeepSeek-R1-671B-Q4_K_M auf einem Xeon mit 1 oder 2 Arc A770 ausführen
  • Dieser Leitfaden erklärt, wie man llama.cpp mit ipex-llm direkt auf Intel-GPUs ausführt

Unterstützte Umgebungen

  • Intel Core Ultra-Prozessoren
  • Intel Core-Prozessoren der 11. bis 14. Generation
  • Intel Arc A-Series-GPUs
  • Intel Arc B-Series-GPUs

Inhaltsverzeichnis

  • Windows-Schnellstart
    • Voraussetzungen
    • Schritt 1: Herunterladen und Entpacken
    • Schritt 2: Laufzeit konfigurieren
    • Schritt 3: GGUF-Modell ausführen
  • Linux-Schnellstart
    • Voraussetzungen
    • Schritt 1: Herunterladen und Entpacken
    • Schritt 2: Laufzeit konfigurieren
    • Schritt 3: GGUF-Modell ausführen
  • (Neu) DeepSeek V3/R1 671B mit FlashMoE ausführen
  • Tipps und Fehlerbehebung
    • Fehler: Anderes sycl-Gerät erkannt
    • Mehrere GPUs verwenden
    • Performance-Umgebung
  • Weitere Details

Windows-Schnellstart

Voraussetzungen

  • GPU-Treiberversion prüfen und bei Bedarf aktualisieren
    • Für Intel Core Ultra-Prozessoren oder Intel Arc B-Series-GPUs wird der neueste Treiber empfohlen
    • Für andere Intel iGPU/dGPU wird Treiberversion 32.0.101.6078 empfohlen

Schritt 1: Herunterladen und Entpacken

  • Windows-Nutzer laden die IPEX-LLM llama.cpp portable zip herunter und entpacken sie in einen Ordner

Schritt 2: Laufzeit konfigurieren

  • „Eingabeaufforderung“ öffnen und mit dem Befehl cd /d PATH\TO\EXTRACTED\FOLDER zum Ordner wechseln
  • Für GPU-Beschleunigung sind einige Umgebungsvariablen erforderlich oder empfohlen
    • set SYCL_CACHE_PERSISTENT=1 setzen
  • Nutzer mit mehreren GPUs finden in den Tipps, wie sich eine bestimmte GPU auswählen lässt

Schritt 3: GGUF-Modell ausführen

  • Ein Community-GGUF-Modell in ein lokales Verzeichnis herunterladen oder dorthin kopieren
  • Nach dem Festlegen des Modellpfads mit dem Befehl llama-cli.exe ausführen

Linux-Schnellstart

Voraussetzungen

  • GPU-Treiberversion prüfen und bei Bedarf aktualisieren
  • Es wird empfohlen, den Treiber gemäß dem Installationsleitfaden für Intel-Client-GPU-Treiber zu installieren

Schritt 1: Herunterladen und Entpacken

  • Linux-Nutzer laden die IPEX-LLM llama.cpp portable tgz herunter und entpacken sie in einen Ordner

Schritt 2: Laufzeit konfigurieren

  • „Terminal“ öffnen und mit dem Befehl cd /PATH/TO/EXTRACTED/FOLDER zum Ordner wechseln
  • Für GPU-Beschleunigung sind einige Umgebungsvariablen erforderlich oder empfohlen
    • export SYCL_CACHE_PERSISTENT=1 setzen
  • Nutzer mit mehreren GPUs finden in den Tipps, wie sich eine bestimmte GPU auswählen lässt

Schritt 3: GGUF-Modell ausführen

  • Ein Community-GGUF-Modell in ein lokales Verzeichnis herunterladen oder dorthin kopieren
  • Nach dem Festlegen des Modellpfads mit dem Befehl ./llama-cli ausführen

FlashMoE für DeepSeek V3/R1

  • FlashMoE ist ein auf llama.cpp basierendes Kommandozeilen-Tool, das für MoE-Modelle optimiert ist
  • Auf Linux-Plattformen verfügbar
  • Getestete MoE-GGUF-Modelle: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K usw.

Tipps und Fehlerbehebung

Fehler: Anderes sycl-Gerät erkannt

  • Wenn unterschiedliche sycl-Geräte erkannt werden, wird die Leistung auf das langsamste Gerät begrenzt
  • Mit SYCL_DEVICE_CHECK=0 lässt sich diese Prüfung deaktivieren, sodass alle Geräte verwendet werden können

Mehrere GPUs verwenden

  • Wenn mehrere Intel-GPUs vorhanden sind, wird standardmäßig auf allen GPUs ausgeführt
  • Um eine bestimmte GPU zu verwenden, die Umgebungsvariable ONEAPI_DEVICE_SELECTOR setzen

Performance-Umgebung

  • Mit SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS kann die Leistung verbessert werden
  • Dieser Modus kann die Leistung steigern, es können jedoch Ausnahmen auftreten

Dieser Leitfaden zeigt, wie sich llama.cpp effizient auf Intel-GPUs ausführen lässt, einschließlich verschiedener Einstellungen und Optimierungsmethoden.

Noch keine Kommentare.

Noch keine Kommentare.