DeepSeek-R1-671B-Q4_K_M auf 1/2 Arc A770 Xeon ausführen
(github.com/intel)- Mit der neuesten llama.cpp Portable Zip lässt sich DeepSeek-R1-671B-Q4_K_M auf einem Xeon mit 1 oder 2 Arc A770 ausführen
- Dieser Leitfaden erklärt, wie man llama.cpp mit
ipex-llmdirekt auf Intel-GPUs ausführt
Unterstützte Umgebungen
- Intel Core Ultra-Prozessoren
- Intel Core-Prozessoren der 11. bis 14. Generation
- Intel Arc A-Series-GPUs
- Intel Arc B-Series-GPUs
Inhaltsverzeichnis
- Windows-Schnellstart
- Voraussetzungen
- Schritt 1: Herunterladen und Entpacken
- Schritt 2: Laufzeit konfigurieren
- Schritt 3: GGUF-Modell ausführen
- Linux-Schnellstart
- Voraussetzungen
- Schritt 1: Herunterladen und Entpacken
- Schritt 2: Laufzeit konfigurieren
- Schritt 3: GGUF-Modell ausführen
- (Neu) DeepSeek V3/R1 671B mit FlashMoE ausführen
- Tipps und Fehlerbehebung
- Fehler: Anderes sycl-Gerät erkannt
- Mehrere GPUs verwenden
- Performance-Umgebung
- Weitere Details
Windows-Schnellstart
Voraussetzungen
- GPU-Treiberversion prüfen und bei Bedarf aktualisieren
- Für Intel Core Ultra-Prozessoren oder Intel Arc B-Series-GPUs wird der neueste Treiber empfohlen
- Für andere Intel iGPU/dGPU wird Treiberversion 32.0.101.6078 empfohlen
Schritt 1: Herunterladen und Entpacken
- Windows-Nutzer laden die IPEX-LLM llama.cpp portable zip herunter und entpacken sie in einen Ordner
Schritt 2: Laufzeit konfigurieren
- „Eingabeaufforderung“ öffnen und mit dem Befehl
cd /d PATH\TO\EXTRACTED\FOLDERzum Ordner wechseln - Für GPU-Beschleunigung sind einige Umgebungsvariablen erforderlich oder empfohlen
set SYCL_CACHE_PERSISTENT=1setzen
- Nutzer mit mehreren GPUs finden in den Tipps, wie sich eine bestimmte GPU auswählen lässt
Schritt 3: GGUF-Modell ausführen
- Ein Community-GGUF-Modell in ein lokales Verzeichnis herunterladen oder dorthin kopieren
- Nach dem Festlegen des Modellpfads mit dem Befehl
llama-cli.exeausführen
Linux-Schnellstart
Voraussetzungen
- GPU-Treiberversion prüfen und bei Bedarf aktualisieren
- Es wird empfohlen, den Treiber gemäß dem Installationsleitfaden für Intel-Client-GPU-Treiber zu installieren
Schritt 1: Herunterladen und Entpacken
- Linux-Nutzer laden die IPEX-LLM llama.cpp portable tgz herunter und entpacken sie in einen Ordner
Schritt 2: Laufzeit konfigurieren
- „Terminal“ öffnen und mit dem Befehl
cd /PATH/TO/EXTRACTED/FOLDERzum Ordner wechseln - Für GPU-Beschleunigung sind einige Umgebungsvariablen erforderlich oder empfohlen
export SYCL_CACHE_PERSISTENT=1setzen
- Nutzer mit mehreren GPUs finden in den Tipps, wie sich eine bestimmte GPU auswählen lässt
Schritt 3: GGUF-Modell ausführen
- Ein Community-GGUF-Modell in ein lokales Verzeichnis herunterladen oder dorthin kopieren
- Nach dem Festlegen des Modellpfads mit dem Befehl
./llama-cliausführen
FlashMoE für DeepSeek V3/R1
- FlashMoE ist ein auf llama.cpp basierendes Kommandozeilen-Tool, das für MoE-Modelle optimiert ist
- Auf Linux-Plattformen verfügbar
- Getestete MoE-GGUF-Modelle: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K usw.
Tipps und Fehlerbehebung
Fehler: Anderes sycl-Gerät erkannt
- Wenn unterschiedliche sycl-Geräte erkannt werden, wird die Leistung auf das langsamste Gerät begrenzt
- Mit
SYCL_DEVICE_CHECK=0lässt sich diese Prüfung deaktivieren, sodass alle Geräte verwendet werden können
Mehrere GPUs verwenden
- Wenn mehrere Intel-GPUs vorhanden sind, wird standardmäßig auf allen GPUs ausgeführt
- Um eine bestimmte GPU zu verwenden, die Umgebungsvariable
ONEAPI_DEVICE_SELECTORsetzen
Performance-Umgebung
- Mit
SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTSkann die Leistung verbessert werden - Dieser Modus kann die Leistung steigern, es können jedoch Ausnahmen auftreten
Dieser Leitfaden zeigt, wie sich llama.cpp effizient auf Intel-GPUs ausführen lässt, einschließlich verschiedener Einstellungen und Optimierungsmethoden.
Noch keine Kommentare.