LLMs lokal ausführen

(abishekmuthian.com)

27 Punkte von GN⁺ 2024-12-30 | Noch keine Kommentare. | Auf WhatsApp teilen

Im Subreddit r/LocalLLaMA und im Ollama-Blog gibt es nützliche Informationen für den Einstieg in das lokale Ausführen von LLMs

Hardware-Konfiguration

Verwendet wird ein Linux-basierter Laptop mit Core i9-CPU (32 Threads), 4090-GPU (16GB VRAM) und 96GB RAM
Modelle, die in den VRAM passen, laufen schnell; größere Modelle werden in den RAM ausgelagert und können dadurch langsamer werden
Ein Hochleistungsrechner ist nicht erforderlich; kleine Modelle können auch auf älteren GPUs oder CPUs laufen

Ollama: Middleware zum Ausführen von Llama.cpp, einschließlich Python- und JavaScript-Bibliotheken, wird in Docker verwendet
Open WebUI: Bietet eine benutzerfreundliche Oberfläche für Text- und Bildeingaben
llamafile: Ermöglicht das Ausführen von LLMs als einzelne ausführbare Datei
AUTOMATIC1111 und Fooocus: Tools zur Bildgenerierung; für komplexe Workflows wird ComfyUI verwendet
Continue: Unterstützt Code-Autovervollständigung in VSCode
Obsidian Smart Connections: Bietet die Möglichkeit, Notizen mit Ollama abzufragen

Die neuesten LLMs werden über die Ollama-Modellseite heruntergeladen
Modell-Updates werden per RSS verfolgt
Modelle zur Bildgenerierung werden von CivitAI heruntergeladen (Achtung: Einige Modelle sind für die Erzeugung von Erwachsenenbildern optimiert)
Hauptsächlich verwendete Modelle:
- Llama3.2: Für allgemeine Anfragen und Smart Connections
- Deepseek-coder-v2: Für Code-Vervollständigung in VSCode
- Qwen2.5-coder: Für codebezogene Gespräche
- Stable Diffusion: Für Bildgenerierung

Derzeit wird weder Fine-Tuning noch Quantisierung durchgeführt (um aufgrund möglicher CPU-Defekte lang andauernde Arbeiten bei hohen Temperaturen zu vermeiden)

Das lokale Ausführen von LLMs bietet vollständige Kontrolle über die Daten und geringe Antwortlatenz
Dank Open-Source-Projekten und kostenloser Modelle ist dies möglich
Der Inhalt wird aktualisiert, wenn neue Tools oder Modelle verwendet werden