LLMs lokal ausführen
(abishekmuthian.com)- Im Subreddit r/LocalLLaMA und im Ollama-Blog gibt es nützliche Informationen für den Einstieg in das lokale Ausführen von LLMs
Hardware-Konfiguration
- Verwendet wird ein Linux-basierter Laptop mit Core i9-CPU (32 Threads), 4090-GPU (16GB VRAM) und 96GB RAM
- Modelle, die in den VRAM passen, laufen schnell; größere Modelle werden in den RAM ausgelagert und können dadurch langsamer werden
- Ein Hochleistungsrechner ist nicht erforderlich; kleine Modelle können auch auf älteren GPUs oder CPUs laufen
Verwendete Tools
- Ollama: Middleware zum Ausführen von Llama.cpp, einschließlich Python- und JavaScript-Bibliotheken, wird in Docker verwendet
- Open WebUI: Bietet eine benutzerfreundliche Oberfläche für Text- und Bildeingaben
- llamafile: Ermöglicht das Ausführen von LLMs als einzelne ausführbare Datei
- AUTOMATIC1111 und Fooocus: Tools zur Bildgenerierung; für komplexe Workflows wird ComfyUI verwendet
- Continue: Unterstützt Code-Autovervollständigung in VSCode
- Obsidian Smart Connections: Bietet die Möglichkeit, Notizen mit Ollama abzufragen
Modellauswahl
- Die neuesten LLMs werden über die Ollama-Modellseite heruntergeladen
- Modell-Updates werden per RSS verfolgt
- Modelle zur Bildgenerierung werden von CivitAI heruntergeladen (Achtung: Einige Modelle sind für die Erzeugung von Erwachsenenbildern optimiert)
- Hauptsächlich verwendete Modelle:
- Llama3.2: Für allgemeine Anfragen und Smart Connections
- Deepseek-coder-v2: Für Code-Vervollständigung in VSCode
- Qwen2.5-coder: Für codebezogene Gespräche
- Stable Diffusion: Für Bildgenerierung
Updates
- Docker-Container werden mit WatchTower aktualisiert
- Modelle werden über Open Web UI aktualisiert
Fine-Tuning und Quantisierung
- Derzeit wird weder Fine-Tuning noch Quantisierung durchgeführt (um aufgrund möglicher CPU-Defekte lang andauernde Arbeiten bei hohen Temperaturen zu vermeiden)
Fazit
- Das lokale Ausführen von LLMs bietet vollständige Kontrolle über die Daten und geringe Antwortlatenz
- Dank Open-Source-Projekten und kostenloser Modelle ist dies möglich
- Der Inhalt wird aktualisiert, wenn neue Tools oder Modelle verwendet werden
Noch keine Kommentare.