27 Punkte von GN⁺ 2024-12-30 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Im Subreddit r/LocalLLaMA und im Ollama-Blog gibt es nützliche Informationen für den Einstieg in das lokale Ausführen von LLMs

Hardware-Konfiguration

  • Verwendet wird ein Linux-basierter Laptop mit Core i9-CPU (32 Threads), 4090-GPU (16GB VRAM) und 96GB RAM
  • Modelle, die in den VRAM passen, laufen schnell; größere Modelle werden in den RAM ausgelagert und können dadurch langsamer werden
  • Ein Hochleistungsrechner ist nicht erforderlich; kleine Modelle können auch auf älteren GPUs oder CPUs laufen

Verwendete Tools

  • Ollama: Middleware zum Ausführen von Llama.cpp, einschließlich Python- und JavaScript-Bibliotheken, wird in Docker verwendet
  • Open WebUI: Bietet eine benutzerfreundliche Oberfläche für Text- und Bildeingaben
  • llamafile: Ermöglicht das Ausführen von LLMs als einzelne ausführbare Datei
  • AUTOMATIC1111 und Fooocus: Tools zur Bildgenerierung; für komplexe Workflows wird ComfyUI verwendet
  • Continue: Unterstützt Code-Autovervollständigung in VSCode
  • Obsidian Smart Connections: Bietet die Möglichkeit, Notizen mit Ollama abzufragen

Modellauswahl

  • Die neuesten LLMs werden über die Ollama-Modellseite heruntergeladen
  • Modell-Updates werden per RSS verfolgt
  • Modelle zur Bildgenerierung werden von CivitAI heruntergeladen (Achtung: Einige Modelle sind für die Erzeugung von Erwachsenenbildern optimiert)
  • Hauptsächlich verwendete Modelle:
    • Llama3.2: Für allgemeine Anfragen und Smart Connections
    • Deepseek-coder-v2: Für Code-Vervollständigung in VSCode
    • Qwen2.5-coder: Für codebezogene Gespräche
    • Stable Diffusion: Für Bildgenerierung

Updates

  • Docker-Container werden mit WatchTower aktualisiert
  • Modelle werden über Open Web UI aktualisiert

Fine-Tuning und Quantisierung

  • Derzeit wird weder Fine-Tuning noch Quantisierung durchgeführt (um aufgrund möglicher CPU-Defekte lang andauernde Arbeiten bei hohen Temperaturen zu vermeiden)

Fazit

  • Das lokale Ausführen von LLMs bietet vollständige Kontrolle über die Daten und geringe Antwortlatenz
  • Dank Open-Source-Projekten und kostenloser Modelle ist dies möglich
  • Der Inhalt wird aktualisiert, wenn neue Tools oder Modelle verwendet werden

Noch keine Kommentare.

Noch keine Kommentare.