Anleitung zum lokalen Ausführen von Llama 2

(replicate.com)

5 Punkte von GN⁺ 2023-07-26 | 2 Kommentare | Auf WhatsApp teilen

Sie können Llama 2 auf Ihrem eigenen Gerät ohne Internetverbindung ausführen.
Es gibt drei Open-Source-Tools, mit denen Sie Llama 2 lokal ausführen können: Llama.cpp, Ollama und MLC LLM.
Llama.cpp ist eine in C/C++ geschriebene Portierung von Llama, die Mac, Windows und Linux unterstützt.
Ollama ist eine macOS-App, mit der Sie Llama 2 über eine Kommandozeilenschnittstelle ausführen können.
Mit MLC LLM können Sie Llama 2 auf Mobiltelefonen ausführen, einschließlich iOS und Android.
Ollama empfiehlt mindestens 8 GB RAM für das 3B-Modell, 16 GB für das 7B-Modell und 32 GB für das 13B-Modell.
MLC LLM unterstützt die 7B-, 13B- und 70B-Versionen von Llama 2, befindet sich für iPhone-Nutzer jedoch noch in der Beta-Phase.
In der Discord-Community können Sie Ihre Kreationen teilen und Unterstützung erhalten.
Replicate bietet Optionen, um Llama 2 in der Cloud auszuführen und fein abzustimmen.

2 Kommentare

haebom 2023-07-28

Ich lasse es auf einem Mac Studio M2 laufen, und es funktioniert gut.

GN⁺ 2023-07-26

Ein Nutzer stellt eine Anleitung zum Build von Llama 2 unter Windows bereit, einschließlich der Installation des CUDA-Toolkits und des Downloads des Modells.
Es wird eine PowerShell-Funktion geteilt, mit der sich Llama 2 einfacher ausführen lässt.
Erwähnt wird ein Live-Coding-Stream zur Feinabstimmung von Llama 2 auf einer Google-Colab-A100-GPU mit PEFT/Lora.
Ein Kommentator schlägt Hugging-Face-Inferenz vor, um die GPU auf einer Linux-Maschine zu nutzen.
Geteilt wird ein Fork des ursprünglichen Llama-2-Codes, der auf CPU oder MPS (M1/M2 GPU) ausgeführt werden kann.
GPT4All wird empfohlen, um Llama 2 unter MacOS oder Windows einfach zu nutzen.
Es wird davor gewarnt, Skripte von einer Website direkt in bash zu pipen.
Ein Kommentator diskutiert das Potenzial von Llama 2, Bilder zu interpretieren und zu verwenden.
Es werden Zweifel am Zweck geäußert, Llama 2 über die Forschung hinaus einzusetzen.
Die Grenzen von LLM-Modellen werden erwähnt, darunter die Weigerung, ein JSON-Objekt zum Film „Matrix“ zu erzeugen.