Llama.cpp-Leitfaden – Wie man LLMs von Grund auf lokal auf jeder Hardware ausführt

(steelph0enix.github.io)

2 Punkte von GN⁺ 2024-11-30 | 1 Kommentare | Auf WhatsApp teilen

1 Kommentare

GN⁺ 2024-11-30

Hacker-News-Kommentare

Mehr Blogbeiträge sind positiv, aber die Art, llama.cpp zu bauen, wirkt kompliziert
- Mit dem Befehl ccmake . lassen sich hardwaregerechte Parameter setzen und der Build durchführen
Jemand berichtet von einem erfolgreichen Einsatz von llama.cpp auf einem alten Dell-Laptop
- Es lief auch mit den Mindestanforderungen und lieferte zwar langsame, aber genaue Antworten
- Auf besserer Hardware würde man gern größere Modelle ausprobieren
Es bestand der Wunsch, llama.cpp zu installieren, letztlich wurde aber kobold.cpp wegen der besseren UX installiert
Erfahrung mit Build-Versuchen unter Windows und auf AMD
- Vulkan und MSYS2 funktionieren am einfachsten
Frage zu den Einschränkungen der von llama.cpp unterstützten LLMs
- Ob nur bestimmte Transformer-Modelle unterstützt werden, ist unklar
Jemand berichtet vom Wechsel zu Ollama
- Die Server- und Client-Einrichtung von Ollama funktioniert unkompliziert
Es wird betont, dass Ollama nicht nur ein einfacher Wrapper für llama.cpp ist
- Ollama bietet verschiedene Funktionen für Modellschnittstellen und Packaging
Frage, warum man llama.cpp statt des Web-Interfaces von ChatGPT verwenden würde
- Ob Datenschutz der Hauptgrund ist
Obwohl ChatGPT und Claude täglich genutzt werden, sieht man keinen klaren Grund, LLMs außerhalb anderer Dienste zu verwenden
Diskussion über Ollama und das direkte Ausführen von llama.cpp
- Die CUDA-Einrichtung ist nicht immer einfach, und lokale Inferenz kann schneller sein
- PyTorch auszuführen ist einfacher, und AWQ-Modelle lassen sich unkompliziert installieren

Llama.cpp-Leitfaden – Wie man LLMs von Grund auf lokal auf jeder Hardware ausführt

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare