1 Kommentare

 
GN⁺ 2024-11-30
Hacker-News-Kommentare
  • Mehr Blogbeiträge sind positiv, aber die Art, llama.cpp zu bauen, wirkt kompliziert

    • Mit dem Befehl ccmake . lassen sich hardwaregerechte Parameter setzen und der Build durchführen
  • Jemand berichtet von einem erfolgreichen Einsatz von llama.cpp auf einem alten Dell-Laptop

    • Es lief auch mit den Mindestanforderungen und lieferte zwar langsame, aber genaue Antworten
    • Auf besserer Hardware würde man gern größere Modelle ausprobieren
  • Es bestand der Wunsch, llama.cpp zu installieren, letztlich wurde aber kobold.cpp wegen der besseren UX installiert

  • Erfahrung mit Build-Versuchen unter Windows und auf AMD

    • Vulkan und MSYS2 funktionieren am einfachsten
  • Frage zu den Einschränkungen der von llama.cpp unterstützten LLMs

    • Ob nur bestimmte Transformer-Modelle unterstützt werden, ist unklar
  • Jemand berichtet vom Wechsel zu Ollama

    • Die Server- und Client-Einrichtung von Ollama funktioniert unkompliziert
  • Es wird betont, dass Ollama nicht nur ein einfacher Wrapper für llama.cpp ist

    • Ollama bietet verschiedene Funktionen für Modellschnittstellen und Packaging
  • Frage, warum man llama.cpp statt des Web-Interfaces von ChatGPT verwenden würde

    • Ob Datenschutz der Hauptgrund ist
  • Obwohl ChatGPT und Claude täglich genutzt werden, sieht man keinen klaren Grund, LLMs außerhalb anderer Dienste zu verwenden

  • Diskussion über Ollama und das direkte Ausführen von llama.cpp

    • Die CUDA-Einrichtung ist nicht immer einfach, und lokale Inferenz kann schneller sein
    • PyTorch auszuführen ist einfacher, und AWQ-Modelle lassen sich unkompliziert installieren