- Eine mit OpenAI kompatible REST-API zur Nutzung verschiedener LLMs
- Funktioniert auch ohne GPU. Bei mit
llama.cpp kompatiblen LLMs wird GPU-Beschleunigung unterstützt
- Unterstützt mehrere Modelle sowie Audio-Transkription, Textgenerierung und Bildgenerierung (Stable Diffusion)
- Nach einmaligem Laden werden Modelle im Speicher gehalten und ermöglichen schnelle Inferenz
- Unterstützt alle
ggml-kompatiblen Modelle: llama, gpt4all, rwkv, whisper, vicuna, koala, gpt4all-j, cerebras, falcon, dolly, starcoder,..
Noch keine Kommentare.