- Führt mit vLLM und einem selbst entwickelten autoskalierenden GPU-Scheduler fast alle Open-Source-LLMs aus
- darunter Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 usw.
- Funktioniert ohne besondere Konfiguration: Einfach einen Link zum Hugging-Face-Repository einfügen; unterstützt alle Full-Weight- und 4-Bit-AWQ-Repos
- Nutzung von bis zu 8 Nvidia A100 80Gb GPUs möglich
- Während der Beta kostenlos. Auch nach dem Ende der Beta soll es dank Multi-Tenancy günstiger sein als die GPU-Preise großer Cloud-Anbieter
2 Kommentare
Ich habe mich gefragt, wie man llama 405b mal ausprobieren kann, aber es ist schnell und die Qualität ist auch gut.
vLLM: Einfaches, schnelles und günstiges LLM-Serving mit PagedAttention