glhf – (fast) alle Sprachmodelle ausführen

xguru · 2024-07-29T10:06:01+09:00

Führt mit vLLM und einem selbst entwickelten autoskalierenden GPU-Scheduler fast alle Open-Source-LLMs aus darunter Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 usw. Funktioniert ohne besondere Konfiguration: Einfach einen Link zum Hugging-Face-Repository einfügen; unterstützt alle Full-Weight- und 4-Bit-AWQ-Repos Nutzung von bis zu 8 Nvidia A100 80Gb GPUs möglich Während der Beta kostenlos. Auch nach dem Ende der Beta soll es dank Multi-Tenancy günstiger sein als die GPU-Preise großer Cloud-Anbieter

(glhf.chat)

5 Punkte von xguru 2024-07-29 | 2 Kommentare | Auf WhatsApp teilen

Führt mit vLLM und einem selbst entwickelten autoskalierenden GPU-Scheduler fast alle Open-Source-LLMs aus
- darunter Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3 usw.
Funktioniert ohne besondere Konfiguration: Einfach einen Link zum Hugging-Face-Repository einfügen; unterstützt alle Full-Weight- und 4-Bit-AWQ-Repos
Nutzung von bis zu 8 Nvidia A100 80Gb GPUs möglich
Während der Beta kostenlos. Auch nach dem Ende der Beta soll es dank Multi-Tenancy günstiger sein als die GPU-Preise großer Cloud-Anbieter

2 Kommentare

wedding 2024-07-30

Ich habe mich gefragt, wie man llama 405b mal ausprobieren kann, aber es ist schnell und die Qualität ist auch gut.

xguru 2024-07-29

vLLM: Einfaches, schnelles und günstiges LLM-Serving mit PagedAttention

glhf – (fast) alle Sprachmodelle ausführen

Verwandte Beiträge

2 Kommentare