vLLM: Einfaches, schnelles und kostengünstiges LLM-Serving mit PagedAttention

xguru · 2023-06-23T10:32:02+09:00

Open-Source-Bibliothek für schnelle LLM-Inferenz und -Serving Effiziente Verwaltung von Attention-Key/Value mit dem PagedAttention-Algorithmus 24-mal höherer Durchsatz als HuggingFace Transformers ohne Änderungen an der Modellarchitektur Zusammenhängende Key/Value-Werte können in nicht zusammenhängendem Speicher abgelegt werden Bereits erfolgreich bei LMSYS Vicuna und in der Chatbot Arena im Einsatz

(vllm.ai)

8 Punkte von xguru 2023-06-23 | Noch keine Kommentare. | Auf WhatsApp teilen

Open-Source-Bibliothek für schnelle LLM-Inferenz und -Serving
Effiziente Verwaltung von Attention-Key/Value mit dem PagedAttention-Algorithmus
- 24-mal höherer Durchsatz als HuggingFace Transformers ohne Änderungen an der Modellarchitektur
- Zusammenhängende Key/Value-Werte können in nicht zusammenhängendem Speicher abgelegt werden
Bereits erfolgreich bei LMSYS Vicuna und in der Chatbot Arena im Einsatz

vLLM: Einfaches, schnelles und kostengünstiges LLM-Serving mit PagedAttention

Verwandte Beiträge

Noch keine Kommentare.