- Open-Source-Bibliothek für schnelle LLM-Inferenz und -Serving
- Effiziente Verwaltung von Attention-Key/Value mit dem PagedAttention-Algorithmus
- 24-mal höherer Durchsatz als HuggingFace Transformers ohne Änderungen an der Modellarchitektur
- Zusammenhängende Key/Value-Werte können in nicht zusammenhängendem Speicher abgelegt werden
- Bereits erfolgreich bei LMSYS Vicuna und in der Chatbot Arena im Einsatz
Noch keine Kommentare.