- Das bislang leistungsstärkste Sprachmodell
- Ein Modell mit 7,3B Parametern, das in allen Benchmarks Llama 2 13B und in vielen Benchmarks Llama 1 34B übertrifft
- Verwendet Grouped-query attention (GQA) für schnellere Inferenz und Sliding Window Attention (SWA), um längere Sequenzen zu geringeren Kosten zu verarbeiten
- Unter der Apache-2.0-Lizenz verfügbar und ohne Einschränkungen nutzbar
- Kann auf jeder Cloud (AWS/GCP/Azure) mit dem vLLM-Inferenzserver und skypilot bereitgestellt werden und ist auch auf HuggingFace verfügbar
- Lässt sich einfach feinabstimmen, und das für Chat feinabgestimmte Modell übertrifft Llama 2 13B Chat
1 Kommentare
Hacker-News-Kommentare