MosaicML veröffentlicht das Modell MPT-7B-8K
(mosaicml.com)- Open-Source-LLM mit 7B Parametern und Unterstützung für eine Kontextlänge von 8k
- Zusätzlich zu MPT-7B mit 500B Token an Daten 3 Tage lang auf 256 NVidia H100 trainiert
- Drei Modelle veröffentlicht: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
- Für kommerzielle Nutzung einsetzbar
- Unterstützt 8k Eingabe mit ALiBi (Attention with Linear Biases Enables Input Length Extrapolation)
- Schnelles Training und Inferenz mit FlashAttention und FasterTrasformer
Noch keine Kommentare.