- Die Modelle 3B/7B wurden veröffentlicht; die Modelle 15B/30B/65B sollen ebenfalls veröffentlicht werden, und Pläne reichen bis 175B
- Die Modelle stehen unter der Lizenz CC BY-SA-4.0 und können bei Quellenangabe kommerziell genutzt werden
- Basierend auf dem Open-Source-Datensatz The Pile, jedoch mit einem neuen Datensatz trainiert, der mit 1,5T Token dreimal so groß ist
- Die Kontextlänge beträgt 4096 Token
- Als PoC wurde auch das StableLM-Tuned-Alpha-7B-Modell veröffentlicht, das nach dem Alpaca-Verfahren feinabgestimmt wurde
- Verwendet 5 dialogorientierte Datensätze: Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, Anthropic's HH
- Eine Chatbot-Demo ist auf Hugging Face verfügbar
2 Kommentare
Gut, gut!
Wie die Veröffentlichung von Stable Diffusion den Markt beschleunigt hat, werden nun wohl auch bei Sprachmodellen öffentlich nutzbare Daten und Anwendungsfälle in großer Zahl auftauchen.