24 Punkte von xguru 2023-04-20 | 2 Kommentare | Auf WhatsApp teilen
  • Die Modelle 3B/7B wurden veröffentlicht; die Modelle 15B/30B/65B sollen ebenfalls veröffentlicht werden, und Pläne reichen bis 175B
  • Die Modelle stehen unter der Lizenz CC BY-SA-4.0 und können bei Quellenangabe kommerziell genutzt werden
  • Basierend auf dem Open-Source-Datensatz The Pile, jedoch mit einem neuen Datensatz trainiert, der mit 1,5T Token dreimal so groß ist
  • Die Kontextlänge beträgt 4096 Token
  • Als PoC wurde auch das StableLM-Tuned-Alpha-7B-Modell veröffentlicht, das nach dem Alpaca-Verfahren feinabgestimmt wurde
    • Verwendet 5 dialogorientierte Datensätze: Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, Anthropic's HH
    • Eine Chatbot-Demo ist auf Hugging Face verfügbar

2 Kommentare

 
laeyoung 2023-04-20

Gut, gut!

 
xguru 2023-04-20

Wie die Veröffentlichung von Stable Diffusion den Markt beschleunigt hat, werden nun wohl auch bei Sprachmodellen öffentlich nutzbare Daten und Anwendungsfälle in großer Zahl auftauchen.