16 Punkte von xguru 2023-05-08 | 3 Kommentare | Auf WhatsApp teilen
  • Ein 15,5B-Modell, das für mehr als 80 Programmiersprachen mit 1 Billion Tokens trainiert wurde
  • Verwendet MQA für eine effiziente Generierung und verfügt über ein Kontextfenster von 8192 Tokens
    • StarCoderBase: trainiert mit dem Datensatz The-Stack v1.2 (6 TB), der Daten aus mehr als 80 Sprachen enthält
    • StarCoder: ein Modell, das zusätzlich speziell für Python weitertrainiert wurde
  • Chat-Demo und Erweiterung für VSCode verfügbar

3 Kommentare

 
ninebow 2023-05-08

Hier ist der Link zum Paper aus dem Twitter-Ankündigungspost. :)

https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view

 
ninebow 2023-05-08

Es wurde offenbar auch so veröffentlicht, dass man es direkt in HuggingFace Chat verwenden kann. :)
https://huggingface.co/chat/?model=bigcode/starcoder