Stability AI veröffentlicht Stable Code 3B, ein LLM-Modell fürs Programmieren

xguru · 2024-01-18T10:02:01+09:00

Ein LLM mit 3B Parametern, das 60 % kleiner als CodeLLaMA 7b ist, aber bei der Codegenerierung eine ähnliche Leistung erzielt Kann auch ohne GPU offline auf einem gewöhnlichen Laptop laufen (wie etwa einem MacBook Air) Basiert auf dem Stable-LM-3B-Modell, das mit 4 Billionen Tokens an natürlichsprachigen Daten trainiert wurde, und wurde zusätzlich mit Daten zu Software Engineering und Code weitertrainiert Unter Bezug auf die Stack-Overflow-Entwicklerumfrage 2023 wurden 18 Programmiersprachen ausgewählt

(stability.ai)

9 Punkte von xguru 2024-01-18 | 5 Kommentare | Auf WhatsApp teilen

Ein LLM mit 3B Parametern, das 60 % kleiner als CodeLLaMA 7b ist, aber bei der Codegenerierung eine ähnliche Leistung erzielt
Kann auch ohne GPU offline auf einem gewöhnlichen Laptop laufen (wie etwa einem MacBook Air)
Basiert auf dem Stable-LM-3B-Modell, das mit 4 Billionen Tokens an natürlichsprachigen Daten trainiert wurde, und wurde zusätzlich mit Daten zu Software Engineering und Code weitertrainiert
- Unter Bezug auf die Stack-Overflow-Entwicklerumfrage 2023 wurden 18 Programmiersprachen ausgewählt

5 Kommentare

misolab 2024-01-18

Wir entwickeln im Finanzsektor und arbeiten daher nur im internen Netzwerk. Wie geht man in so einem Fall am besten vor?
Wenn ich zu Hause so etwas wie Copilot nutze, würde ich gern fragen, ob man so etwas auch im Unternehmen einsetzen könnte.

Ich entwickle Anwendungen und kenne mich mit KI nicht gut aus. Wenn ihr mir ein paar Hinweise gebt, recherchiere ich fleißig weiter.

cosine20 2024-01-19

https://github.com/janhq/jan
Das ist eine GUI-App, mit der sich Modelle offline nutzen lassen. Wenn Sie ein internes Netzwerk verwenden, können Sie vermutlich einfach die Installationsdatei dieser App und die zu nutzende Modelldatei vorab extern herunterladen und dann zur Verwendung ins interne Netzwerk übertragen.
Wie man Modelle manuell hinzufügt, ist unten beschrieben.
https://jan.ai/guides/using-models/import-manually/

ahwjdekf 2024-01-18

In einer netzwerkgetrennten Umgebung ist das, offen gesagt, für Entwickler praktisch nichts anderes, als ihnen Fesseln anzulegen.

ahwjdekf 2024-01-18

In letzter Zeit gibt es Gespräche über eine Lockerung der Netzwerksegmentierungspolitik, und man sieht auch Bemühungen um Verbesserungen, also könnte man vielleicht Hoffnung haben. Aber bei Banken, Telekommunikationsunternehmen und ähnlichen Bereichen, die mit personenbezogenen Daten arbeiten, wird es wohl auch in Zukunft eher schwierig bleiben. Für Entwickler ist das eine geradezu gefängnisartige Umgebung.

laeyoung 2024-01-18

Es wurde nur mit Modellen ähnlicher kleiner Größe verglichen, aber wenn man sich ein breiteres Leaderboard ansieht, sieht es so aus.
https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard

Da es um Code geht, denke ich, dass es vielleicht sogar besser wäre, wenn es etwas langsamer oder teurer ist, dafür aber eine höhere Leistung bietet.

Stability AI veröffentlicht Stable Code 3B, ein LLM-Modell fürs Programmieren

Verwandte Beiträge

5 Kommentare