ChatGPT ist ein Modell mit 20B Parametern
(arxiv.org)In der bei der EMNLP 2023 eingereichten Arbeit von Microsoft Research, „CodeFusion: A Pre-trained Diffusion Model for Code Generation“, wurde bekannt, dass ChatGPT (gpt-3.5-turbo) 20B Parameter hat.
- T5 (t5-large): 770M
- CodeT5 (codet5-large): 770M
- GPT3 (text-davinci-003): 175B
- ChatGPT (gpt-turbo-3.5): 20B
5 Kommentare
Ist diese Größe plausibel? Wenn man mit Leuten spricht, die sich mit KI beschäftigen, reagieren sie wohl entsetzt ...
All you need is 4090
War die Parametergröße ursprünglich auch bei GPT-3.5 nicht offengelegt?
Ich dachte einfach, es sei GPT-3 175B mit RLHF gewesen, aber anscheinend war das wohl nicht so..
https://arxiv.org/abs/2310.17680v1 Version 1 ist noch sichtbar.
„There are some errors in the paper and we need to retract it“, heißt es.
Ich weiß zwar nicht, wo genau der Fehler liegt, aber wenn nur ein paar Zahlen falsch sind, werden sie wohl einfach eine Revision gemacht haben … Dann ist es wahrscheinlich, dass 20B stimmt, oder?