GPT-3 ist jetzt nicht mehr allein auf dem Markt
(lastweekin.ai)-
Es stimmt, dass GPT-3 den KI-Markt stark erschüttert hat: ein extrem großes KI-Modell mit starken Fähigkeiten bei „text-in text-out“
-
Da es kostenpflichtig war, begannen viele Organisationen, jeweils eigene GPT-3-ähnliche Modelle zu entwickeln
→ Wegen der dafür nötigen Rechenleistung ist das jedoch nicht einfach. OpenAI arbeitete für das 175B-Parameter-Modell mit Microsoft zusammen und nutzte 10.000 GPUs sowie 45 Terabyte Textdaten
→ Hochgerechnet kostet das Training von GPT-3 etwa 10 bis 20 Milliarden Won
- Es sind verschiedene Ansätze entstanden
→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG
- Überraschenderweise kam der erste Versuch, etwas GPT-3-Ähnliches zu bauen, von den Open-Source-Mitwirkenden hinter „EleutherAI“
→ Sie veröffentlichten „The Pile“, einen Datensatz ähnlich dem von GPT-3
→ Danach veröffentlichten sie zunächst kleinere Versionen wie GPT-Neo 1.3B und 2.7B und zuletzt das 6B-Parameter-Modell GPT-J-6B
- Sechs Monate nach der Vorstellung von GPT-3 veröffentlichten Forscher der Tsinghua-Universität in China zusammen mit der BAAI (Beijing Academy of AI) CPM (Chinese Pre-trained Language Model)
→ Aus 100 GB chinesischem Text entstand ein Modell mit 2.6B Parametern. Es erreicht nicht das Niveau von GPT-3, ist aber bemerkenswert, weil es auf chinesischem Text basiert
-
Kurz darauf veröffentlichte Huawei PanGu-α mit 200B Parametern (unter Verwendung von 1.1 TB chinesischem Text)
-
Naver stellte HyperCLOVA mit 204B Parametern vor
-
Das israelische AI21 Labs veröffentlichte Jurassic-1 mit 178B Parametern
-
NVIDIA und Microsoft veröffentlichten Megatron-Turing NLG mit 530B Parametern
-
Im Kern entstehen immer größere Modelle, die GPT-3 ähneln, und sie werden in den kommenden Jahren wohl noch weiter wachsen
-
Der Trend, dass für das Training solcher Large-Scale-Modelle Investitionen in Milliardenhöhe nötig sind, dürfte vorerst anhalten
→ Es ist bedenklich, dass nur gut finanzierte Unternehmen in der Lage sind, solche Modelle zu bauen
-
Wie lange dieser Trend anhalten wird und ob es Entdeckungen geben wird, die über GPT-3 hinaus wirklich bedeutend sind, lässt sich schwer vorhersagen
-
Wir befinden uns derzeit mitten auf dieser Reise, und es wird spannend sein zu beobachten, was in den nächsten Jahren geschieht
1 Kommentare
GPT-Neo: ein Projekt, das ein Modell in der Größenordnung von GPT-3 als Open Source/kostenlos verfügbar machen will https://de.news.hada.io/topic?id=3599
MS und Nvidia haben mit MT-NLG 530B das weltweit größte Sprachmodell vorgestellt https://de.news.hada.io/topic?id=5187