GPT-3 ist jetzt nicht mehr allein auf dem Markt

xguru · 2021-11-10T09:07:01+09:00

Es stimmt, dass GPT-3 den KI-Markt stark erschüttert hat: ein extrem großes KI-Modell mit starken Fähigkeiten bei „text-in text-out“ Da es kostenpflichtig war, begannen viele Organisationen, jeweils eigene GPT-3-ähnliche Modelle zu entwickeln → Wegen der dafür nötigen Rechenleistung ist das jedoch nicht einfach. OpenAI arbeitete für das 175B-Parameter-Modell mit Microsoft zusammen und nutzte 10.000 GPUs sowie 45 Terabyte Textdaten → Hochgerechnet kostet das Training von GPT-3 etwa 10 bis 20 Milliarden Won Es sind verschiedene Ansätze entstanden → EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG Überraschenderweise kam der erste Versuch, etwas GPT-3-Ähnliches zu bauen, von den Open-Source-Mitwirkenden hinter „EleutherAI“ → Sie veröffentlichten „The Pile“, einen Datensatz ähnlich dem von GPT-3 → Danach veröffentlichten sie zunächst kleinere Versionen wie GPT-Neo 1.3B und 2.7B und zuletzt das 6B-Parameter-Modell GPT-J-6B Sechs Monate nach der Vorstellung von GPT-3 veröffentlichten Forscher der Tsinghua-Universität in China zusammen mit der BAAI (Beijing Academy of AI) CPM (Chinese Pre-trained Language Model) → Aus 100 GB chinesischem Text entstand ein Modell mit 2.6B Parametern. Es erreicht nicht das Niveau von GPT-3, ist aber bemerkenswert, weil es auf chinesischem Text basiert Kurz darauf veröffentlichte Huawei PanGu-α mit 200B Parametern (unter Verwendung von 1.1 TB chinesischem Text) Naver stellte HyperCLOVA mit 204B Parametern vor Das israelische AI21 Labs veröffentlichte Jurassic-1 mit 178B Parametern NVIDIA und Microsoft veröffentlichten Megatron-Turing NLG mit 530B Parametern Im Kern entstehen immer größere Modelle, die GPT-3 ähneln, und sie werden in den kommenden Jahren wohl noch weiter wachsen Der Trend, dass für das Training solcher Large-Scale-Modelle Investitionen in Milliardenhöhe nötig sind, dürfte vorerst anhalten → Es ist bedenklich, dass nur gut finanzierte Unternehmen in der Lage sind, solche Modelle zu bauen Wie lange dieser Trend anhalten wird und ob es Entdeckungen geben wird, die über GPT-3 hinaus wirklich bedeutend sind, lässt sich schwer vorhersagen Wir befinden uns derzeit mitten auf dieser Reise, und es wird spannend sein zu beobachten, was in den nächsten Jahren geschieht

(lastweekin.ai)

16 Punkte von xguru 2021-11-10 | 1 Kommentare | Auf WhatsApp teilen

Es stimmt, dass GPT-3 den KI-Markt stark erschüttert hat: ein extrem großes KI-Modell mit starken Fähigkeiten bei „text-in text-out“
Da es kostenpflichtig war, begannen viele Organisationen, jeweils eigene GPT-3-ähnliche Modelle zu entwickeln

→ Wegen der dafür nötigen Rechenleistung ist das jedoch nicht einfach. OpenAI arbeitete für das 175B-Parameter-Modell mit Microsoft zusammen und nutzte 10.000 GPUs sowie 45 Terabyte Textdaten

→ Hochgerechnet kostet das Training von GPT-3 etwa 10 bis 20 Milliarden Won

Es sind verschiedene Ansätze entstanden

→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG

Überraschenderweise kam der erste Versuch, etwas GPT-3-Ähnliches zu bauen, von den Open-Source-Mitwirkenden hinter „EleutherAI“

→ Sie veröffentlichten „The Pile“, einen Datensatz ähnlich dem von GPT-3

→ Danach veröffentlichten sie zunächst kleinere Versionen wie GPT-Neo 1.3B und 2.7B und zuletzt das 6B-Parameter-Modell GPT-J-6B

Sechs Monate nach der Vorstellung von GPT-3 veröffentlichten Forscher der Tsinghua-Universität in China zusammen mit der BAAI (Beijing Academy of AI) CPM (Chinese Pre-trained Language Model)

→ Aus 100 GB chinesischem Text entstand ein Modell mit 2.6B Parametern. Es erreicht nicht das Niveau von GPT-3, ist aber bemerkenswert, weil es auf chinesischem Text basiert

Kurz darauf veröffentlichte Huawei PanGu-α mit 200B Parametern (unter Verwendung von 1.1 TB chinesischem Text)
Naver stellte HyperCLOVA mit 204B Parametern vor
Das israelische AI21 Labs veröffentlichte Jurassic-1 mit 178B Parametern
NVIDIA und Microsoft veröffentlichten Megatron-Turing NLG mit 530B Parametern
Im Kern entstehen immer größere Modelle, die GPT-3 ähneln, und sie werden in den kommenden Jahren wohl noch weiter wachsen
Der Trend, dass für das Training solcher Large-Scale-Modelle Investitionen in Milliardenhöhe nötig sind, dürfte vorerst anhalten

→ Es ist bedenklich, dass nur gut finanzierte Unternehmen in der Lage sind, solche Modelle zu bauen

Wie lange dieser Trend anhalten wird und ob es Entdeckungen geben wird, die über GPT-3 hinaus wirklich bedeutend sind, lässt sich schwer vorhersagen
Wir befinden uns derzeit mitten auf dieser Reise, und es wird spannend sein zu beobachten, was in den nächsten Jahren geschieht

1 Kommentare

xguru 2021-11-10

GPT-Neo: ein Projekt, das ein Modell in der Größenordnung von GPT-3 als Open Source/kostenlos verfügbar machen will https://de.news.hada.io/topic?id=3599
MS und Nvidia haben mit MT-NLG 530B das weltweit größte Sprachmodell vorgestellt https://de.news.hada.io/topic?id=5187

GPT-3 ist jetzt nicht mehr allein auf dem Markt

Verwandte Beiträge

1 Kommentare