16 Punkte von xguru 2021-11-10 | 1 Kommentare | Auf WhatsApp teilen
  • Es stimmt, dass GPT-3 den KI-Markt stark erschüttert hat: ein extrem großes KI-Modell mit starken Fähigkeiten bei „text-in text-out“

  • Da es kostenpflichtig war, begannen viele Organisationen, jeweils eigene GPT-3-ähnliche Modelle zu entwickeln

→ Wegen der dafür nötigen Rechenleistung ist das jedoch nicht einfach. OpenAI arbeitete für das 175B-Parameter-Modell mit Microsoft zusammen und nutzte 10.000 GPUs sowie 45 Terabyte Textdaten

→ Hochgerechnet kostet das Training von GPT-3 etwa 10 bis 20 Milliarden Won

  • Es sind verschiedene Ansätze entstanden

→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG

  • Überraschenderweise kam der erste Versuch, etwas GPT-3-Ähnliches zu bauen, von den Open-Source-Mitwirkenden hinter „EleutherAI“

→ Sie veröffentlichten „The Pile“, einen Datensatz ähnlich dem von GPT-3

→ Danach veröffentlichten sie zunächst kleinere Versionen wie GPT-Neo 1.3B und 2.7B und zuletzt das 6B-Parameter-Modell GPT-J-6B

  • Sechs Monate nach der Vorstellung von GPT-3 veröffentlichten Forscher der Tsinghua-Universität in China zusammen mit der BAAI (Beijing Academy of AI) CPM (Chinese Pre-trained Language Model)

→ Aus 100 GB chinesischem Text entstand ein Modell mit 2.6B Parametern. Es erreicht nicht das Niveau von GPT-3, ist aber bemerkenswert, weil es auf chinesischem Text basiert

  • Kurz darauf veröffentlichte Huawei PanGu-α mit 200B Parametern (unter Verwendung von 1.1 TB chinesischem Text)

  • Naver stellte HyperCLOVA mit 204B Parametern vor

  • Das israelische AI21 Labs veröffentlichte Jurassic-1 mit 178B Parametern

  • NVIDIA und Microsoft veröffentlichten Megatron-Turing NLG mit 530B Parametern

  • Im Kern entstehen immer größere Modelle, die GPT-3 ähneln, und sie werden in den kommenden Jahren wohl noch weiter wachsen

  • Der Trend, dass für das Training solcher Large-Scale-Modelle Investitionen in Milliardenhöhe nötig sind, dürfte vorerst anhalten

→ Es ist bedenklich, dass nur gut finanzierte Unternehmen in der Lage sind, solche Modelle zu bauen

  • Wie lange dieser Trend anhalten wird und ob es Entdeckungen geben wird, die über GPT-3 hinaus wirklich bedeutend sind, lässt sich schwer vorhersagen

  • Wir befinden uns derzeit mitten auf dieser Reise, und es wird spannend sein zu beobachten, was in den nächsten Jahren geschieht

1 Kommentare

 
xguru 2021-11-10