- Ein Leitfaden, der die Funktionsweise großer Sprachmodelle wie GPT-2, nano-gpt und GPT-3 visuell erklärt
- Inhaltsverzeichnis: Einführung und Grundlagenwissen, Embeddings, Layer-Normalisierung, Self-Attention, Projektion, MLP, Transformer, Softmax, Ausgabe
Zusammenfassung des gesamten Einführungsteils
- Im Fall von
nano-gpt gibt es 85.000 Parameter
- Das Ziel ist es, eine gegebene Zeichenkette aus sechs Buchstaben alphabetisch zu sortieren
- Als Beispiel kann der Prozess dienen, bei dem die Zeichenkette
C B A B B C als Eingabe genommen und zu ABBBCC sortiert wird.
- Jedes Zeichen der Zeichenkette wird als „Token“ bezeichnet, und der Wortschatz des Modells besteht aus verschiedenen Tokens
- Jedem Token wird ein numerischer Index zugewiesen, der in das Modell eingespeist wird
- Jede Zahl wird in einen Vektor mit 48 Elementen umgewandelt; das nennt man „Embedding“
- Die Embeddings durchlaufen eine Reihe von Layern, die als „Transformer“ bezeichnet werden.
- Am Ende sagt das Modell die Wahrscheinlichkeit für das nächste Token in der gegebenen Sequenz voraus
- Das vorhergesagte Token wird wieder oben in das Modell eingespeist, und der gesamte Prozess wiederholt sich
1 Kommentare
Hacker-News-Kommentare
Ein sehr nützliches Werkzeug, um LLMs grundlegend zu verstehen
model.pyvon minGPT nachzusehen.Beeindruckt davon, dass die algorithmische Komplexität im 3D-Raum klar dargestellt wird
Diese Visualisierung ist wirklich erstaunlich.
Genau die Visualisierungsmethode, nach der man seit Monaten gesucht hat
Man könnte ihr sogar den Titel „Magie zerlegt in Matrixmultiplikation und Skalarprodukt“ geben.
Das 3D-Modell ist als Lehrmittel erstaunlich gut
Noch erstaunlicher ist, wie gut LLMs funktionieren
Eine Erklärung der Stärke von Self-Attention fehlt oft
Im Twitter-Thread des Autors wird zusätzlicher Kontext zu dieser Arbeit geteilt
Wer eine niedrigdimensionale Version für das eigene Modell möchte, dem wird die Netron-Bibliothek empfohlen
Es ist nicht nur ein einfaches 3D-Modell, sondern tiefgehende Arbeit
Diese Visualisierung ist wirklich erstaunlich.
Das ist ein Grund, Hacker News zu lieben