- GPT-basiertes großes Sprachmodell: Es wird der Funktionsablauf von nano-gpt kurz vorgestellt
- Das Ziel dieses Modells ist es, eine Sequenz aus 6 Zeichen entgegenzunehmen und alphabetisch zu sortieren
- Jedes Zeichen wird als Token betrachtet, und alle Tokens haben einen eindeutigen Token-Index
- Jeder Token-Index wird in einen 48-dimensionalen Embedding-Vektor umgewandelt und durchläuft eine Reihe von Transformer-Layern
- Das Modell sagt das nächste Token vorher; das Ergebnis kann wiederholt genutzt werden, um die Eingabesequenz weiterzuentwickeln
Einführung in das GPT-Sprachmodell
- Dieses Dokument erklärt die Funktionsweise eines großen GPT-Sprachmodells anschaulich und visuell
- Verwendet wird dabei ein sehr kleines Modell namens nano-gpt (mit etwa 85.000 Parametern)
- Das Ziel des Modells ist es, eine Sequenz aus 6 Zeichen entgegenzunehmen und sie alphabetisch zu sortieren (z. B. "ABBBCC")
Tokens und Vokabular
- Jedes Zeichen wird als Token definiert; die Gesamtheit aller Tokens, die das Modell erkennt, wird als Vokabular (vocabulary) bezeichnet
- In der Tabelle erhält jedes Token eine eindeutige Nummer (Token-Index)
- Die Zahlenfolge dieser Token-Indizes wird als Eingabe des Modells verwendet
Eingabeumwandlung und Embeddings
- In der 3D-Visualisierung stehen grüne Zellen für die gerade verarbeiteten Zahlen, blaue Zellen für die Gewichte (weights) des Modells
- Jede Eingabezahl wird in einen 48-dimensionalen Embedding-Vektor umgewandelt
- Diese Embeddings durchlaufen innerhalb der Modellarchitektur nacheinander mehrere Transformer-Layer
Ausgabe und Vorhersageprozess
- Die Ausgabe des Modells wird als Wahrscheinlichkeit des in dieser Sequenz vorhergesagten nächsten Tokens dargestellt
- An der 6. Eingabeposition wird die Wahrscheinlichkeitsverteilung dafür vorhergesagt, ob das nächste Token 'A', 'B' oder 'C' ist
- Im Beispiel sagt das Modell voraus, dass die Wahrscheinlichkeit für 'A' am höchsten ist
- Dieses Vorhersageergebnis wird erneut in die Eingabe eingespeist, und der Prozess wird wiederholt, um die gesamte Sequenz zu erzeugen
1 Kommentare
Hacker-News-Kommentare
LLM Visualization - Dezember 2023, 131 Kommentare
https://poloclub.github.io/transformer-explainer/
Außerdem wird das bekannte Visualisierungsmaterial „The Illustrated Transformer“ empfohlen.
https://jalammar.github.io/illustrated-transformer/
Es gibt auch einen Beitrag von Sebastian Raschka, PhD, über die Architektur.
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
In diesem Hacker-News-Kommentar kann man verschiedene Ressourcen auf einmal sehen.
https://news.ycombinator.com/item?id=35712334
https://alphacode.deepmind.com/
(Auf dem Smartphone einfach auf Play drücken, ganz herauszoomen und dann nach unten scrollen.)