LLM-Visualisierung

(bbycroft.net)

43 Punkte von GN⁺ 2025-09-05 | 1 Kommentare | Auf WhatsApp teilen

GPT-basiertes großes Sprachmodell: Es wird der Funktionsablauf von nano-gpt kurz vorgestellt
Das Ziel dieses Modells ist es, eine Sequenz aus 6 Zeichen entgegenzunehmen und alphabetisch zu sortieren
Jedes Zeichen wird als Token betrachtet, und alle Tokens haben einen eindeutigen Token-Index
Jeder Token-Index wird in einen 48-dimensionalen Embedding-Vektor umgewandelt und durchläuft eine Reihe von Transformer-Layern
Das Modell sagt das nächste Token vorher; das Ergebnis kann wiederholt genutzt werden, um die Eingabesequenz weiterzuentwickeln

Einführung in das GPT-Sprachmodell

Dieses Dokument erklärt die Funktionsweise eines großen GPT-Sprachmodells anschaulich und visuell
Verwendet wird dabei ein sehr kleines Modell namens nano-gpt (mit etwa 85.000 Parametern)
Das Ziel des Modells ist es, eine Sequenz aus 6 Zeichen entgegenzunehmen und sie alphabetisch zu sortieren (z. B. "ABBBCC")

Tokens und Vokabular

Jedes Zeichen wird als Token definiert; die Gesamtheit aller Tokens, die das Modell erkennt, wird als Vokabular (vocabulary) bezeichnet
In der Tabelle erhält jedes Token eine eindeutige Nummer (Token-Index)
Die Zahlenfolge dieser Token-Indizes wird als Eingabe des Modells verwendet

Eingabeumwandlung und Embeddings

In der 3D-Visualisierung stehen grüne Zellen für die gerade verarbeiteten Zahlen, blaue Zellen für die Gewichte (weights) des Modells
Jede Eingabezahl wird in einen 48-dimensionalen Embedding-Vektor umgewandelt
Diese Embeddings durchlaufen innerhalb der Modellarchitektur nacheinander mehrere Transformer-Layer

Ausgabe und Vorhersageprozess

Die Ausgabe des Modells wird als Wahrscheinlichkeit des in dieser Sequenz vorhergesagten nächsten Tokens dargestellt
An der 6. Eingabeposition wird die Wahrscheinlichkeitsverteilung dafür vorhergesagt, ob das nächste Token 'A', 'B' oder 'C' ist
Im Beispiel sagt das Modell voraus, dass die Wahrscheinlichkeit für 'A' am höchsten ist
Dieses Vorhersageergebnis wird erneut in die Eingabe eingespeist, und der Prozess wird wiederholt, um die gesamte Sequenz zu erzeugen

1 Kommentare

GN⁺ 2025-09-05

Hacker-News-Kommentare

Wirklich komplex und beeindruckend; die Art, wie der Prozess visualisiert wird, ist großartig.
Es gibt dazu passendes Material; falls dich noch anderes interessiert, kannst du das ebenfalls ansehen.
LLM Visualization - Dezember 2023, 131 Kommentare
Es gibt noch ein weiteres von Forschern am Georgia Tech erstelltes Visualisierungsmaterial zu Transformern.
https://poloclub.github.io/transformer-explainer/
Außerdem wird das bekannte Visualisierungsmaterial „The Illustrated Transformer“ empfohlen.
https://jalammar.github.io/illustrated-transformer/
Es gibt auch einen Beitrag von Sebastian Raschka, PhD, über die Architektur.
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
In diesem Hacker-News-Kommentar kann man verschiedene Ressourcen auf einmal sehen.
https://news.ycombinator.com/item?id=35712334
Die Visualisierung ist wirklich interessant; es ist ironisch, dass man zwar den gesamten Prozess visuell sehen kann, aber die internen Entscheidungskriterien des Modells trotzdem nicht vollständig versteht. Als ich vor etwa einem Jahr danach gesucht habe, gab es in diesem Punkt noch keinen Fortschritt.
Dieser Visualisierungsinhalt ist wirklich hervorragend, deshalb plane ich, ihn den Kindern im Computerclub meines 5-jährigen Sohnes zu zeigen.
- Damit bringt man die Kinder wahrscheinlich am besten zum Mittagsschlaf.
Das wirkt wie ein wirklich großartiges und beeindruckendes Kunstwerk; danke für diese Arbeit.
Ich mochte dieses Visualisierungsmaterial schon immer sehr.
https://alphacode.deepmind.com/
(Auf dem Smartphone einfach auf Play drücken, ganz herauszoomen und dann nach unten scrollen.)
Es wäre wirklich großartig, wenn LLM-Visualisierungen auf diese Weise zu einem Lehrmittel würden; man könnte zum Beispiel zeigen, wie sich Attention während des Generierungsprozesses bewegt oder wie der Prompt die Ausgabe beeinflusst. Solche interaktiven Visualisierungen würden wirklich helfen zu verstehen, was im Hintergrund tatsächlich passiert.
Ich finde das wirklich hervorragend; wenn ich Zeit habe, möchte ich es mir genauer ansehen. In Kombination mit Beobachtungswerkzeugen könnte dieses Material Wissenschaftlern helfen, in das Innere von Modellen vorzudringen, die als „Black Box“ bekannt sind.
Jetzt verstehe ich es endlich; dieses Material ist wirklich eine großartige Ressource, danke für die investierte Zeit und Mühe.

LLM-Visualisierung

Einführung in das GPT-Sprachmodell

Tokens und Vokabular

Eingabeumwandlung und Embeddings

Ausgabe und Vorhersageprozess

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare