43 Punkte von GN⁺ 2025-09-05 | 1 Kommentare | Auf WhatsApp teilen
  • GPT-basiertes großes Sprachmodell: Es wird der Funktionsablauf von nano-gpt kurz vorgestellt
  • Das Ziel dieses Modells ist es, eine Sequenz aus 6 Zeichen entgegenzunehmen und alphabetisch zu sortieren
  • Jedes Zeichen wird als Token betrachtet, und alle Tokens haben einen eindeutigen Token-Index
  • Jeder Token-Index wird in einen 48-dimensionalen Embedding-Vektor umgewandelt und durchläuft eine Reihe von Transformer-Layern
  • Das Modell sagt das nächste Token vorher; das Ergebnis kann wiederholt genutzt werden, um die Eingabesequenz weiterzuentwickeln

Einführung in das GPT-Sprachmodell

  • Dieses Dokument erklärt die Funktionsweise eines großen GPT-Sprachmodells anschaulich und visuell
  • Verwendet wird dabei ein sehr kleines Modell namens nano-gpt (mit etwa 85.000 Parametern)
  • Das Ziel des Modells ist es, eine Sequenz aus 6 Zeichen entgegenzunehmen und sie alphabetisch zu sortieren (z. B. "ABBBCC")

Tokens und Vokabular

  • Jedes Zeichen wird als Token definiert; die Gesamtheit aller Tokens, die das Modell erkennt, wird als Vokabular (vocabulary) bezeichnet
  • In der Tabelle erhält jedes Token eine eindeutige Nummer (Token-Index)
  • Die Zahlenfolge dieser Token-Indizes wird als Eingabe des Modells verwendet

Eingabeumwandlung und Embeddings

  • In der 3D-Visualisierung stehen grüne Zellen für die gerade verarbeiteten Zahlen, blaue Zellen für die Gewichte (weights) des Modells
  • Jede Eingabezahl wird in einen 48-dimensionalen Embedding-Vektor umgewandelt
  • Diese Embeddings durchlaufen innerhalb der Modellarchitektur nacheinander mehrere Transformer-Layer

Ausgabe und Vorhersageprozess

  • Die Ausgabe des Modells wird als Wahrscheinlichkeit des in dieser Sequenz vorhergesagten nächsten Tokens dargestellt
  • An der 6. Eingabeposition wird die Wahrscheinlichkeitsverteilung dafür vorhergesagt, ob das nächste Token 'A', 'B' oder 'C' ist
  • Im Beispiel sagt das Modell voraus, dass die Wahrscheinlichkeit für 'A' am höchsten ist
  • Dieses Vorhersageergebnis wird erneut in die Eingabe eingespeist, und der Prozess wird wiederholt, um die gesamte Sequenz zu erzeugen

1 Kommentare

 
GN⁺ 2025-09-05
Hacker-News-Kommentare
  • Wirklich komplex und beeindruckend; die Art, wie der Prozess visualisiert wird, ist großartig.
  • Es gibt dazu passendes Material; falls dich noch anderes interessiert, kannst du das ebenfalls ansehen.
    LLM Visualization - Dezember 2023, 131 Kommentare
  • Es gibt noch ein weiteres von Forschern am Georgia Tech erstelltes Visualisierungsmaterial zu Transformern.
    https://poloclub.github.io/transformer-explainer/
    Außerdem wird das bekannte Visualisierungsmaterial „The Illustrated Transformer“ empfohlen.
    https://jalammar.github.io/illustrated-transformer/
    Es gibt auch einen Beitrag von Sebastian Raschka, PhD, über die Architektur.
    https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
    In diesem Hacker-News-Kommentar kann man verschiedene Ressourcen auf einmal sehen.
    https://news.ycombinator.com/item?id=35712334
  • Die Visualisierung ist wirklich interessant; es ist ironisch, dass man zwar den gesamten Prozess visuell sehen kann, aber die internen Entscheidungskriterien des Modells trotzdem nicht vollständig versteht. Als ich vor etwa einem Jahr danach gesucht habe, gab es in diesem Punkt noch keinen Fortschritt.
  • Dieser Visualisierungsinhalt ist wirklich hervorragend, deshalb plane ich, ihn den Kindern im Computerclub meines 5-jährigen Sohnes zu zeigen.
    • Damit bringt man die Kinder wahrscheinlich am besten zum Mittagsschlaf.
  • Das wirkt wie ein wirklich großartiges und beeindruckendes Kunstwerk; danke für diese Arbeit.
  • Ich mochte dieses Visualisierungsmaterial schon immer sehr.
    https://alphacode.deepmind.com/
    (Auf dem Smartphone einfach auf Play drücken, ganz herauszoomen und dann nach unten scrollen.)
  • Es wäre wirklich großartig, wenn LLM-Visualisierungen auf diese Weise zu einem Lehrmittel würden; man könnte zum Beispiel zeigen, wie sich Attention während des Generierungsprozesses bewegt oder wie der Prompt die Ausgabe beeinflusst. Solche interaktiven Visualisierungen würden wirklich helfen zu verstehen, was im Hintergrund tatsächlich passiert.
  • Ich finde das wirklich hervorragend; wenn ich Zeit habe, möchte ich es mir genauer ansehen. In Kombination mit Beobachtungswerkzeugen könnte dieses Material Wissenschaftlern helfen, in das Innere von Modellen vorzudringen, die als „Black Box“ bekannt sind.
  • Jetzt verstehe ich es endlich; dieses Material ist wirklich eine großartige Ressource, danke für die investierte Zeit und Mühe.