Transformer anschaulich erklärt

(jalammar.github.io)

23 Punkte von GN⁺ 2025-12-23 | Noch keine Kommentare. | Auf WhatsApp teilen

Erklärt Aufbau und Funktionsweise des Transformer-Modells visuell und zeigt, wie der Attention-Mechanismus paralleles Training und die Übersetzungsleistung verbessert
Das Modell besteht aus einem Encoder- und Decoder-Stack, wobei jeder Encoder aus zwei Schichten besteht: Self-Attention und Feedforward-Neuronales Netz
Der Berechnungsprozess der Self-Attention wird auf Vektor- und Matrixebene Schritt für Schritt erläutert und mit Multi-Head Attention auf verschiedene Repräsentationsräume erweitert
Zentrale Komponenten wie Positional Encoding, Residual Connections, Layer Normalization und die maskierte Attention im Decoder werden konkret visualisiert
Dieser Beitrag ist ein repräsentatives Material, das hilft, die Grundkonzepte von Transformern leicht zu verstehen, und wird auch in Lehrveranstaltungen und Lehrmaterialien wichtiger Universitäten wie MIT und Stanford eingesetzt

Überblick über Transformer

Transformer ist ein Attention-basiertes neuronales maschinelles Übersetzungsmodell, das bei bestimmten Aufgaben eine höhere Leistung als das frühere Google Neural Machine Translation zeigt
- Ein wesentlicher Vorteil ist die einfache Parallelisierung; außerdem wird es als Referenzmodell für Google Cloud TPU empfohlen
Das Modell besteht aus einem Encoder- und Decoder-Stack, wobei alle Encoder dieselbe Struktur haben, aber keine Gewichte teilen
Die Eingabe des Encoders durchläuft eine Self-Attention-Schicht, die Kontextinformationen integriert, und anschließend ein Feedforward-Neuronales Netz
Der Decoder enthält zusätzlich zur Encoder-Struktur eine Encoder-Decoder-Attention-Schicht, um sich auf relevante Teile des Eingabesatzes zu konzentrieren

Der Eingabesatz wird mithilfe eines Word-Embedding-Algorithmus in 512-dimensionale Vektoren für jedes Wort umgewandelt
Jede Schicht des Encoders verarbeitet als Eingabe eine Liste von Vektoren gleicher Größe; die Satzlänge wird als Hyperparameter festgelegt
Da die Feedforward-Schicht die Vektoren jeder Position unabhängig verarbeitet, sind parallele Berechnungen möglich

Self-Attention ermöglicht es jedem Wort, auf andere Wörter im Satz zu verweisen und so bessere Repräsentationen zu lernen
- Beispiel: In „The animal didn’t cross the street because it was too tired“ bezieht sich „it“ auf „animal“
Im Gegensatz zur Speicherung versteckter Zustände in RNNs integriert der Transformer Kontextinformationen mittels Self-Attention

Aus jedem Wort-Embedding werden Query-, Key- und Value-Vektoren erzeugt (Dimension 64)
Über das Skalarprodukt (dot product) von Query und Key werden Relevanzwerte zwischen den Wörtern berechnet
Die Werte werden durch √64 geteilt und anschließend mit Softmax zu einer Wahrscheinlichkeitsverteilung normalisiert
Jeder Value-Vektor wird mit den Softmax-Werten gewichtet und aufsummiert, um die endgültige Attention-Ausgabe zu erzeugen
In der praktischen Implementierung wird dieser Prozess als Matrixoperation ausgeführt, um die Effizienz zu erhöhen

Mit mehreren Attention-Heads (standardmäßig 8) werden unterschiedliche Repräsentationsräume gelernt
- Jeder Head besitzt eigene Gewichtsmatrizen für Q/K/V
Die Ausgaben mehrerer Heads werden konkateniert (concat) und anschließend mit der zusätzlichen Gewichtsmatrix WO zusammengeführt
Dadurch kann das Modell verschiedene Aspekte des Kontexts gleichzeitig erfassen

Da Transformer Reihenfolge nicht direkt verarbeiten, wird zu jedem Wort-Embedding ein Positionsvektor addiert
Der Positionsvektor wird mit Sinus- (sin) und Kosinusfunktionen (cos) erzeugt und liefert Informationen über relative Abstände zwischen Wörtern
Dieser Ansatz lässt sich auch auf Sätze erweitern, die länger als die Trainingsdaten sind
In einem Update von 2020 wurde außerdem eine Methode vorgestellt, bei der zwei Signale verschachtelt (interleave) werden

Auf jede Sublayer-Komponente (Self-Attention, Feedforward) werden Residual Connections und Layer Normalization angewendet
Diese Struktur trägt dazu bei, verschwindende Gradienten zu verhindern und die Trainingsstabilität zu verbessern

Der Decoder erhält Key-/Value-Vektoren aus der Encoder-Ausgabe und führt Encoder-Decoder-Attention aus
Durch Masking wird verhindert, dass auf zukünftige Wörter verwiesen wird
Am Ende erzeugen eine Linear-Schicht und eine Softmax-Schicht eine Wahrscheinlichkeitsverteilung über Wörter
- Beispiel: Bei einer Vokabulargröße von 10.000 wird jeder Ausgabevektor in eine 10.000-dimensionale Wahrscheinlichkeitsverteilung umgewandelt

Beim Training wird die vom Modell ausgegebene Wahrscheinlichkeitsverteilung mit der Zielverteilung (One-Hot-Encoding) verglichen
Mit Cross-Entropy oder KL-Divergenz wird der Fehler berechnet und per Backpropagation werden die Gewichte angepasst
Mittels Beam Search werden mehrere Übersetzungskandidaten beibehalten, um die Genauigkeit zu erhöhen

Relevante Arbeiten: Attention Is All You Need, Training Tips for the Transformer Model, Self-Attention with Relative Position Representations u. a.
Implementierungsmaterialien: Tensor2Tensor-Paket, Harvard NLP PyTorch Guide, Colab Notebook
Der Transformer wurde später zur erweiterten Fassung von LLM-book.com (Chapter 3) weiterentwickelt und behandelt neuere Modelle wie Multi-Query Attention und RoPE-Positions-Embeddings

Der Transformer ist eine parallelisierbare Attention-basierte Architektur und hat sich als Kernmodell des modernen Deep Learning etabliert
Dieser Beitrag ist ein repräsentatives Material, das Struktur, Mathematik und Intuition des Transformers visuell erklärt, und wird in Lehrveranstaltungen führender Universitäten wie Stanford, MIT und Harvard als Referenz verwendet