23 Punkte von GN⁺ 2025-12-23 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Erklärt Aufbau und Funktionsweise des Transformer-Modells visuell und zeigt, wie der Attention-Mechanismus paralleles Training und die Übersetzungsleistung verbessert
  • Das Modell besteht aus einem Encoder- und Decoder-Stack, wobei jeder Encoder aus zwei Schichten besteht: Self-Attention und Feedforward-Neuronales Netz
  • Der Berechnungsprozess der Self-Attention wird auf Vektor- und Matrixebene Schritt für Schritt erläutert und mit Multi-Head Attention auf verschiedene Repräsentationsräume erweitert
  • Zentrale Komponenten wie Positional Encoding, Residual Connections, Layer Normalization und die maskierte Attention im Decoder werden konkret visualisiert
  • Dieser Beitrag ist ein repräsentatives Material, das hilft, die Grundkonzepte von Transformern leicht zu verstehen, und wird auch in Lehrveranstaltungen und Lehrmaterialien wichtiger Universitäten wie MIT und Stanford eingesetzt

Überblick über Transformer

  • Transformer ist ein Attention-basiertes neuronales maschinelles Übersetzungsmodell, das bei bestimmten Aufgaben eine höhere Leistung als das frühere Google Neural Machine Translation zeigt
    • Ein wesentlicher Vorteil ist die einfache Parallelisierung; außerdem wird es als Referenzmodell für Google Cloud TPU empfohlen
  • Das Modell besteht aus einem Encoder- und Decoder-Stack, wobei alle Encoder dieselbe Struktur haben, aber keine Gewichte teilen
  • Die Eingabe des Encoders durchläuft eine Self-Attention-Schicht, die Kontextinformationen integriert, und anschließend ein Feedforward-Neuronales Netz
  • Der Decoder enthält zusätzlich zur Encoder-Struktur eine Encoder-Decoder-Attention-Schicht, um sich auf relevante Teile des Eingabesatzes zu konzentrieren

Tensorfluss und Embeddings

  • Der Eingabesatz wird mithilfe eines Word-Embedding-Algorithmus in 512-dimensionale Vektoren für jedes Wort umgewandelt
  • Jede Schicht des Encoders verarbeitet als Eingabe eine Liste von Vektoren gleicher Größe; die Satzlänge wird als Hyperparameter festgelegt
  • Da die Feedforward-Schicht die Vektoren jeder Position unabhängig verarbeitet, sind parallele Berechnungen möglich

Das Konzept der Self-Attention

  • Self-Attention ermöglicht es jedem Wort, auf andere Wörter im Satz zu verweisen und so bessere Repräsentationen zu lernen
    • Beispiel: In „The animal didn’t cross the street because it was too tired“ bezieht sich „it“ auf „animal“
  • Im Gegensatz zur Speicherung versteckter Zustände in RNNs integriert der Transformer Kontextinformationen mittels Self-Attention

Schritte der Self-Attention-Berechnung

  • Aus jedem Wort-Embedding werden Query-, Key- und Value-Vektoren erzeugt (Dimension 64)
  • Über das Skalarprodukt (dot product) von Query und Key werden Relevanzwerte zwischen den Wörtern berechnet
  • Die Werte werden durch √64 geteilt und anschließend mit Softmax zu einer Wahrscheinlichkeitsverteilung normalisiert
  • Jeder Value-Vektor wird mit den Softmax-Werten gewichtet und aufsummiert, um die endgültige Attention-Ausgabe zu erzeugen
  • In der praktischen Implementierung wird dieser Prozess als Matrixoperation ausgeführt, um die Effizienz zu erhöhen

Multi-Head Attention

  • Mit mehreren Attention-Heads (standardmäßig 8) werden unterschiedliche Repräsentationsräume gelernt
    • Jeder Head besitzt eigene Gewichtsmatrizen für Q/K/V
  • Die Ausgaben mehrerer Heads werden konkateniert (concat) und anschließend mit der zusätzlichen Gewichtsmatrix WO zusammengeführt
  • Dadurch kann das Modell verschiedene Aspekte des Kontexts gleichzeitig erfassen

Positional Encoding

  • Da Transformer Reihenfolge nicht direkt verarbeiten, wird zu jedem Wort-Embedding ein Positionsvektor addiert
  • Der Positionsvektor wird mit Sinus- (sin) und Kosinusfunktionen (cos) erzeugt und liefert Informationen über relative Abstände zwischen Wörtern
  • Dieser Ansatz lässt sich auch auf Sätze erweitern, die länger als die Trainingsdaten sind
  • In einem Update von 2020 wurde außerdem eine Methode vorgestellt, bei der zwei Signale verschachtelt (interleave) werden

Residual Connections und Normalisierung

  • Auf jede Sublayer-Komponente (Self-Attention, Feedforward) werden Residual Connections und Layer Normalization angewendet
  • Diese Struktur trägt dazu bei, verschwindende Gradienten zu verhindern und die Trainingsstabilität zu verbessern

Decoder-Struktur

  • Der Decoder erhält Key-/Value-Vektoren aus der Encoder-Ausgabe und führt Encoder-Decoder-Attention aus
  • Durch Masking wird verhindert, dass auf zukünftige Wörter verwiesen wird
  • Am Ende erzeugen eine Linear-Schicht und eine Softmax-Schicht eine Wahrscheinlichkeitsverteilung über Wörter
    • Beispiel: Bei einer Vokabulargröße von 10.000 wird jeder Ausgabevektor in eine 10.000-dimensionale Wahrscheinlichkeitsverteilung umgewandelt

Training und Verlustfunktion

  • Beim Training wird die vom Modell ausgegebene Wahrscheinlichkeitsverteilung mit der Zielverteilung (One-Hot-Encoding) verglichen
  • Mit Cross-Entropy oder KL-Divergenz wird der Fehler berechnet und per Backpropagation werden die Gewichte angepasst
  • Mittels Beam Search werden mehrere Übersetzungskandidaten beibehalten, um die Genauigkeit zu erhöhen

Weiterführende Forschung und Referenzmaterialien

  • Relevante Arbeiten: Attention Is All You Need, Training Tips for the Transformer Model, Self-Attention with Relative Position Representations u. a.
  • Implementierungsmaterialien: Tensor2Tensor-Paket, Harvard NLP PyTorch Guide, Colab Notebook
  • Der Transformer wurde später zur erweiterten Fassung von LLM-book.com (Chapter 3) weiterentwickelt und behandelt neuere Modelle wie Multi-Query Attention und RoPE-Positions-Embeddings

Fazit

  • Der Transformer ist eine parallelisierbare Attention-basierte Architektur und hat sich als Kernmodell des modernen Deep Learning etabliert
  • Dieser Beitrag ist ein repräsentatives Material, das Struktur, Mathematik und Intuition des Transformers visuell erklärt, und wird in Lehrveranstaltungen führender Universitäten wie Stanford, MIT und Harvard als Referenz verwendet

Noch keine Kommentare.

Noch keine Kommentare.