2 Punkte von GN⁺ 2025-03-06 | Noch keine Kommentare. | Auf WhatsApp teilen

Blog-Einführung

  • Dies ist der achte Beitrag einer Blogserie, die auf Sebastian Raschkas Buch "Build a Large Language Model (from Scratch)" basiert.
  • In diesem Beitrag wird behandelt, wie man „trainable self-attention“ implementiert.

Funktionsweise eines GPT-artigen, nur aus Decodern bestehenden Transformer-basierten LLM

  • Eine Zeichenfolge wird in Tokens aufgeteilt, und jedes Token wird auf eine Vektorsequenz abgebildet, um Token-Embeddings zu erzeugen.
  • Positions-Embeddings werden erzeugt, um die Eingabe-Embedding-Sequenz zu bilden.
  • Mithilfe der Eingabe-Embeddings werden Attention-Scores für jedes Token erzeugt.
  • Die Attention-Scores werden normalisiert, um Attention-Gewichte zu erzeugen.
  • Für jedes Token werden Kontextvektoren erzeugt.

Scaled Dot-Product Attention

  • Zur Berechnung der Attention-Scores wird die Eingabesequenz auf drei Matrizen projiziert (Query, Key und Value).
  • Die Attention-Scores werden normalisiert, um Attention-Gewichte zu erzeugen, die dann zur Berechnung der Kontextvektoren verwendet werden.
  • Dieser gesamte Prozess wird durch effiziente Matrixmultiplikation ausgeführt.

Projektion zwischen Räumen mit Matrizen

  • Matrizen werden verwendet, um Vektoren in Räume anderer Dimensionen zu projizieren.
  • Eingabe-Embeddings werden in Query-, Key- und Value-Räume projiziert, um Attention-Scores zu berechnen.

Normalisierung der Attention-Scores

  • Zur Normalisierung der Attention-Scores wird die Softmax-Funktion verwendet.
  • Durch die Division durch die Quadratwurzel der Dimension wird normalisiert, um das Problem kleiner Gradienten zu lösen.

Erzeugung von Kontextvektoren

  • Mithilfe der Attention-Gewichte werden die Kontextvektoren für jedes Token berechnet.
  • Die Eingabe-Embeddings werden in den Value-Raum projiziert und mit den Attention-Gewichten gewichtet aufsummiert, um Kontextvektoren zu erzeugen.

Nächste Schritte

  • Als Nächstes sollen kausale Self-Attention und Multi-Head-Attention behandelt werden.
  • Geplant ist außerdem eine Untersuchung des „Warum“ hinter dem Self-Attention-Mechanismus.

Fazit

  • Dieser Blogbeitrag kann dabei helfen, den Self-Attention-Mechanismus zu verstehen.
  • Weitere Fragen oder Meinungen können in den Kommentaren hinterlassen werden.

Noch keine Kommentare.

Noch keine Kommentare.