Blog-Einführung
- Dies ist der achte Beitrag einer Blogserie, die auf Sebastian Raschkas Buch "Build a Large Language Model (from Scratch)" basiert.
- In diesem Beitrag wird behandelt, wie man „trainable self-attention“ implementiert.
Funktionsweise eines GPT-artigen, nur aus Decodern bestehenden Transformer-basierten LLM
- Eine Zeichenfolge wird in Tokens aufgeteilt, und jedes Token wird auf eine Vektorsequenz abgebildet, um Token-Embeddings zu erzeugen.
- Positions-Embeddings werden erzeugt, um die Eingabe-Embedding-Sequenz zu bilden.
- Mithilfe der Eingabe-Embeddings werden Attention-Scores für jedes Token erzeugt.
- Die Attention-Scores werden normalisiert, um Attention-Gewichte zu erzeugen.
- Für jedes Token werden Kontextvektoren erzeugt.
Scaled Dot-Product Attention
- Zur Berechnung der Attention-Scores wird die Eingabesequenz auf drei Matrizen projiziert (Query, Key und Value).
- Die Attention-Scores werden normalisiert, um Attention-Gewichte zu erzeugen, die dann zur Berechnung der Kontextvektoren verwendet werden.
- Dieser gesamte Prozess wird durch effiziente Matrixmultiplikation ausgeführt.
Projektion zwischen Räumen mit Matrizen
- Matrizen werden verwendet, um Vektoren in Räume anderer Dimensionen zu projizieren.
- Eingabe-Embeddings werden in Query-, Key- und Value-Räume projiziert, um Attention-Scores zu berechnen.
Normalisierung der Attention-Scores
- Zur Normalisierung der Attention-Scores wird die Softmax-Funktion verwendet.
- Durch die Division durch die Quadratwurzel der Dimension wird normalisiert, um das Problem kleiner Gradienten zu lösen.
Erzeugung von Kontextvektoren
- Mithilfe der Attention-Gewichte werden die Kontextvektoren für jedes Token berechnet.
- Die Eingabe-Embeddings werden in den Value-Raum projiziert und mit den Attention-Gewichten gewichtet aufsummiert, um Kontextvektoren zu erzeugen.
Nächste Schritte
- Als Nächstes sollen kausale Self-Attention und Multi-Head-Attention behandelt werden.
- Geplant ist außerdem eine Untersuchung des „Warum“ hinter dem Self-Attention-Mechanismus.
Fazit
- Dieser Blogbeitrag kann dabei helfen, den Self-Attention-Mechanismus zu verstehen.
- Weitere Fragen oder Meinungen können in den Kommentaren hinterlassen werden.
Noch keine Kommentare.