8 Punkte von GN⁺ 2026-01-05 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein von Andrej Karpathy persönlich geleiteter Kurs, in dem neuronale Netze von Grund auf im Code implementiert und so erlernt werden
  • Beginnend bei den Grundlagen der Backpropagation bis hin zum schrittweisen Aufbau moderner Deep-Learning-Modelle auf GPT-Niveau
  • Der Schwerpunkt liegt auf Sprachmodellen, mit praktischen Übungen zu zentralen Technologien wie PyTorch, torch.Tensor, BatchNorm, WaveNet und dem GPT-Tokenizer
  • Jede Lektion ist auf den realen Entwicklungsprozess ausgerichtet, darunter Modelltraining, Verlustberechnung, Hyperparameter-Tuning und Overfitting-Diagnose
  • Ein praxisorientiertes Curriculum, mit dem sich die interne Funktionsweise von Deep Learning und eine Intuition für Optimierung systematisch erlernen lassen

Kursüberblick

  • Dieser Kurs ist als Lernprozess aufgebaut, bei dem neuronale Netze direkt im Code implementiert werden
    • Erforderlich sind grundlegende Mathematikkenntnisse (Ableitungen, Gauß-Verteilung) sowie Python-Programmierkenntnisse
    • Für den Austausch zwischen Lernenden steht ein Discord-Kanal zur Verfügung
  • Gelernt wird mit Fokus auf Sprachmodelle, was auch für den Wissenstransfer in andere Bereiche (z. B. Computer Vision) nützlich ist

Kursaufbau (Syllabus)

1. Intro to Neural Networks and Backpropagation (2h25m)

  • micrograd wird direkt implementiert, während Backpropagation und der Trainingsprozess neuronaler Netze Schritt für Schritt erklärt werden
    • Verständlich mit grundlegenden Python-Kenntnissen und Analysis auf Oberstufenniveau

2. Intro to Language Modeling: Building makemore (1h57m)

  • Implementierung eines zeichenbasierten Bigramm-Sprachmodells
    • Behandelt werden die Verwendung von torch.Tensor und effiziente Methoden für Berechnungen mit neuronalen Netzen
    • Einschließlich Modelltraining, Sampling und Verlustbewertung (negative Log-Likelihood)

3. Building makemore Part 2: MLP (1h15m)

  • Implementierung eines zeichenbasierten Sprachmodells auf Basis eines Multi-Layer Perceptron (MLP)
    • Enthält grundlegende Machine-Learning-Konzepte wie Anpassung der Lernrate, Hyperparameter, Datenaufteilung (train/dev/test) sowie Overfitting/Underfitting

4. Building makemore Part 3: Activations & Gradients, BatchNorm (1h55m)

  • Analyse der internen Funktionsweise eines mehrschichtigen MLP durch Überprüfung der statistischen Eigenschaften von Aktivierungen und Gradienten
    • Einführung von Batch Normalization zur Verbesserung der Trainingsstabilität
    • Residual Connections und der Adam-Optimizer werden in späteren Videos behandelt

5. Building makemore Part 4: Becoming a Backprop Ninja (1h55m)

  • Durchführung von manueller Backpropagation ohne PyTorch autograd
    • Direkte Backpropagation für Cross-Entropy-Loss, tanh, BatchNorm, Embedding-Tabellen usw.
    • Stärkt das Verständnis für Gradientenfluss und Optimierungsintuition auf Tensor-Ebene

6. Building makemore Part 5: Building a WaveNet (56m)

  • Erweiterung des vorherigen 2-schichtigen MLP zu einer hierarchischen CNN-Struktur, ähnlich WaveNet (2016)
    • Praktische Arbeit zur internen Funktionsweise von torch.nn und zu Deep-Learning-Entwicklungs-Workflows (Dokumentationsrecherche, Verwaltung von Tensor-Dimensionen, Code-Integration usw.)

7. Let's Build GPT: From Scratch, in Code (1h56m)

  • Direkte Implementierung eines GPT-Modells entlang des Papers “Attention is All You Need” und der Architektur von OpenAI GPT-2/3
    • Erwähnt werden auch Bezüge zu ChatGPT und GitHub Copilot
    • Setzt autoregressives Sprachmodellieren und PyTorch-nn-Grundlagen aus den vorherigen makemore-Lektionen voraus

8. Let's Build the GPT Tokenizer (2h13m)

  • Implementierung des in der GPT-Reihe verwendeten Tokenizers von Grund auf
    • Einschließlich des Trainingsprozesses auf Basis von Byte Pair Encoding (BPE)
    • Direkte Implementierung der Funktionen zur String↔Token-Umwandlung (encode/decode)
    • Analyse anhand von Beispielen, dass ein Teil des anomalen Verhaltens von LLMs auf die Tokenisierung zurückzuführen ist
    • Einschließlich einer Diskussion über die mögliche Abschaffung des Tokenizers

Status

  • Der Kurs ist laufend (ongoing), weitere Videos sollen kontinuierlich hochgeladen werden

Noch keine Kommentare.

Noch keine Kommentare.