Neuronale Netze: Vom Zero zum Hero

(karpathy.ai)

8 Punkte von GN⁺ 2026-01-05 | Noch keine Kommentare. | Auf WhatsApp teilen

Ein von Andrej Karpathy persönlich geleiteter Kurs, in dem neuronale Netze von Grund auf im Code implementiert und so erlernt werden
Beginnend bei den Grundlagen der Backpropagation bis hin zum schrittweisen Aufbau moderner Deep-Learning-Modelle auf GPT-Niveau
Der Schwerpunkt liegt auf Sprachmodellen, mit praktischen Übungen zu zentralen Technologien wie PyTorch, torch.Tensor, BatchNorm, WaveNet und dem GPT-Tokenizer
Jede Lektion ist auf den realen Entwicklungsprozess ausgerichtet, darunter Modelltraining, Verlustberechnung, Hyperparameter-Tuning und Overfitting-Diagnose
Ein praxisorientiertes Curriculum, mit dem sich die interne Funktionsweise von Deep Learning und eine Intuition für Optimierung systematisch erlernen lassen

Kursüberblick

Dieser Kurs ist als Lernprozess aufgebaut, bei dem neuronale Netze direkt im Code implementiert werden
- Erforderlich sind grundlegende Mathematikkenntnisse (Ableitungen, Gauß-Verteilung) sowie Python-Programmierkenntnisse
- Für den Austausch zwischen Lernenden steht ein Discord-Kanal zur Verfügung
Gelernt wird mit Fokus auf Sprachmodelle, was auch für den Wissenstransfer in andere Bereiche (z. B. Computer Vision) nützlich ist

micrograd wird direkt implementiert, während Backpropagation und der Trainingsprozess neuronaler Netze Schritt für Schritt erklärt werden
- Verständlich mit grundlegenden Python-Kenntnissen und Analysis auf Oberstufenniveau

Implementierung eines zeichenbasierten Bigramm-Sprachmodells
- Behandelt werden die Verwendung von torch.Tensor und effiziente Methoden für Berechnungen mit neuronalen Netzen
- Einschließlich Modelltraining, Sampling und Verlustbewertung (negative Log-Likelihood)

Implementierung eines zeichenbasierten Sprachmodells auf Basis eines Multi-Layer Perceptron (MLP)
- Enthält grundlegende Machine-Learning-Konzepte wie Anpassung der Lernrate, Hyperparameter, Datenaufteilung (train/dev/test) sowie Overfitting/Underfitting

Analyse der internen Funktionsweise eines mehrschichtigen MLP durch Überprüfung der statistischen Eigenschaften von Aktivierungen und Gradienten
- Einführung von Batch Normalization zur Verbesserung der Trainingsstabilität
- Residual Connections und der Adam-Optimizer werden in späteren Videos behandelt

Durchführung von manueller Backpropagation ohne PyTorch autograd
- Direkte Backpropagation für Cross-Entropy-Loss, tanh, BatchNorm, Embedding-Tabellen usw.
- Stärkt das Verständnis für Gradientenfluss und Optimierungsintuition auf Tensor-Ebene

Erweiterung des vorherigen 2-schichtigen MLP zu einer hierarchischen CNN-Struktur, ähnlich WaveNet (2016)
- Praktische Arbeit zur internen Funktionsweise von torch.nn und zu Deep-Learning-Entwicklungs-Workflows (Dokumentationsrecherche, Verwaltung von Tensor-Dimensionen, Code-Integration usw.)

Direkte Implementierung eines GPT-Modells entlang des Papers “Attention is All You Need” und der Architektur von OpenAI GPT-2/3
- Erwähnt werden auch Bezüge zu ChatGPT und GitHub Copilot
- Setzt autoregressives Sprachmodellieren und PyTorch-nn-Grundlagen aus den vorherigen makemore-Lektionen voraus

Implementierung des in der GPT-Reihe verwendeten Tokenizers von Grund auf
- Einschließlich des Trainingsprozesses auf Basis von Byte Pair Encoding (BPE)
- Direkte Implementierung der Funktionen zur String↔Token-Umwandlung (encode/decode)
- Analyse anhand von Beispielen, dass ein Teil des anomalen Verhaltens von LLMs auf die Tokenisierung zurückzuführen ist
- Einschließlich einer Diskussion über die mögliche Abschaffung des Tokenizers

Der Kurs ist laufend (ongoing), weitere Videos sollen kontinuierlich hochgeladen werden