LLMs von Grund auf bauen: 3-stündiger Coding-Workshop
(magazine.sebastianraschka.com)- Wenn du am Wochenende ein paar Stunden investieren möchtest, um Large Language Models (LLMs) zu verstehen, wurde eine 3-stündige Coding-Workshop-Präsentation zu Implementierung, Training und Nutzung vorbereitet
- Unten steht ein Inhaltsverzeichnis, das zeigt, was im Video behandelt wird (im Video selbst gibt es anklickbare Kapitelmarken, mit denen man direkt zu interessanten Themen springen kann)
Inhaltsverzeichnis
-
0:00 – Workshop-Überblick
-
2:17 – Teil 1: Einführung in LLMs
-
9:14 – Workshop-Materialien
-
10:48 – Teil 2: Eingabedaten für LLMs verstehen
-
23:25 – Einfache Tokenizer-Klasse
-
41:03 – Teil 3: LLM-Architektur programmieren
-
45:01 – GPT-2 und Llama 2
-
1:07:11 – Teil 4: Vortraining
-
1:29:37 – Teil 5.1: Vortrainierte Gewichte laden
-
1:45:12 – Teil 5.2: Vortrainierte Gewichte mit LitGPT
-
1:53:09 – Teil 6.1: Instruction Fine-Tuning
-
2:08:21 – Teil 6.2: Instruction Fine-Tuning mit LitGPT
-
2:26:45 – Teil 6.3: Benchmark-Auswertung
-
2:36:55 – Teil 6.4: Auswertung der Dialogleistung
-
2:42:40 – Fazit
-
Das ist etwas anders als die üblichen textbasierten Inhalte, aber als es vor ein paar Monaten gemacht wurde, war die Resonanz sehr gut, daher schien es sinnvoll, es noch einmal zu machen
-
Viel Spaß beim Anschauen!
Referenzmaterialien
- Buch Build an LLM from Scratch
- GitHub-Repository zu Build an LLM from Scratch
- GitHub-Repository mit dem Workshop-Code
- Lightning Studio für diesen Workshop
- LitGPT GitHub-Repository
Ahead of AI abonnieren
- Ein Projekt, das Sebastian Raschka vor 2 Jahren gestartet hat
- Ahead of AI spezialisiert sich auf Machine-Learning- und AI-Forschung und wird von Zehntausenden Forschenden und Praktikern gelesen, die in einem sich ständig wandelnden Feld vorne bleiben wollen
Zusammenfassung von GN⁺
- Dieser Workshop ist sehr nützlich für alle, die lernen möchten, wie man LLMs von Grund auf implementiert und trainiert
- Es werden Modelle wie GPT-2 und Llama 2 behandelt, und es wird erklärt, wie man vortrainierte Gewichte lädt und Instruction Fine-Tuning durchführt
- Für Menschen mit Interesse an Machine Learning und AI-Forschung kann das sehr spannend und hilfreich sein
- Ähnliche Projekte mit vergleichbaren Funktionen sind unter anderem die Transformers-Bibliothek von Hugging Face und die GPT-Modelle von OpenAI
1 Kommentare
Hacker-News-Kommentare
Mit der Meinung „Es ist immer gut, zu den Grundlagen zurückzukehren“ wurde für das Teilen gedankt.
Die Frage lautete: „Entschuldigt meine Unwissenheit, aber ich frage mich, ob sich das von Andrej Karpathys https://www.youtube.com/watch?v=kCc8FmEb1nY unterscheidet.“
Mit der Meinung „Sebastians Artikel ist gut“ wurde Vorfreude auf das Buch geäußert.