1 Punkte von GN⁺ 2024-09-01 | 1 Kommentare | Auf WhatsApp teilen
  • Wenn du am Wochenende ein paar Stunden investieren möchtest, um Large Language Models (LLMs) zu verstehen, wurde eine 3-stündige Coding-Workshop-Präsentation zu Implementierung, Training und Nutzung vorbereitet
  • Unten steht ein Inhaltsverzeichnis, das zeigt, was im Video behandelt wird (im Video selbst gibt es anklickbare Kapitelmarken, mit denen man direkt zu interessanten Themen springen kann)

Inhaltsverzeichnis

  • 0:00 – Workshop-Überblick

  • 2:17 – Teil 1: Einführung in LLMs

  • 9:14 – Workshop-Materialien

  • 10:48 – Teil 2: Eingabedaten für LLMs verstehen

  • 23:25 – Einfache Tokenizer-Klasse

  • 41:03 – Teil 3: LLM-Architektur programmieren

  • 45:01 – GPT-2 und Llama 2

  • 1:07:11 – Teil 4: Vortraining

  • 1:29:37 – Teil 5.1: Vortrainierte Gewichte laden

  • 1:45:12 – Teil 5.2: Vortrainierte Gewichte mit LitGPT

  • 1:53:09 – Teil 6.1: Instruction Fine-Tuning

  • 2:08:21 – Teil 6.2: Instruction Fine-Tuning mit LitGPT

  • 2:26:45 – Teil 6.3: Benchmark-Auswertung

  • 2:36:55 – Teil 6.4: Auswertung der Dialogleistung

  • 2:42:40 – Fazit

  • Das ist etwas anders als die üblichen textbasierten Inhalte, aber als es vor ein paar Monaten gemacht wurde, war die Resonanz sehr gut, daher schien es sinnvoll, es noch einmal zu machen

  • Viel Spaß beim Anschauen!

Referenzmaterialien

  1. Buch Build an LLM from Scratch
  2. GitHub-Repository zu Build an LLM from Scratch
  3. GitHub-Repository mit dem Workshop-Code
  4. Lightning Studio für diesen Workshop
  5. LitGPT GitHub-Repository

Ahead of AI abonnieren

  • Ein Projekt, das Sebastian Raschka vor 2 Jahren gestartet hat
  • Ahead of AI spezialisiert sich auf Machine-Learning- und AI-Forschung und wird von Zehntausenden Forschenden und Praktikern gelesen, die in einem sich ständig wandelnden Feld vorne bleiben wollen

Zusammenfassung von GN⁺

  • Dieser Workshop ist sehr nützlich für alle, die lernen möchten, wie man LLMs von Grund auf implementiert und trainiert
  • Es werden Modelle wie GPT-2 und Llama 2 behandelt, und es wird erklärt, wie man vortrainierte Gewichte lädt und Instruction Fine-Tuning durchführt
  • Für Menschen mit Interesse an Machine Learning und AI-Forschung kann das sehr spannend und hilfreich sein
  • Ähnliche Projekte mit vergleichbaren Funktionen sind unter anderem die Transformers-Bibliothek von Hugging Face und die GPT-Modelle von OpenAI

1 Kommentare

 
GN⁺ 2024-09-01
Hacker-News-Kommentare
  • Mit der Meinung „Es ist immer gut, zu den Grundlagen zurückzukehren“ wurde für das Teilen gedankt.

  • Die Frage lautete: „Entschuldigt meine Unwissenheit, aber ich frage mich, ob sich das von Andrej Karpathys https://www.youtube.com/watch?v=kCc8FmEb1nY unterscheidet.“

    • Dazu die Anmerkung: „Ich werde es mir heute Abend vor dem Schlafengehen auf jeden Fall ansehen.“
  • Mit der Meinung „Sebastians Artikel ist gut“ wurde Vorfreude auf das Buch geäußert.

    • Es gebe viele Details zur Zusammensetzung von LLMs, und man wünsche sich eine ausführlichere Darstellung dazu, wie Llama und OpenAI ihre Trainingsdaten aufbereiten und strukturieren.
    • Dazu die Einschätzung: „Ich denke, das wird langfristig die wichtige Auseinandersetzung sein.“