Zusammenfassung von Andrej Karpathys Video „Deep Dive in LLMs wie ChatGPT“

(anfalmushtaq.com)

2 Punkte von GN⁺ 2025-02-11 | 1 Kommentare | Auf WhatsApp teilen

Für wen ist dieser Deep Dive gedacht?

Das tatsächliche Funktionsprinzip von LLMs verstehen: Für Menschen, die über ein oberflächliches Verständnis hinaus wissen möchten, wie LLMs funktionieren.
Verwirrende Fine-Tuning-Begriffe verstehen: Für Menschen, die Begriffe wie chat_template und ChatML verstehen möchten.
Prompt Engineering verbessern: Für Menschen, die verstehen möchten, welche Prompts besser funktionieren.
Halluzinationen reduzieren: Für Menschen, die verhindern möchten, dass LLMs falsche Informationen erzeugen.
Die Bedeutung von DeepSeek-R1 verstehen: Für Menschen, die wissen möchten, warum DeepSeek-R1 derzeit so viel Aufmerksamkeit erhält.

Pretraining-Daten

Internet

LLMs crawlen das Internet, um riesige Textdatensätze aufzubauen.
Die Rohdaten sind voller doppelter Inhalte, minderwertiger Texte und irrelevanter Informationen, daher ist vor dem Training eine gründliche Filterung nötig.
Der FineWeb-Datensatz umfasst zum Beispiel mehr als 1,2 Milliarden Webseiten.

Tokenisierung

Tokenisierung ist die Methode, mit der Text vor der Verarbeitung durch das Modell in kleinere Einheiten (Tokens) zerlegt wird.
Dabei werden Techniken wie Byte Pair Encoding (BPE) verwendet.
GPT-4 verwendet 100.277 Tokens.

Ein- und Ausgabe des neuronalen Netzes

Die tokenisierten Daten werden in das neuronale Netz eingespeist.
Das Modell sagt auf Basis gelernter Muster das nächste Token voraus.
Die Gewichte werden angepasst, um Fehler zu verringern.

Im Inneren des neuronalen Netzes

Im Modell interagieren Milliarden von Parametern mit den Eingabe-Tokens und erzeugen eine Wahrscheinlichkeitsverteilung für das nächste Token.
Die Modellarchitektur ist so ausgelegt, dass sie Geschwindigkeit, Genauigkeit und Parallelisierung ausbalanciert.

Inferenz

LLMs erzeugen keine deterministischen Ausgaben, sondern arbeiten probabilistisch.
Bei jeder Ausführung fällt die Ausgabe leicht anders aus.
Durch diese Zufälligkeit können LLMs kreativ sein, erzeugen aber manchmal auch falsche Informationen.

GPT-2

GPT-2, 2019 von OpenAI veröffentlicht, ist ein frühes Beispiel für ein Transformer-basiertes LLM.
Es wurde mit 1,6 Milliarden Parametern, einer Kontextlänge von 1024 Tokens und rund 100 Milliarden Tokens trainiert.
Andrej Karpathy hat GPT-2 mit llm.c für 672 US-Dollar nachgebaut.

Open-Source-Grundmodelle

Einige Unternehmen trainieren große LLMs und veröffentlichen die Grundmodelle kostenlos.
Grundmodelle werden auf rohem Internet-Text trainiert, erzeugen Vervollständigungen, verstehen aber keine menschliche Absicht.
OpenAI hat GPT-2 als Open Source veröffentlicht.
Meta hat Llama 3.1 (405B Parameter) als Open Source veröffentlicht.

Vom Pretraining zum Post-Training

Grundmodelle erzeugen viele Halluzinationen.
Post-Training feinjustiert das Modell, damit es bessere Antworten gibt.
Post-Training ist deutlich günstiger als Pretraining.

Überwachtes Fine-Tuning (SFT)

Datengespräche

Ein Grundmodell wird nach dem Training auf Internet-Daten mit Mensch-/Assistant-Dialogen post-trainiert.
Mit Gesprächsvorlagen lernt das Modell, die Struktur einer Unterhaltung zu verstehen.

Halluzinationen, Tool-Nutzung und Speicher

Das Hauptproblem von LLMs sind Halluzinationen.
Meta beschreibt im Llama-3-Paper Methoden zur Verbesserung der Faktentreue.
Es gibt auch Wege, Halluzinationen durch den Einsatz von Tools zu reduzieren.

Reinforcement Learning

Das Modell wird auf Internet-Daten trainiert, weiß danach aber nicht automatisch, wie es sein Wissen effektiv einsetzen soll.
Reinforcement Learning (RL) verbessert das Modell durch Versuch und Irrtum.

So funktioniert RL

RL lässt das Modell verschiedene Lösungswege ausprobieren und die beste Lösung finden.
Zum Beispiel kann es 15 Lösungen erzeugen, von denen nur 4 richtig sind.

Reinforcement Learning from Human Feedback (RLHF)

In Bereichen, die sich nicht verifizieren lassen, müssen Menschen einbezogen werden.
RLHF verbessert das Modell mithilfe menschlichen Feedbacks.

Ausblick

Multimodale Fähigkeiten: Versteht und erzeugt nicht nur Text, sondern auch Bilder, Audio und Video.
Agentenbasierte Modelle: Können über Einzelaufgaben hinausgehen und Langzeitgedächtnis, Schlussfolgern und Fehlerkorrektur leisten.
Allgegenwärtige und unsichtbare AI: Wird sich natürlich in Workflows integrieren.
Computer-Using AI: Interagiert mit Software und erledigt mehr als nur Textgenerierung.

Wie man LLMs findet

Proprietäre Modelle: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude) usw.
Open-Weight-Modelle: DeepSeek, Meta (Llama) usw.
Lokal ausführen: Mit Ollama oder LM Studio.
Grundmodelle: Hyperbolic erkunden.

1 Kommentare

GN⁺ 2025-02-11

Hacker-News-Kommentare

Ich suche nach einem guten Ort für Diskussionen, nachdem das Originalvideo von der Hacker-News-Startseite verschwunden ist
Beim Ansehen des Videos sind bei mir einige Fragen aufgekommen
- Mathematik und LLMs
  - Ich frage mich, warum die meisten Beispiele, die Andrej für LLMs gezeigt hat, Rechenaufgaben sind
  - Ich denke, dass die Rechenfähigkeit von LLMs zwar stark und nützlich wird, aber keine grundlegende Fähigkeit ist
  - Ich fände es gut, Prompts, die die Kernfähigkeiten von LLMs zeigen, von mathematischen Berechnungen zu trennen
  - Es wäre schön, gute Referenzen zu Diskussionen über mathematische Fähigkeiten oder darüber zu haben, wie sinnvoll es ist, LLMs Mathematik ausführen zu lassen
- Meta
  - Andrej erwähnt kurz Situationen, in denen LLMs zum Trainieren und Bewerten anderer LLMs verwendet werden, aber es gibt dazu nicht viele Diskussionen
  - Ich würde gern mehr über die Grenzen und Risiken erfahren, wenn man LLMs zum Trainieren/Bewerten anderer LLMs verwendet
  - Es fühlt sich dem Manhattan-Projekt und Atomwaffen ähnlich an, dass frühe Ergebnisse und Fortschritte sofort in die Entwicklung mächtigerer Technologien zurückgespeist werden
Metas Ansatz zur Lösung des Halluzinationsproblems ist interessant
- Ein Teil der Trainingsdaten wird extrahiert und mit Llama 3 werden faktische Fragen erzeugt
- Llama 3 generiert Antworten, die dann mit den Originaldaten verglichen und bewertet werden
- Wenn die Antwort falsch ist, wird das Modell darauf trainiert, die falsche Antwort zu erkennen und abzulehnen
- Das läuft der natürlichen Tendenz von ML-Ingenieuren zuwider, und es ist wichtig, dem Modell beizubringen zu erkennen, was es nicht weiß
Andrejs Video ist großartig, aber die Erklärung des RL-Teils wirkt etwas vage
- Ich frage mich, wie auf richtige Antworten hin trainiert wird
- Ich frage mich, ob dabei der Reasoning-Prozess gesammelt und wie beim überwachten Lernen trainiert wird oder ob ein Score berechnet und als Loss-Funktion verwendet wird
- Belohnungen können sehr spärlich sein, und ich frage mich, was passiert, wenn ein Problem so schwierig ist, dass das LLM keine richtige Antwort erzeugen kann
- Parameter-Updates sind sequenziell; ich frage mich, wie man das Training von LLMs parallelisieren kann
Bei Minute 53 des Originalvideos wird gezeigt, wie genau ein LLM auf Basis von Text zitieren kann, den es gelernt hat
- Ich frage mich, wie große Unternehmen Gerichte davon überzeugt haben, dass das keine Urheberrechtsverletzung ist
- Wenn ich ein Modell darauf trainieren würde, Disney-Figuren zu zeichnen, würde ich mir vorstellen, sofort verklagt zu werden
Damit ein Modell "vollständig" Open Source ist, braucht man außer dem Modell selbst und der Art, es auszuführen, auch ein Programm, mit dem sich die Daten trainieren lassen
- Siehe die Open-Source-AI-Definition der OSI
Ich habe viele Artikel über LLMs gelesen und verstehe im Allgemeinen, wie sie funktionieren, aber ich frage mich immer, warum andere Modelle nicht so gut funktionieren wie SOTA-Modelle
- Ich frage mich nach der Geschichte und den Gründen der aktuellen Modellarchitektur
Ich habe heute einen guten Thread gesehen: [Link]
Schade, dass sein LLC in C nur ein Sprungbrett für seinen Kurs war
Wahrscheinlich eine wirklich großartige Zusammenfassung eines wirklich großartigen Vortrags
- Ich überlege, dem Original zu folgen
Ich habe das Video nicht gesehen, aber ich war neugierig auf den Tokenisierungs-Teil im TL;DR
- Wenn man sich den tokenisierten Text im verlinkten Artikel ansieht, ist es nicht "I View", sondern tatsächlich ein Pipe-Zeichen "|"
- Im Schritt 3 des Links, den @miletus in einem Hacker-News-Kommentar gepostet hat, lautet der tokenisierte Text "|Viewing Single (Post From) . . ."
- Die Großschreibung (View, Single) ergibt mehr Sinn, wenn man sich diesen Teil des Satzes ansieht

Zusammenfassung von Andrej Karpathys Video „Deep Dive in LLMs wie ChatGPT“

Für wen ist dieser Deep Dive gedacht?

Pretraining-Daten

Internet

Tokenisierung

Ein- und Ausgabe des neuronalen Netzes

Im Inneren des neuronalen Netzes

Inferenz

GPT-2

Open-Source-Grundmodelle

Vom Pretraining zum Post-Training

Überwachtes Fine-Tuning (SFT)

Datengespräche

Halluzinationen, Tool-Nutzung und Speicher

Reinforcement Learning

So funktioniert RL

Reinforcement Learning from Human Feedback (RLHF)

Ausblick

Wie man LLMs findet

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare