Für wen ist dieser Deep Dive gedacht?
- Das tatsächliche Funktionsprinzip von LLMs verstehen: Für Menschen, die über ein oberflächliches Verständnis hinaus wissen möchten, wie LLMs funktionieren.
- Verwirrende Fine-Tuning-Begriffe verstehen: Für Menschen, die Begriffe wie
chat_template und ChatML verstehen möchten.
- Prompt Engineering verbessern: Für Menschen, die verstehen möchten, welche Prompts besser funktionieren.
- Halluzinationen reduzieren: Für Menschen, die verhindern möchten, dass LLMs falsche Informationen erzeugen.
- Die Bedeutung von DeepSeek-R1 verstehen: Für Menschen, die wissen möchten, warum DeepSeek-R1 derzeit so viel Aufmerksamkeit erhält.
Pretraining-Daten
Internet
- LLMs crawlen das Internet, um riesige Textdatensätze aufzubauen.
- Die Rohdaten sind voller doppelter Inhalte, minderwertiger Texte und irrelevanter Informationen, daher ist vor dem Training eine gründliche Filterung nötig.
- Der FineWeb-Datensatz umfasst zum Beispiel mehr als 1,2 Milliarden Webseiten.
Tokenisierung
- Tokenisierung ist die Methode, mit der Text vor der Verarbeitung durch das Modell in kleinere Einheiten (Tokens) zerlegt wird.
- Dabei werden Techniken wie Byte Pair Encoding (BPE) verwendet.
- GPT-4 verwendet 100.277 Tokens.
Ein- und Ausgabe des neuronalen Netzes
- Die tokenisierten Daten werden in das neuronale Netz eingespeist.
- Das Modell sagt auf Basis gelernter Muster das nächste Token voraus.
- Die Gewichte werden angepasst, um Fehler zu verringern.
Im Inneren des neuronalen Netzes
- Im Modell interagieren Milliarden von Parametern mit den Eingabe-Tokens und erzeugen eine Wahrscheinlichkeitsverteilung für das nächste Token.
- Die Modellarchitektur ist so ausgelegt, dass sie Geschwindigkeit, Genauigkeit und Parallelisierung ausbalanciert.
Inferenz
- LLMs erzeugen keine deterministischen Ausgaben, sondern arbeiten probabilistisch.
- Bei jeder Ausführung fällt die Ausgabe leicht anders aus.
- Durch diese Zufälligkeit können LLMs kreativ sein, erzeugen aber manchmal auch falsche Informationen.
GPT-2
- GPT-2, 2019 von OpenAI veröffentlicht, ist ein frühes Beispiel für ein Transformer-basiertes LLM.
- Es wurde mit 1,6 Milliarden Parametern, einer Kontextlänge von 1024 Tokens und rund 100 Milliarden Tokens trainiert.
- Andrej Karpathy hat GPT-2 mit llm.c für 672 US-Dollar nachgebaut.
Open-Source-Grundmodelle
- Einige Unternehmen trainieren große LLMs und veröffentlichen die Grundmodelle kostenlos.
- Grundmodelle werden auf rohem Internet-Text trainiert, erzeugen Vervollständigungen, verstehen aber keine menschliche Absicht.
- OpenAI hat GPT-2 als Open Source veröffentlicht.
- Meta hat Llama 3.1 (405B Parameter) als Open Source veröffentlicht.
Vom Pretraining zum Post-Training
- Grundmodelle erzeugen viele Halluzinationen.
- Post-Training feinjustiert das Modell, damit es bessere Antworten gibt.
- Post-Training ist deutlich günstiger als Pretraining.
Überwachtes Fine-Tuning (SFT)
Datengespräche
- Ein Grundmodell wird nach dem Training auf Internet-Daten mit Mensch-/Assistant-Dialogen post-trainiert.
- Mit Gesprächsvorlagen lernt das Modell, die Struktur einer Unterhaltung zu verstehen.
Halluzinationen, Tool-Nutzung und Speicher
- Das Hauptproblem von LLMs sind Halluzinationen.
- Meta beschreibt im Llama-3-Paper Methoden zur Verbesserung der Faktentreue.
- Es gibt auch Wege, Halluzinationen durch den Einsatz von Tools zu reduzieren.
Reinforcement Learning
- Das Modell wird auf Internet-Daten trainiert, weiß danach aber nicht automatisch, wie es sein Wissen effektiv einsetzen soll.
- Reinforcement Learning (RL) verbessert das Modell durch Versuch und Irrtum.
So funktioniert RL
- RL lässt das Modell verschiedene Lösungswege ausprobieren und die beste Lösung finden.
- Zum Beispiel kann es 15 Lösungen erzeugen, von denen nur 4 richtig sind.
Reinforcement Learning from Human Feedback (RLHF)
- In Bereichen, die sich nicht verifizieren lassen, müssen Menschen einbezogen werden.
- RLHF verbessert das Modell mithilfe menschlichen Feedbacks.
Ausblick
- Multimodale Fähigkeiten: Versteht und erzeugt nicht nur Text, sondern auch Bilder, Audio und Video.
- Agentenbasierte Modelle: Können über Einzelaufgaben hinausgehen und Langzeitgedächtnis, Schlussfolgern und Fehlerkorrektur leisten.
- Allgegenwärtige und unsichtbare AI: Wird sich natürlich in Workflows integrieren.
- Computer-Using AI: Interagiert mit Software und erledigt mehr als nur Textgenerierung.
Wie man LLMs findet
- Proprietäre Modelle: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude) usw.
- Open-Weight-Modelle: DeepSeek, Meta (Llama) usw.
- Lokal ausführen: Mit Ollama oder LM Studio.
- Grundmodelle: Hyperbolic erkunden.
1 Kommentare
Hacker-News-Kommentare
Ich suche nach einem guten Ort für Diskussionen, nachdem das Originalvideo von der Hacker-News-Startseite verschwunden ist
Beim Ansehen des Videos sind bei mir einige Fragen aufgekommen
Metas Ansatz zur Lösung des Halluzinationsproblems ist interessant
Andrejs Video ist großartig, aber die Erklärung des RL-Teils wirkt etwas vage
Bei Minute 53 des Originalvideos wird gezeigt, wie genau ein LLM auf Basis von Text zitieren kann, den es gelernt hat
Damit ein Modell "vollständig" Open Source ist, braucht man außer dem Modell selbst und der Art, es auszuführen, auch ein Programm, mit dem sich die Daten trainieren lassen
Ich habe viele Artikel über LLMs gelesen und verstehe im Allgemeinen, wie sie funktionieren, aber ich frage mich immer, warum andere Modelle nicht so gut funktionieren wie SOTA-Modelle
Ich habe heute einen guten Thread gesehen: [Link]
Schade, dass sein LLC in C nur ein Sprungbrett für seinen Kurs war
Wahrscheinlich eine wirklich großartige Zusammenfassung eines wirklich großartigen Vortrags
Ich habe das Video nicht gesehen, aber ich war neugierig auf den Tokenisierungs-Teil im TL;DR