- Dies ist eine kurze Zusammenfassung von Andrej Karpathys 3 Stunden und 31 Minuten langem Deep-Dive-Video zu LLMs für Leser, die in einem Zug verstehen möchten, wie sie funktionieren, was Fine-Tuning-Begriffe bedeuten, wie Prompts, Halluzinationen und sogar DeepSeek-R1 einzuordnen sind
- LLMs werden trainiert, indem große Web-Textmengen bereinigt und tokenisiert werden; anschließend lernen sie, innerhalb eines Kontextfensters das nächste Token vorherzusagen, wobei längere Kontexte mehr Informationen berücksichtigen, aber die Rechenkosten erhöhen
- Ein vortrainiertes base model ist eher ein probabilistischer Autovervollständiger im Stil von Internettexten; um ein dialogfähiger Assistent zu werden, braucht es nachgelagertes Training wie SFT und Alignment
- Um Halluzinationen zu reduzieren, sollte das Modell unbekannte Fragen ablehnen oder per Tool-Nutzung bzw. RAG aktuelle Informationen nachschlagen; bei Mathematik- und Logikaufgaben funktionieren schrittweise Generierung und externe Tools besser
- Reinforcement Learning bringt das Modell dazu, mehrere Antworten auszuprobieren und aus erfolgreichen Lösungswegen zu lernen, aber bei RLHF bleibt das Risiko von Überoptimierung und Ausnutzung des Reward-Modells bestehen, weil dieses nur eine Annäherung an menschliche Präferenzen ist
Für welche Leser diese Zusammenfassung gedacht ist
- Andrej Karpathys "Deep dive into LLMs like ChatGPT" ist ein 3 Stunden und 31 Minuten langes Video; dies ist ein TL;DR für Leser, die die Kernaussagen ohne die lange Laufzeit mitnehmen möchten
- Besonders passend ist es für folgende Leser
- Menschen, die verstehen möchten, wie LLMs nicht nur oberflächlich, sondern tatsächlich funktionieren
- Menschen, die Fine-Tuning-Begriffe wie
chat_template oder ChatML verstehen möchten
- Menschen, die besser nachvollziehen möchten, warum Prompts funktionieren oder scheitern, um ihr Prompt Engineering zu verbessern
- Menschen, die Halluzinationen von LLMs verringern möchten
- Menschen, die verstehen möchten, warum DeepSeek-R1 so viel Aufmerksamkeit bekommt
- Das im Video verwendete Excalidraw-Diagramm kann über einen separat auf dem CDN gehosteten Download-Link heruntergeladen werden
Vortrainingsdaten und Tokenisierung
- LLMs crawlen das Internet, um große Textdatensätze zu erstellen, doch die Rohdaten enthalten viele duplizierte Inhalte, minderwertige Texte und irrelevante Informationen, weshalb vor dem Training stark gefiltert werden muss
- Für ein rein englisches Modell sind Heuristiken nötig, die nur Texte mit hoher Wahrscheinlichkeit auf Englisch behalten
- Der Beispieldatensatz FineWeb enthält mehr als 1,2 Milliarden Webseiten
- Bereinigter Text geht nicht direkt im Original in das Modell ein, sondern wird in Token umgewandelt, also IDs für wiederkehrende Muster
- Ein typisches Verfahren ist Byte Pair Encoding (BPE)
- GPT-4 verwendet 100.277 Token, und die Anzahl hängt von den Entscheidungen des Modellherstellers ab
- Mit Tiktokenizer lässt sich der Tokenisierungsprozess visualisieren
Ein- und Ausgabe des neuronalen Netzes sowie interne Funktionsweise
- Tokenisierte Daten werden in das neuronale Netz eingespeist, und das Modell sagt innerhalb eines festgelegten Kontextfensters das nächste Token voraus
- Manche Modelle nutzen 8.000 Token, GPT-4 bis zu 128k Kontext
- Das Modell prognostiziert das nächste Token auf Basis gelernter Muster und passt per Backpropagation seine Gewichte an, um Fehler zu verringern
- Ein langes Kontextfenster lässt mehr Inhalte aus der Eingabe einfließen, erhöht aber die Rechenkosten
- Im Inneren interagieren Milliarden von Parametern mit den Eingabetokens und erzeugen eine Wahrscheinlichkeitsverteilung für das nächste Token
- Dieser Prozess ist durch komplexe mathematische Gleichungen definiert, die auf Effizienz optimiert sind
- Die Architektur ist so ausgelegt, dass sie Geschwindigkeit, Genauigkeit und Parallelisierung ausbalanciert
- Ein Beispiel für eine LLM-Architektur auf Produktionsniveau gibt es unter bbycroft.net/llm
- Die Inferenz eines LLM ist nicht deterministisch, sondern probabilistisch
- Selbst beim selben Modell unterscheidet sich die Ausgabe leicht von Lauf zu Lauf
- Meist erzeugt es neuen Text nach Mustern, die den Trainingsdaten ähneln; in manchen Fällen kann ein Teil der Trainingsdaten aber exakt reproduziert werden
- Diese Zufälligkeit ist eine Quelle kreativer Ausgaben, kann aber auch zu Halluzinationen führen, also zu erfundenen falschen Informationen
GPT-2 und veränderte Trainingskosten
- Das 2019 von OpenAI veröffentlichte GPT-2 ist ein Beispiel für ein frühes Transformer-basiertes LLM
-
1,6 Milliarden Parameter
-
Kontextlänge von 1024 Token
- trainiert mit rund 100 Milliarden Token
- ursprüngliche Trainingskosten: 40.000 US-Dollar
- seitdem hat sich die Effizienz stark verbessert
- Andrej Karpathy reproduzierte GPT-2 mit llm.c für 672 US-Dollar
- mit einer optimierten Pipeline könnten die Trainingskosten auf etwa 100 US-Dollar weiter sinken
- der Kostenrückgang kommt aus saubereren Daten und besseren Ausführungsumgebungen
- mit besseren Verfahren zur Extraktion von Vortrainingsdaten werden Datensätze stärker bereinigt, sodass das Modell schneller lernt
- dank leistungsfähigerer Hardware und optimierter Software sinkt die für dasselbe Ergebnis nötige Rechenmenge
Open base model und die Grenzen des base model
- Mit open base model ist hier kein Modell gemeint, das strikt der Open-Source-AI-Definition der OSI folgt, sondern ein Modell, dessen Gewichte öffentlich sind, bei dem aber Trainingsdaten und vollständige Reproduzierbarkeit fehlen können
- OpenAIs GPT-2 ist ein Open-Weight- und source-available-Modell, aber kein vollständig Open-Source-Modell im Sinn der OSI-Definition, weil die Trainingsdaten nicht veröffentlicht wurden
- Metas Llama 3.1 405B ist ein Open-Weight-Modell, aber kein Open-Source-Modell
- Ein base model ist ein roh vortrainiertes Sprachmodell und braucht für praktische Nutzung Fine-Tuning oder Alignment
- Es wurde auf ungefilterten Daten in Internetgröße trainiert und erzeugt rohe Vervollständigungen
- Alignment an menschliche Absichten ist nur unzureichend vorhanden
- Um ein base model zu veröffentlichen, braucht man in der Regel zwei Dinge
- Inferenz-Code: definiert das Verfahren, mit dem das Modell Text erzeugt
- Modellgewichte: Milliarden von Parametern, in denen das Wissen des Modells steckt
- Die Eigenschaften eines base model sind im Kern folgende
- Es erzeugt Internettext Stil für Stil auf Token-Basis
- Die Ausgabe fällt bei jedem Lauf leicht anders aus
- Es kann Teile der Trainingsdaten wortwörtlich reproduzieren
- Seine Parameter lassen sich als verlustbehaftet komprimierte ZIP-Datei des Internetwissens betrachten
- Es lässt sich für Übersetzungen mit In-Context-Beispielen oder für einfache Assistenten mit strukturierten Prompts nutzen
- Mit dem Llama 3 405B base model kann man direkt experimentieren; im Kern ist ein base model nahe an einer teuren Autovervollständigung
Vom Vortraining zum Nachtraining
- Ein base model ist nur ein vortrainierter Textgenerator; um einen echten Assistenten zu bauen, braucht es Nachtraining
- Es kann zwar Text erzeugen, liefert aber nicht immer nützliche Antworten und produziert viele Halluzinationen
- Nachtraining ist der Prozess, das Modell so feinzujustieren, dass es bessere Antworten gibt
- Vortraining kann mehrere Monate dauern, Nachtraining ist dagegen viel günstiger und kann in wenigen Stunden abgeschlossen sein
Überwachtes Fine-Tuning und Dialogdaten
- Nach dem Vortraining wird das Modell nicht mehr mit Internetdatensätzen, sondern mit Mensch/Assistent-Dialogdaten nachtrainiert, damit es dialogfähiger und nützlicher wird
- Der Modellalgorithmus bleibt gleich, nur die vorhandenen Parameter werden feinjustiert
- Frühe Nachtrainingsdatensätze wurden manuell kuratiert, doch Modelle wie UltraChat können synthetische Dialoge erzeugen
- Um Dialogstruktur zu vermitteln, wird ein chat template verwendet
- Ein Beispiel-Template sieht so aus
<|im_start|>system<|im_sep|>You are a helpful assistant<|im_end|>
<|im_start|>user<|im_sep|>What is 4 + 4?<|im_end|>
<|im_start|>assistant<|im_sep|>4 + 4 = 8<|im_end|>
<|im_start|>, <|im_end|> sind Spezialtoken, die bei der Dialogstruktur helfen
- Das Modell hat diese neuen Token im Vortraining nicht gesehen; sie werden erst im Nachtraining eingeführt
- OpenAIs InstructGPT-Paper behandelt Fine-Tuning für dialogorientierte LLMs
- Ein Beispiel für einen Nachtrainingsdatensatz ist OASST1; synthetische Datensätze lassen sich in Nomic Atlas visualisieren
Halluzinationen, Tool-Nutzung und Gedächtnis
- Eines der Hauptprobleme von LLMs sind Halluzinationen, also selbstbewusst vorgetragene falsche oder erfundene Informationen
- Im Nachtraining kann das Modell lernen, dass es immer antworten soll
- Selbst wenn eine Frage keinen Sinn ergibt, versucht es eher eine Antwort zu erzeugen, als „ich weiß es nicht“ zu sagen
- Metas Llama-3-Paper nutzt zur Verbesserung der Faktentreue folgenden Ablauf
- Es extrahiert einen Teil der Trainingsdaten
- Llama 3 erzeugt dazu faktische Fragen
- Llama 3 generiert Antworten
- Die Antworten werden mit den Originaldaten verglichen und bewertet
- Bei Fehlern wird das Modell darauf trainiert, falsche Antworten zu erkennen und abzulehnen
- Eine Methode zur Verringerung von Halluzinationen besteht darin, das Modell dazu zu trainieren, bei fehlendem Wissen Tools zu verwenden
<|im_start|>user<|im_sep|>Who is Orson Kovacs?<|im_end|>
<|im_start|>assistant<|im_sep|><SEARCH_START>Who is Orson Kovacs?<SEARCH_END><|im_end|>
[...search results...]
<|im_start|>assistant<|im_sep|>Orson Kovacs is ....<|im_end|>
- Durch wiederholtes Training lernt das Modell, lieber zu suchen als Unbekanntes zu erfinden
- Modellparameter speichern vage Erinnerungen, ähnlich wie an etwas von vor einem Monat; Kontexttokens funktionieren eher wie Arbeitsgedächtnis für aktuelle Informationen
- RAG funktioniert oft gut, weil das Modell bei direktem Zugriff auf relevante Dokumente weniger raten muss
Selbstwahrnehmung des Modells und Reasoning-Token
- Fragt man ein nicht getuntes base model „Wer bist du?“, ist eine Halluzination wahrscheinlich
- Auch wenn es nicht von OpenAI stammt, kann es antworten, OpenAI habe es erstellt, weil AI-Modelle und OpenAI in Internetdaten oft gemeinsam auftauchen
- Zwei Wege, das zu korrigieren
- Ohne separates Training fällt ein LLM bei Aussagen über sich selbst auf generische AI-Antworten zurück, ohne echtes Wissen über die eigene Identität
- LLMs schlussfolgern nicht wie Menschen, sondern erzeugen Token nacheinander; um richtig „nachzudenken“, brauchen sie strukturierte Generierung
- Ein direkter Sprung zur Antwort ist oft eher Raten
- Eine schrittweise Herleitung ist verlässlicher
- Da die Zahl der Modellschichten endlich ist, kann die Verarbeitung pro Token nicht beliebig tief werden; Probleme in kleine Schritte zu zerlegen erhöht die Chance auf die richtige Lösung
- Bei Mathematik- und Logikaufgaben ist es oft besser, das Modell externe Tools nutzen zu lassen, statt sich nur auf seine interne Schlussfolgerung zu verlassen
Reinforcement Learning und DeepSeek
- Ein vortrainiertes Modell hat zwar Wissen, weiß aber noch nicht unbedingt, wie es dieses Wissen effektiv einsetzt
- Überwachtes Fine-Tuning lehrt es, menschliche Antworten zu imitieren
- Reinforcement Learning hilft ihm, über Versuch und Irrtum bessere Lösungen zu finden
- Ein Beispiel für einen Reinforcement-Learning-Ablauf
- Es erzeugt 15 Lösungen für dasselbe Problem
- Wenn davon nur 4 korrekt sind, werden die richtigen und kurzen Top-Lösungen ausgewählt
- Mit diesen ausgewählten Lösungen wird trainiert, und dieser Prozess wird oft wiederholt
- Menschen sind dabei nicht direkt im Loop; das Modell erzeugt viele Lösungen für dieselbe Aufgabe und lernt aus denen, die zur richtigen Antwort führen
- Vortraining und Nachtraining sind gut definiert, aber Reinforcement Learning ist noch ein aktives Forschungsfeld
- Auch Unternehmen wie OpenAI forschen viel daran, aber vieles ist nicht öffentlich
- DeepSeeks Paper behandelt RL und FT für LLMs offen und beschreibt, wie damit Reasoning-Fähigkeiten hervorgebracht werden
- Im Beispiel aus dem DeepSeek-Paper verbessert das Modell seine Schlussfolgerung mit der Zeit, indem es mehr Token verwendet
- Solche sogenannten „aha“-Momente lassen sich nur schwer explizit allein durch Datensatzlernen beibringen; sie müssen eher vom Modell selbst über Reinforcement Learning entdeckt werden
- Der Vorteil ist besseres Reasoning, der Nachteil ein höherer Tokenverbrauch
AlphaGo und das Potenzial von Reinforcement Learning
- In der Forschung zum Go-Meistersystem geht Reinforcement Learning über bloße Imitation von Menschen hinaus und lässt das Modell über Versuch und Irrtum eigene Strategien finden
- Der im AlphaGo-Match bekannt gewordene Move 37 wird nicht als Zug aus den Trainingsdaten beschrieben, sondern als Strategie, die das Modell zum Gewinnen selbst hervorgebracht hat
- Forschende schätzten die Wahrscheinlichkeit, dass ein Mensch diesen Zug spielen würde, auf 1 zu 10.000
- Reinforcement Learning enthält noch viele unerforschte Bereiche, und die Forschung läuft weiter
- Wenn ein LLM zu dem Schluss käme, dass dies die beste Art ist, Gedanken und Ideen auszudrücken, könnte es sogar eine eigene Sprache entwickeln
Nicht verifizierbare Bereiche und RLHF
- In verifizierbaren Bereichen ist es leichter, Menschen aus dem Reinforcement-Learning-Prozess herauszunehmen, und LLMs können gewissermaßen als Richter ihrer eigenen Leistung dienen
- In nicht verifizierbaren Bereichen wie Witzeschreiben oder Zusammenfassen müssen Menschen im Loop bleiben
- Bei einem Prompt wie
Write a joke about pelicans ist es schwer, die Witzqualität automatisch zu bewerten
- Ein LLM kann Witze erzeugen, aber deren Qualität in großem Maßstab zu beurteilen ist schwierig
- Da Menschen sich nicht einfach in großem Umfang einsetzen lassen, braucht es den im RLHF-Paper beschriebenen Ansatz
- RLHF trainiert ein separates Reward-Modell, das die Qualität von Antworten in großem Maßstab bewertet
- Menschen bewerten die Rangfolge von Antworten
- Mit diesen Bewertungen wird das Reward-Modell bis zum gewünschten Niveau trainiert
- Danach bewertet das Reward-Modell in großem Maßstab die Qualität von LLM-Antworten
Vorteile und Grenzen von RLHF
- Zu den Vorteilen von RLHF gehören
- Reinforcement Learning wird auch in nicht verifizierbaren Bereichen wie Witzeschreiben oder Zusammenfassen möglich
- Es reduziert häufig Halluzinationen und macht Antworten menschlicher
- Es nutzt die discriminator-generator gap, also dass Menschen Antworten leichter bewerten als selbst erzeugen können
- Beispiel: Es ist einfacher, aus fünf Gedichten das beste auszuwählen, als selbst eines zu schreiben
- Aber auch die Grenzen von RLHF sind klar
- Das Reward-Modell ist kein echter Mensch, sondern eine Simulation menschlicher Präferenzen
- Reinforcement Learning kann adversariale Beispiele erzeugen, die Schwächen des Reward-Modells ausnutzen
- Nach 1.000 Updates könnte etwa der „beste Witz über Pelikane“ in einem sinnlosen Ergebnis wie
the the the the the the the the enden
- Solche Probleme sind unter Adversarial Machine Learning bekannt
- Da es unendlich viele Wege gibt, ein System auszutricksen, ist das Herausfiltern schlechter Antworten nicht trivial
- Um Überoptimierung und Leistungsabfall zu vermeiden, wird das Training des Reward-Modells auf einige hundert Iterationen begrenzt
Die künftige Richtung von LLMs
- Künftige LLMs könnten sich in mehrere Richtungen erweitern
- Multimodale Fähigkeiten: nicht nur Text, sondern auch Bilder, Audio und Video verstehen und erzeugen
- Agentenbasierte Modelle: über Einzelaufgaben hinaus zu Langzeitgedächtnis, Reasoning und Fehlerkorrektur
- Alltägliche und unsichtbare AI: natürliche Integration in Workflows
- AI zur Computernutzung: nicht nur Text erzeugen, sondern mit Software interagieren und Aktionen ausführen
- Test-Time Learning: sich in Echtzeit anpassen, um die Genauigkeit unmittelbar zu erhöhen
Wo man LLMs verfolgen und damit experimentieren kann
- Ressourcen, um die Entwicklung von LLMs zu verfolgen
- Orte, an denen man verschiedene LLMs ausprobieren kann
- Proprietary Models: OpenAI GPT-4, Google Gemini, Anthropic Claude usw.
- Open-Weight Models: etwa DeepSeek und Meta Llama; nutzbar über Together.ai
- Lokal ausführen: mit Ollama oder LM Studio
- Base Models: lassen sich über Hyperbolic erkunden
Noch keine Kommentare.