2 Punkte von GN⁺ 2025-02-11 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Dies ist eine kurze Zusammenfassung von Andrej Karpathys 3 Stunden und 31 Minuten langem Deep-Dive-Video zu LLMs für Leser, die in einem Zug verstehen möchten, wie sie funktionieren, was Fine-Tuning-Begriffe bedeuten, wie Prompts, Halluzinationen und sogar DeepSeek-R1 einzuordnen sind
  • LLMs werden trainiert, indem große Web-Textmengen bereinigt und tokenisiert werden; anschließend lernen sie, innerhalb eines Kontextfensters das nächste Token vorherzusagen, wobei längere Kontexte mehr Informationen berücksichtigen, aber die Rechenkosten erhöhen
  • Ein vortrainiertes base model ist eher ein probabilistischer Autovervollständiger im Stil von Internettexten; um ein dialogfähiger Assistent zu werden, braucht es nachgelagertes Training wie SFT und Alignment
  • Um Halluzinationen zu reduzieren, sollte das Modell unbekannte Fragen ablehnen oder per Tool-Nutzung bzw. RAG aktuelle Informationen nachschlagen; bei Mathematik- und Logikaufgaben funktionieren schrittweise Generierung und externe Tools besser
  • Reinforcement Learning bringt das Modell dazu, mehrere Antworten auszuprobieren und aus erfolgreichen Lösungswegen zu lernen, aber bei RLHF bleibt das Risiko von Überoptimierung und Ausnutzung des Reward-Modells bestehen, weil dieses nur eine Annäherung an menschliche Präferenzen ist

Für welche Leser diese Zusammenfassung gedacht ist

  • Andrej Karpathys "Deep dive into LLMs like ChatGPT" ist ein 3 Stunden und 31 Minuten langes Video; dies ist ein TL;DR für Leser, die die Kernaussagen ohne die lange Laufzeit mitnehmen möchten
  • Besonders passend ist es für folgende Leser
    • Menschen, die verstehen möchten, wie LLMs nicht nur oberflächlich, sondern tatsächlich funktionieren
    • Menschen, die Fine-Tuning-Begriffe wie chat_template oder ChatML verstehen möchten
    • Menschen, die besser nachvollziehen möchten, warum Prompts funktionieren oder scheitern, um ihr Prompt Engineering zu verbessern
    • Menschen, die Halluzinationen von LLMs verringern möchten
    • Menschen, die verstehen möchten, warum DeepSeek-R1 so viel Aufmerksamkeit bekommt
  • Das im Video verwendete Excalidraw-Diagramm kann über einen separat auf dem CDN gehosteten Download-Link heruntergeladen werden

Vortrainingsdaten und Tokenisierung

  • LLMs crawlen das Internet, um große Textdatensätze zu erstellen, doch die Rohdaten enthalten viele duplizierte Inhalte, minderwertige Texte und irrelevante Informationen, weshalb vor dem Training stark gefiltert werden muss
    • Für ein rein englisches Modell sind Heuristiken nötig, die nur Texte mit hoher Wahrscheinlichkeit auf Englisch behalten
    • Der Beispieldatensatz FineWeb enthält mehr als 1,2 Milliarden Webseiten
  • Bereinigter Text geht nicht direkt im Original in das Modell ein, sondern wird in Token umgewandelt, also IDs für wiederkehrende Muster
    • Ein typisches Verfahren ist Byte Pair Encoding (BPE)
    • GPT-4 verwendet 100.277 Token, und die Anzahl hängt von den Entscheidungen des Modellherstellers ab
    • Mit Tiktokenizer lässt sich der Tokenisierungsprozess visualisieren

Ein- und Ausgabe des neuronalen Netzes sowie interne Funktionsweise

  • Tokenisierte Daten werden in das neuronale Netz eingespeist, und das Modell sagt innerhalb eines festgelegten Kontextfensters das nächste Token voraus
    • Manche Modelle nutzen 8.000 Token, GPT-4 bis zu 128k Kontext
    • Das Modell prognostiziert das nächste Token auf Basis gelernter Muster und passt per Backpropagation seine Gewichte an, um Fehler zu verringern
    • Ein langes Kontextfenster lässt mehr Inhalte aus der Eingabe einfließen, erhöht aber die Rechenkosten
  • Im Inneren interagieren Milliarden von Parametern mit den Eingabetokens und erzeugen eine Wahrscheinlichkeitsverteilung für das nächste Token
    • Dieser Prozess ist durch komplexe mathematische Gleichungen definiert, die auf Effizienz optimiert sind
    • Die Architektur ist so ausgelegt, dass sie Geschwindigkeit, Genauigkeit und Parallelisierung ausbalanciert
    • Ein Beispiel für eine LLM-Architektur auf Produktionsniveau gibt es unter bbycroft.net/llm
  • Die Inferenz eines LLM ist nicht deterministisch, sondern probabilistisch
    • Selbst beim selben Modell unterscheidet sich die Ausgabe leicht von Lauf zu Lauf
    • Meist erzeugt es neuen Text nach Mustern, die den Trainingsdaten ähneln; in manchen Fällen kann ein Teil der Trainingsdaten aber exakt reproduziert werden
    • Diese Zufälligkeit ist eine Quelle kreativer Ausgaben, kann aber auch zu Halluzinationen führen, also zu erfundenen falschen Informationen

GPT-2 und veränderte Trainingskosten

  • Das 2019 von OpenAI veröffentlichte GPT-2 ist ein Beispiel für ein frühes Transformer-basiertes LLM
    • 1,6 Milliarden Parameter

    • Kontextlänge von 1024 Token

      • trainiert mit rund 100 Milliarden Token
      • ursprüngliche Trainingskosten: 40.000 US-Dollar
      • seitdem hat sich die Effizienz stark verbessert
      • Andrej Karpathy reproduzierte GPT-2 mit llm.c für 672 US-Dollar
      • mit einer optimierten Pipeline könnten die Trainingskosten auf etwa 100 US-Dollar weiter sinken
      • der Kostenrückgang kommt aus saubereren Daten und besseren Ausführungsumgebungen
      • mit besseren Verfahren zur Extraktion von Vortrainingsdaten werden Datensätze stärker bereinigt, sodass das Modell schneller lernt
      • dank leistungsfähigerer Hardware und optimierter Software sinkt die für dasselbe Ergebnis nötige Rechenmenge

Open base model und die Grenzen des base model

  • Mit open base model ist hier kein Modell gemeint, das strikt der Open-Source-AI-Definition der OSI folgt, sondern ein Modell, dessen Gewichte öffentlich sind, bei dem aber Trainingsdaten und vollständige Reproduzierbarkeit fehlen können
    • OpenAIs GPT-2 ist ein Open-Weight- und source-available-Modell, aber kein vollständig Open-Source-Modell im Sinn der OSI-Definition, weil die Trainingsdaten nicht veröffentlicht wurden
    • Metas Llama 3.1 405B ist ein Open-Weight-Modell, aber kein Open-Source-Modell
  • Ein base model ist ein roh vortrainiertes Sprachmodell und braucht für praktische Nutzung Fine-Tuning oder Alignment
    • Es wurde auf ungefilterten Daten in Internetgröße trainiert und erzeugt rohe Vervollständigungen
    • Alignment an menschliche Absichten ist nur unzureichend vorhanden
  • Um ein base model zu veröffentlichen, braucht man in der Regel zwei Dinge
    • Inferenz-Code: definiert das Verfahren, mit dem das Modell Text erzeugt
    • Modellgewichte: Milliarden von Parametern, in denen das Wissen des Modells steckt
  • Die Eigenschaften eines base model sind im Kern folgende
    • Es erzeugt Internettext Stil für Stil auf Token-Basis
    • Die Ausgabe fällt bei jedem Lauf leicht anders aus
    • Es kann Teile der Trainingsdaten wortwörtlich reproduzieren
    • Seine Parameter lassen sich als verlustbehaftet komprimierte ZIP-Datei des Internetwissens betrachten
    • Es lässt sich für Übersetzungen mit In-Context-Beispielen oder für einfache Assistenten mit strukturierten Prompts nutzen
  • Mit dem Llama 3 405B base model kann man direkt experimentieren; im Kern ist ein base model nahe an einer teuren Autovervollständigung

Vom Vortraining zum Nachtraining

  • Ein base model ist nur ein vortrainierter Textgenerator; um einen echten Assistenten zu bauen, braucht es Nachtraining
  • Es kann zwar Text erzeugen, liefert aber nicht immer nützliche Antworten und produziert viele Halluzinationen
  • Nachtraining ist der Prozess, das Modell so feinzujustieren, dass es bessere Antworten gibt
  • Vortraining kann mehrere Monate dauern, Nachtraining ist dagegen viel günstiger und kann in wenigen Stunden abgeschlossen sein

Überwachtes Fine-Tuning und Dialogdaten

  • Nach dem Vortraining wird das Modell nicht mehr mit Internetdatensätzen, sondern mit Mensch/Assistent-Dialogdaten nachtrainiert, damit es dialogfähiger und nützlicher wird
    • Der Modellalgorithmus bleibt gleich, nur die vorhandenen Parameter werden feinjustiert
    • Frühe Nachtrainingsdatensätze wurden manuell kuratiert, doch Modelle wie UltraChat können synthetische Dialoge erzeugen
  • Um Dialogstruktur zu vermitteln, wird ein chat template verwendet
  • Ein Beispiel-Template sieht so aus
<|im_start|>system<|im_sep|>You are a helpful assistant<|im_end|>
<|im_start|>user<|im_sep|>What is 4 + 4?<|im_end|>
<|im_start|>assistant<|im_sep|>4 + 4 = 8<|im_end|>
  • <|im_start|>, <|im_end|> sind Spezialtoken, die bei der Dialogstruktur helfen
    • Das Modell hat diese neuen Token im Vortraining nicht gesehen; sie werden erst im Nachtraining eingeführt
    • OpenAIs InstructGPT-Paper behandelt Fine-Tuning für dialogorientierte LLMs
  • Ein Beispiel für einen Nachtrainingsdatensatz ist OASST1; synthetische Datensätze lassen sich in Nomic Atlas visualisieren

Halluzinationen, Tool-Nutzung und Gedächtnis

  • Eines der Hauptprobleme von LLMs sind Halluzinationen, also selbstbewusst vorgetragene falsche oder erfundene Informationen
    • Im Nachtraining kann das Modell lernen, dass es immer antworten soll
    • Selbst wenn eine Frage keinen Sinn ergibt, versucht es eher eine Antwort zu erzeugen, als „ich weiß es nicht“ zu sagen
  • Metas Llama-3-Paper nutzt zur Verbesserung der Faktentreue folgenden Ablauf
    • Es extrahiert einen Teil der Trainingsdaten
    • Llama 3 erzeugt dazu faktische Fragen
    • Llama 3 generiert Antworten
    • Die Antworten werden mit den Originaldaten verglichen und bewertet
    • Bei Fehlern wird das Modell darauf trainiert, falsche Antworten zu erkennen und abzulehnen
  • Eine Methode zur Verringerung von Halluzinationen besteht darin, das Modell dazu zu trainieren, bei fehlendem Wissen Tools zu verwenden
<|im_start|>user<|im_sep|>Who is Orson Kovacs?<|im_end|>
<|im_start|>assistant<|im_sep|><SEARCH_START>Who is Orson Kovacs?<SEARCH_END><|im_end|>

[...search results...]

<|im_start|>assistant<|im_sep|>Orson Kovacs is ....<|im_end|>
  • Durch wiederholtes Training lernt das Modell, lieber zu suchen als Unbekanntes zu erfinden
  • Modellparameter speichern vage Erinnerungen, ähnlich wie an etwas von vor einem Monat; Kontexttokens funktionieren eher wie Arbeitsgedächtnis für aktuelle Informationen
  • RAG funktioniert oft gut, weil das Modell bei direktem Zugriff auf relevante Dokumente weniger raten muss

Selbstwahrnehmung des Modells und Reasoning-Token

  • Fragt man ein nicht getuntes base model „Wer bist du?“, ist eine Halluzination wahrscheinlich
    • Auch wenn es nicht von OpenAI stammt, kann es antworten, OpenAI habe es erstellt, weil AI-Modelle und OpenAI in Internetdaten oft gemeinsam auftauchen
  • Zwei Wege, das zu korrigieren
  • Ohne separates Training fällt ein LLM bei Aussagen über sich selbst auf generische AI-Antworten zurück, ohne echtes Wissen über die eigene Identität
  • LLMs schlussfolgern nicht wie Menschen, sondern erzeugen Token nacheinander; um richtig „nachzudenken“, brauchen sie strukturierte Generierung
    • Ein direkter Sprung zur Antwort ist oft eher Raten
    • Eine schrittweise Herleitung ist verlässlicher
    • Da die Zahl der Modellschichten endlich ist, kann die Verarbeitung pro Token nicht beliebig tief werden; Probleme in kleine Schritte zu zerlegen erhöht die Chance auf die richtige Lösung
  • Bei Mathematik- und Logikaufgaben ist es oft besser, das Modell externe Tools nutzen zu lassen, statt sich nur auf seine interne Schlussfolgerung zu verlassen

Reinforcement Learning und DeepSeek

  • Ein vortrainiertes Modell hat zwar Wissen, weiß aber noch nicht unbedingt, wie es dieses Wissen effektiv einsetzt
    • Überwachtes Fine-Tuning lehrt es, menschliche Antworten zu imitieren
    • Reinforcement Learning hilft ihm, über Versuch und Irrtum bessere Lösungen zu finden
  • Ein Beispiel für einen Reinforcement-Learning-Ablauf
    • Es erzeugt 15 Lösungen für dasselbe Problem
    • Wenn davon nur 4 korrekt sind, werden die richtigen und kurzen Top-Lösungen ausgewählt
    • Mit diesen ausgewählten Lösungen wird trainiert, und dieser Prozess wird oft wiederholt
  • Menschen sind dabei nicht direkt im Loop; das Modell erzeugt viele Lösungen für dieselbe Aufgabe und lernt aus denen, die zur richtigen Antwort führen
  • Vortraining und Nachtraining sind gut definiert, aber Reinforcement Learning ist noch ein aktives Forschungsfeld
    • Auch Unternehmen wie OpenAI forschen viel daran, aber vieles ist nicht öffentlich
    • DeepSeeks Paper behandelt RL und FT für LLMs offen und beschreibt, wie damit Reasoning-Fähigkeiten hervorgebracht werden
  • Im Beispiel aus dem DeepSeek-Paper verbessert das Modell seine Schlussfolgerung mit der Zeit, indem es mehr Token verwendet
    • Solche sogenannten „aha“-Momente lassen sich nur schwer explizit allein durch Datensatzlernen beibringen; sie müssen eher vom Modell selbst über Reinforcement Learning entdeckt werden
    • Der Vorteil ist besseres Reasoning, der Nachteil ein höherer Tokenverbrauch

AlphaGo und das Potenzial von Reinforcement Learning

  • In der Forschung zum Go-Meistersystem geht Reinforcement Learning über bloße Imitation von Menschen hinaus und lässt das Modell über Versuch und Irrtum eigene Strategien finden
  • Der im AlphaGo-Match bekannt gewordene Move 37 wird nicht als Zug aus den Trainingsdaten beschrieben, sondern als Strategie, die das Modell zum Gewinnen selbst hervorgebracht hat
    • Forschende schätzten die Wahrscheinlichkeit, dass ein Mensch diesen Zug spielen würde, auf 1 zu 10.000
  • Reinforcement Learning enthält noch viele unerforschte Bereiche, und die Forschung läuft weiter
  • Wenn ein LLM zu dem Schluss käme, dass dies die beste Art ist, Gedanken und Ideen auszudrücken, könnte es sogar eine eigene Sprache entwickeln

Nicht verifizierbare Bereiche und RLHF

  • In verifizierbaren Bereichen ist es leichter, Menschen aus dem Reinforcement-Learning-Prozess herauszunehmen, und LLMs können gewissermaßen als Richter ihrer eigenen Leistung dienen
  • In nicht verifizierbaren Bereichen wie Witzeschreiben oder Zusammenfassen müssen Menschen im Loop bleiben
    • Bei einem Prompt wie Write a joke about pelicans ist es schwer, die Witzqualität automatisch zu bewerten
    • Ein LLM kann Witze erzeugen, aber deren Qualität in großem Maßstab zu beurteilen ist schwierig
  • Da Menschen sich nicht einfach in großem Umfang einsetzen lassen, braucht es den im RLHF-Paper beschriebenen Ansatz
  • RLHF trainiert ein separates Reward-Modell, das die Qualität von Antworten in großem Maßstab bewertet
    • Menschen bewerten die Rangfolge von Antworten
    • Mit diesen Bewertungen wird das Reward-Modell bis zum gewünschten Niveau trainiert
    • Danach bewertet das Reward-Modell in großem Maßstab die Qualität von LLM-Antworten

Vorteile und Grenzen von RLHF

  • Zu den Vorteilen von RLHF gehören
    • Reinforcement Learning wird auch in nicht verifizierbaren Bereichen wie Witzeschreiben oder Zusammenfassen möglich
    • Es reduziert häufig Halluzinationen und macht Antworten menschlicher
    • Es nutzt die discriminator-generator gap, also dass Menschen Antworten leichter bewerten als selbst erzeugen können
      • Beispiel: Es ist einfacher, aus fünf Gedichten das beste auszuwählen, als selbst eines zu schreiben
  • Aber auch die Grenzen von RLHF sind klar
    • Das Reward-Modell ist kein echter Mensch, sondern eine Simulation menschlicher Präferenzen
    • Reinforcement Learning kann adversariale Beispiele erzeugen, die Schwächen des Reward-Modells ausnutzen
    • Nach 1.000 Updates könnte etwa der „beste Witz über Pelikane“ in einem sinnlosen Ergebnis wie the the the the the the the the enden
  • Solche Probleme sind unter Adversarial Machine Learning bekannt
  • Da es unendlich viele Wege gibt, ein System auszutricksen, ist das Herausfiltern schlechter Antworten nicht trivial
  • Um Überoptimierung und Leistungsabfall zu vermeiden, wird das Training des Reward-Modells auf einige hundert Iterationen begrenzt

Die künftige Richtung von LLMs

  • Künftige LLMs könnten sich in mehrere Richtungen erweitern
    • Multimodale Fähigkeiten: nicht nur Text, sondern auch Bilder, Audio und Video verstehen und erzeugen
    • Agentenbasierte Modelle: über Einzelaufgaben hinaus zu Langzeitgedächtnis, Reasoning und Fehlerkorrektur
    • Alltägliche und unsichtbare AI: natürliche Integration in Workflows
    • AI zur Computernutzung: nicht nur Text erzeugen, sondern mit Software interagieren und Aktionen ausführen
    • Test-Time Learning: sich in Echtzeit anpassen, um die Genauigkeit unmittelbar zu erhöhen

Wo man LLMs verfolgen und damit experimentieren kann

  • Ressourcen, um die Entwicklung von LLMs zu verfolgen
    • LM Arena: Benchmarking neuer Sprachmodelle
    • AI News: Newsletter zu AI-Forschung
    • X (Twitter): Viele Forschende teilen dort Updates
  • Orte, an denen man verschiedene LLMs ausprobieren kann
    • Proprietary Models: OpenAI GPT-4, Google Gemini, Anthropic Claude usw.
    • Open-Weight Models: etwa DeepSeek und Meta Llama; nutzbar über Together.ai
    • Lokal ausführen: mit Ollama oder LM Studio
    • Base Models: lassen sich über Hyperbolic erkunden

Noch keine Kommentare.

Noch keine Kommentare.