2 Punkte von GN⁺ 2025-02-11 | 1 Kommentare | Auf WhatsApp teilen

Für wen ist dieser Deep Dive gedacht?

  • Das tatsächliche Funktionsprinzip von LLMs verstehen: Für Menschen, die über ein oberflächliches Verständnis hinaus wissen möchten, wie LLMs funktionieren.
  • Verwirrende Fine-Tuning-Begriffe verstehen: Für Menschen, die Begriffe wie chat_template und ChatML verstehen möchten.
  • Prompt Engineering verbessern: Für Menschen, die verstehen möchten, welche Prompts besser funktionieren.
  • Halluzinationen reduzieren: Für Menschen, die verhindern möchten, dass LLMs falsche Informationen erzeugen.
  • Die Bedeutung von DeepSeek-R1 verstehen: Für Menschen, die wissen möchten, warum DeepSeek-R1 derzeit so viel Aufmerksamkeit erhält.

Pretraining-Daten

Internet

  • LLMs crawlen das Internet, um riesige Textdatensätze aufzubauen.
  • Die Rohdaten sind voller doppelter Inhalte, minderwertiger Texte und irrelevanter Informationen, daher ist vor dem Training eine gründliche Filterung nötig.
  • Der FineWeb-Datensatz umfasst zum Beispiel mehr als 1,2 Milliarden Webseiten.

Tokenisierung

  • Tokenisierung ist die Methode, mit der Text vor der Verarbeitung durch das Modell in kleinere Einheiten (Tokens) zerlegt wird.
  • Dabei werden Techniken wie Byte Pair Encoding (BPE) verwendet.
  • GPT-4 verwendet 100.277 Tokens.

Ein- und Ausgabe des neuronalen Netzes

  • Die tokenisierten Daten werden in das neuronale Netz eingespeist.
  • Das Modell sagt auf Basis gelernter Muster das nächste Token voraus.
  • Die Gewichte werden angepasst, um Fehler zu verringern.

Im Inneren des neuronalen Netzes

  • Im Modell interagieren Milliarden von Parametern mit den Eingabe-Tokens und erzeugen eine Wahrscheinlichkeitsverteilung für das nächste Token.
  • Die Modellarchitektur ist so ausgelegt, dass sie Geschwindigkeit, Genauigkeit und Parallelisierung ausbalanciert.

Inferenz

  • LLMs erzeugen keine deterministischen Ausgaben, sondern arbeiten probabilistisch.
  • Bei jeder Ausführung fällt die Ausgabe leicht anders aus.
  • Durch diese Zufälligkeit können LLMs kreativ sein, erzeugen aber manchmal auch falsche Informationen.

GPT-2

  • GPT-2, 2019 von OpenAI veröffentlicht, ist ein frühes Beispiel für ein Transformer-basiertes LLM.
  • Es wurde mit 1,6 Milliarden Parametern, einer Kontextlänge von 1024 Tokens und rund 100 Milliarden Tokens trainiert.
  • Andrej Karpathy hat GPT-2 mit llm.c für 672 US-Dollar nachgebaut.

Open-Source-Grundmodelle

  • Einige Unternehmen trainieren große LLMs und veröffentlichen die Grundmodelle kostenlos.
  • Grundmodelle werden auf rohem Internet-Text trainiert, erzeugen Vervollständigungen, verstehen aber keine menschliche Absicht.
  • OpenAI hat GPT-2 als Open Source veröffentlicht.
  • Meta hat Llama 3.1 (405B Parameter) als Open Source veröffentlicht.

Vom Pretraining zum Post-Training

  • Grundmodelle erzeugen viele Halluzinationen.
  • Post-Training feinjustiert das Modell, damit es bessere Antworten gibt.
  • Post-Training ist deutlich günstiger als Pretraining.

Überwachtes Fine-Tuning (SFT)

Datengespräche

  • Ein Grundmodell wird nach dem Training auf Internet-Daten mit Mensch-/Assistant-Dialogen post-trainiert.
  • Mit Gesprächsvorlagen lernt das Modell, die Struktur einer Unterhaltung zu verstehen.

Halluzinationen, Tool-Nutzung und Speicher

  • Das Hauptproblem von LLMs sind Halluzinationen.
  • Meta beschreibt im Llama-3-Paper Methoden zur Verbesserung der Faktentreue.
  • Es gibt auch Wege, Halluzinationen durch den Einsatz von Tools zu reduzieren.

Reinforcement Learning

  • Das Modell wird auf Internet-Daten trainiert, weiß danach aber nicht automatisch, wie es sein Wissen effektiv einsetzen soll.
  • Reinforcement Learning (RL) verbessert das Modell durch Versuch und Irrtum.

So funktioniert RL

  • RL lässt das Modell verschiedene Lösungswege ausprobieren und die beste Lösung finden.
  • Zum Beispiel kann es 15 Lösungen erzeugen, von denen nur 4 richtig sind.

Reinforcement Learning from Human Feedback (RLHF)

  • In Bereichen, die sich nicht verifizieren lassen, müssen Menschen einbezogen werden.
  • RLHF verbessert das Modell mithilfe menschlichen Feedbacks.

Ausblick

  • Multimodale Fähigkeiten: Versteht und erzeugt nicht nur Text, sondern auch Bilder, Audio und Video.
  • Agentenbasierte Modelle: Können über Einzelaufgaben hinausgehen und Langzeitgedächtnis, Schlussfolgern und Fehlerkorrektur leisten.
  • Allgegenwärtige und unsichtbare AI: Wird sich natürlich in Workflows integrieren.
  • Computer-Using AI: Interagiert mit Software und erledigt mehr als nur Textgenerierung.

Wie man LLMs findet

  • Proprietäre Modelle: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude) usw.
  • Open-Weight-Modelle: DeepSeek, Meta (Llama) usw.
  • Lokal ausführen: Mit Ollama oder LM Studio.
  • Grundmodelle: Hyperbolic erkunden.

1 Kommentare

 
GN⁺ 2025-02-11
Hacker-News-Kommentare
  • Ich suche nach einem guten Ort für Diskussionen, nachdem das Originalvideo von der Hacker-News-Startseite verschwunden ist

  • Beim Ansehen des Videos sind bei mir einige Fragen aufgekommen

    • Mathematik und LLMs
      • Ich frage mich, warum die meisten Beispiele, die Andrej für LLMs gezeigt hat, Rechenaufgaben sind
      • Ich denke, dass die Rechenfähigkeit von LLMs zwar stark und nützlich wird, aber keine grundlegende Fähigkeit ist
      • Ich fände es gut, Prompts, die die Kernfähigkeiten von LLMs zeigen, von mathematischen Berechnungen zu trennen
      • Es wäre schön, gute Referenzen zu Diskussionen über mathematische Fähigkeiten oder darüber zu haben, wie sinnvoll es ist, LLMs Mathematik ausführen zu lassen
    • Meta
      • Andrej erwähnt kurz Situationen, in denen LLMs zum Trainieren und Bewerten anderer LLMs verwendet werden, aber es gibt dazu nicht viele Diskussionen
      • Ich würde gern mehr über die Grenzen und Risiken erfahren, wenn man LLMs zum Trainieren/Bewerten anderer LLMs verwendet
      • Es fühlt sich dem Manhattan-Projekt und Atomwaffen ähnlich an, dass frühe Ergebnisse und Fortschritte sofort in die Entwicklung mächtigerer Technologien zurückgespeist werden
  • Metas Ansatz zur Lösung des Halluzinationsproblems ist interessant

    • Ein Teil der Trainingsdaten wird extrahiert und mit Llama 3 werden faktische Fragen erzeugt
    • Llama 3 generiert Antworten, die dann mit den Originaldaten verglichen und bewertet werden
    • Wenn die Antwort falsch ist, wird das Modell darauf trainiert, die falsche Antwort zu erkennen und abzulehnen
    • Das läuft der natürlichen Tendenz von ML-Ingenieuren zuwider, und es ist wichtig, dem Modell beizubringen zu erkennen, was es nicht weiß
  • Andrejs Video ist großartig, aber die Erklärung des RL-Teils wirkt etwas vage

    • Ich frage mich, wie auf richtige Antworten hin trainiert wird
    • Ich frage mich, ob dabei der Reasoning-Prozess gesammelt und wie beim überwachten Lernen trainiert wird oder ob ein Score berechnet und als Loss-Funktion verwendet wird
    • Belohnungen können sehr spärlich sein, und ich frage mich, was passiert, wenn ein Problem so schwierig ist, dass das LLM keine richtige Antwort erzeugen kann
    • Parameter-Updates sind sequenziell; ich frage mich, wie man das Training von LLMs parallelisieren kann
  • Bei Minute 53 des Originalvideos wird gezeigt, wie genau ein LLM auf Basis von Text zitieren kann, den es gelernt hat

    • Ich frage mich, wie große Unternehmen Gerichte davon überzeugt haben, dass das keine Urheberrechtsverletzung ist
    • Wenn ich ein Modell darauf trainieren würde, Disney-Figuren zu zeichnen, würde ich mir vorstellen, sofort verklagt zu werden
  • Damit ein Modell "vollständig" Open Source ist, braucht man außer dem Modell selbst und der Art, es auszuführen, auch ein Programm, mit dem sich die Daten trainieren lassen

    • Siehe die Open-Source-AI-Definition der OSI
  • Ich habe viele Artikel über LLMs gelesen und verstehe im Allgemeinen, wie sie funktionieren, aber ich frage mich immer, warum andere Modelle nicht so gut funktionieren wie SOTA-Modelle

    • Ich frage mich nach der Geschichte und den Gründen der aktuellen Modellarchitektur
  • Ich habe heute einen guten Thread gesehen: [Link]

  • Schade, dass sein LLC in C nur ein Sprungbrett für seinen Kurs war

  • Wahrscheinlich eine wirklich großartige Zusammenfassung eines wirklich großartigen Vortrags

    • Ich überlege, dem Original zu folgen
  • Ich habe das Video nicht gesehen, aber ich war neugierig auf den Tokenisierungs-Teil im TL;DR

    • Wenn man sich den tokenisierten Text im verlinkten Artikel ansieht, ist es nicht "I View", sondern tatsächlich ein Pipe-Zeichen "|"
    • Im Schritt 3 des Links, den @miletus in einem Hacker-News-Kommentar gepostet hat, lautet der tokenisierte Text "|Viewing Single (Post From) . . ."
    • Die Großschreibung (View, Single) ergibt mehr Sinn, wenn man sich diesen Teil des Satzes ansieht