Einen GPT-Tokenizer bauen von Andrej Karpathy [Video]

(youtube.com)

23 Punkte von GN⁺ 2024-02-21 | 2 Kommentare | Auf WhatsApp teilen

Ein Tokenizer ist eine unverzichtbare und häufig verwendete Komponente großer Sprachmodelle (LLMs), die zwischen Zeichenketten und Tokens (Textbausteinen) umwandelt
Ein Tokenizer ist ein vollständig separater Schritt in der LLM-Pipeline:
- verfügt über einen eigenen Trainingsdatensatz und einen eigenen Trainingsalgorithmus (Byte Pair Encoding)
- implementiert nach dem Training zwei grundlegende Funktionen:
  - encode(), das Zeichenketten in Tokens umwandelt,
  - und decode(), das Tokens wieder in Zeichenketten zurückverwandelt
In diesem Vortrag wird der in OpenAIs GPT-Serie verwendete Tokenizer von Grund auf aufgebaut
Dabei wird deutlich, dass viele seltsame Verhaltensweisen und Probleme von LLMs tatsächlich durch die Tokenisierung verursacht werden
Diese Probleme werden untersucht, und es wird diskutiert, warum die Tokenisierung die Ursache ist und weshalb man einen Weg finden sollte, diesen Schritt vollständig zu entfernen

2 Kommentare

GN⁺ 2024-02-21

Hacker-News-Meinungen

Das Video von Andrej Karpathy über den Bau von GPT nano ist ein hervorragendes Tutorial, das alle Schritte erklärt, die für die Entwicklung moderner Large Language Models (LLMs) nötig sind.
- Die Serie „zero to hero“ vermittelt Ideen anhand realer Implementierungen und erklärender Vergleiche, ohne komplexe Konzepte einschüchternd wirken zu lassen oder unnötig zu verkomplizieren.
- Die Lernkurve ist anfangs steil, aber es ist befriedigend, weil man tatsächlich die Fähigkeit gewinnt, die Zusammenhänge zu verstehen und die Gründe dahinter zu diskutieren.
Andrej Karpathy spricht so schnell, dass man die Wiedergabegeschwindigkeit überprüfen musste. Es klang, als würde er mit 1,25-facher Geschwindigkeit sprechen.
Selbst gegen Bezahlung ist es schwer, Inhalte von dieser hohen Qualität zu bekommen.
Bei der Formulierung „Wenn es ein Ei des Universums ist, ist es ein einzelnes Token“ ist nicht sicher, ob die Besatzung der Nostromo zustimmen würde. (Diese Stelle ist ein Scherz mit Bezug auf das Raumschiff „Nostromo“ aus dem Film „Alien“; um den Kontext des Kommentars vollständig zu verstehen, ist Hintergrundwissen zu diesem Film nötig.)

Die obige Zusammenfassung wurde so verfasst, dass jeder Kommentar neutral und in nominalem Stil zusammengefasst wird, ergänzt um knappe Hintergrundinformationen, damit auch Softwareingenieure am Anfang ihrer Laufbahn sie verstehen können.

wooseop 2024-02-21

Der Prompt lautete offenbar: „Fasse jeden Kommentar neutral und in einem mit einem Substantiv endenden Satz zusammen und füge knappes Hintergrundwissen hinzu, damit auch Softwareentwickler im Einstieg es verstehen können.“

Einen GPT-Tokenizer bauen von Andrej Karpathy [Video]

Verwandte Beiträge

2 Kommentare

Hacker-News-Meinungen