- Ein Tokenizer ist eine unverzichtbare und häufig verwendete Komponente großer Sprachmodelle (LLMs), die zwischen Zeichenketten und Tokens (Textbausteinen) umwandelt
- Ein Tokenizer ist ein vollständig separater Schritt in der LLM-Pipeline:
- verfügt über einen eigenen Trainingsdatensatz und einen eigenen Trainingsalgorithmus (Byte Pair Encoding)
- implementiert nach dem Training zwei grundlegende Funktionen:
encode(), das Zeichenketten in Tokens umwandelt,
- und
decode(), das Tokens wieder in Zeichenketten zurückverwandelt
- In diesem Vortrag wird der in OpenAIs GPT-Serie verwendete Tokenizer von Grund auf aufgebaut
- Dabei wird deutlich, dass viele seltsame Verhaltensweisen und Probleme von LLMs tatsächlich durch die Tokenisierung verursacht werden
- Diese Probleme werden untersucht, und es wird diskutiert, warum die Tokenisierung die Ursache ist und weshalb man einen Weg finden sollte, diesen Schritt vollständig zu entfernen
2 Kommentare
Hacker-News-Meinungen
Das Video von Andrej Karpathy über den Bau von GPT nano ist ein hervorragendes Tutorial, das alle Schritte erklärt, die für die Entwicklung moderner Large Language Models (LLMs) nötig sind.
Andrej Karpathy spricht so schnell, dass man die Wiedergabegeschwindigkeit überprüfen musste. Es klang, als würde er mit 1,25-facher Geschwindigkeit sprechen.
Selbst gegen Bezahlung ist es schwer, Inhalte von dieser hohen Qualität zu bekommen.
Bei der Formulierung „Wenn es ein Ei des Universums ist, ist es ein einzelnes Token“ ist nicht sicher, ob die Besatzung der Nostromo zustimmen würde. (Diese Stelle ist ein Scherz mit Bezug auf das Raumschiff „Nostromo“ aus dem Film „Alien“; um den Kontext des Kommentars vollständig zu verstehen, ist Hintergrundwissen zu diesem Film nötig.)
Die obige Zusammenfassung wurde so verfasst, dass jeder Kommentar neutral und in nominalem Stil zusammengefasst wird, ergänzt um knappe Hintergrundinformationen, damit auch Softwareingenieure am Anfang ihrer Laufbahn sie verstehen können.
Der Prompt lautete offenbar: „Fasse jeden Kommentar neutral und in einem mit einem Substantiv endenden Satz zusammen und füge knappes Hintergrundwissen hinzu, damit auch Softwareentwickler im Einstieg es verstehen können.“