Den GPT-Tokenizer verstehen
(simonwillison.net)- LLM-Modelle wie GPT/LLaMA/PaLM arbeiten tokenbasiert
- Sie nehmen Text entgegen, wandeln ihn in Tokens (Integers) um und sagen dann voraus, welches Token als Nächstes erscheinen wird
- OpenAI hat einen Tokenizer veröffentlicht, aber der Autor hat seine eigene Version als Observable-Notebook veröffentlicht (zu Bildungszwecken, basierend auf GPT-2)
- Unterstützt Text-zu-Token, Token-zu-Text sowie die Suche in der gesamten Token-Tabelle
-
The dog eats the apples
El perro come las manzanas
片仮名 - Anhand der Ergebnisse der Umwandlung dieser Sätze in Tokens wird erklärt:
Theundthesind unterschiedliche Tokens- Viele Wörter haben Tokens, die ein vorangestelltes Leerzeichen enthalten (deutlich effizienter für die Kodierung ganzer Sätze)
- Wörter außerhalb des Englischen werden ineffizient tokenisiert
Noch keine Kommentare.