Den GPT-Tokenizer verstehen

xguru · 2023-06-12T10:57:14+09:00

LLM-Modelle wie GPT/LLaMA/PaLM arbeiten tokenbasiert Sie nehmen Text entgegen, wandeln ihn in Tokens (Integers) um und sagen dann voraus, welches Token als Nächstes erscheinen wird OpenAI hat einen Tokenizer veröffentlicht, aber der Autor hat seine eigene Version als Observable-Notebook veröffentlicht (zu Bildungszwecken, basierend auf GPT-2) Unterstützt Text-zu-Token, Token-zu-Text sowie die Suche in der gesamten Token-Tabelle The dog eats the apples El perro come las manzanas 片仮名 Anhand der Ergebnisse der Umwandlung dieser Sätze in Tokens wird erklärt: The und the sind unterschiedliche Tokens Viele Wörter haben Tokens, die ein vorangestelltes Leerzeichen enthalten (deutlich effizienter für die Kodierung ganzer Sätze) Wörter außerhalb des Englischen werden ineffizient tokenisiert

(simonwillison.net)

15 Punkte von xguru 2023-06-12 | Noch keine Kommentare. | Auf WhatsApp teilen

LLM-Modelle wie GPT/LLaMA/PaLM arbeiten tokenbasiert
Sie nehmen Text entgegen, wandeln ihn in Tokens (Integers) um und sagen dann voraus, welches Token als Nächstes erscheinen wird
OpenAI hat einen Tokenizer veröffentlicht, aber der Autor hat seine eigene Version als Observable-Notebook veröffentlicht (zu Bildungszwecken, basierend auf GPT-2)
- Unterstützt Text-zu-Token, Token-zu-Text sowie die Suche in der gesamten Token-Tabelle
The dog eats the apples
El perro come las manzanas
片仮名
Anhand der Ergebnisse der Umwandlung dieser Sätze in Tokens wird erklärt:
- The und the sind unterschiedliche Tokens
- Viele Wörter haben Tokens, die ein vorangestelltes Leerzeichen enthalten (deutlich effizienter für die Kodierung ganzer Sätze)
- Wörter außerhalb des Englischen werden ineffizient tokenisiert

Den GPT-Tokenizer verstehen

Verwandte Beiträge

Noch keine Kommentare.