- Ein Hochleistungs-Tokenizer, der zu 100 % mit OpenAIs TikToken kompatibel ist, und bei der Verarbeitung großer Textmengen mehr als doppelt so hohen Durchsatz sowie eine 4-mal schnellere Code-Tokenisierung bietet
- Maximiert die Geschwindigkeit beim Matching von Token-Mustern durch eine schnelle, auf PCRE2 basierende Parsing-Engine für reguläre Ausdrücke
- Ein vereinfachter BPE-Algorithmus minimiert Leistungseinbußen bei der Verarbeitung großer Mengen spezieller Token
- In realen Benchmarks ist die Code-Tokenisierung mehr als 4-mal schneller; bestehender Code, der TikToken nutzt, kann unverändert ersetzt und weiterverwendet werden
- Unterstützt Python 3.8+, lässt sich über PyPI mit
pip install tokendagger einfach installieren und hat eine Abhängigkeit zu PCRE2
1 Kommentare
Hacker-News-Kommentare