- Die Basis-Installationsgröße beträgt 21 MB und ist damit 80–171 MB kleiner als bei alternativen Bibliotheken
- Beim Token-Chunking 33-mal schneller als andere populäre Bibliotheken
- Unterstützt verschiedene Chunking-Strategien wie Token, Wörter, Sätze, semantisch und SDPM
- Voll kompatibel mit wichtigen Tokenizern wie
transformers, tokenizers und tiktoken
- Für die Grundfunktionen keine externen Abhängigkeiten
Technische Optimierungen
- Verwendet
tiktoken mit Multithreading-Unterstützung für schnellere Tokenisierung
- Implementiert aggressives Caching und Vorabberechnung
- Verwendet Running Mean Pooling für effizientes semantisches Chunking
- Modulares Abhängigkeitssystem, mit dem sich nur das installieren lässt, was benötigt wird
Noch keine Kommentare.