Ultraschlichte Chunking-Bibliothek für Node.js
(github.com/golbin)Heute hatte ich bereits eine einfache VectorDB vorgestellt, die ich fürs LLM-Prototyping gebaut habe.. (https://de.news.hada.io/topic?id=10798)
Und gleich im Anschluss habe ich auch noch eine ultraschlichte Text-Chunking-Bibliothek für Node.js gebaut.
Wenn man mit LLMs Dokumente einbettet, gibt es kaum etwas, das sich dafür unkompliziert verwenden lässt, und für Node.js erst recht nicht. Deshalb war es mir jedes Mal unangenehm, eine so große Bibliothek zu verwenden. (An einen Einsatz am Edge war dabei gar nicht zu denken.)
Da ich die VectorDB ohnehin einfach gebaut hatte, habe ich es erstellt, um es zusammen damit zu verwenden. Und wenn man es ohnehin für LLMs nutzt, muss es in den meisten Fällen nicht extrem präzise sein, deshalb habe ich nur so viel umgesetzt, dass es Texte anhand einfacher Satz-/Absatztrennung aufteilen und Overlap in angemessenem Maß zulassen kann.
Nach kurzem Ausprobieren zeigt sich wieder: It just works, simple is the best. haha
1 Kommentare
Schwesterprodukt: eine extrem einfache Vektor-DB für Node.js -> https://de.news.hada.io/topic?id=10798