- Antworten von LLMs werden gecacht, um die LLM-Kosten einer Organisation zu senken und die Antwortgeschwindigkeit zu erhöhen
- Durch eine semantische Caching-Strategie werden ähnliche oder verwandte Anfragen gefunden, um die Cache-Trefferquote zu erhöhen
- Anfragen werden mithilfe von Embedding-Algorithmen in Embeddings umgewandelt, und über einen Vector Store wird eine Ähnlichkeitssuche für diese Embeddings durchgeführt
- LLM Adapter: Unterstützung für OpenAI ChatGPT und LangChain (Support für Bard/Anthropic/LLaMA usw. ist ebenfalls geplant)
- MultiModal Adapter: OpenAI Image Create, OpenAI Audio Transribe, HuggingFace Stable Diffusion
- Embedding Generator: OpenAI, ONNX, HuggingFace, Cohere, fastText, SentenceTransformers
- Cache Storage: SQLite, PostgreSQL, MySQL, SQLServer,..
- Vector Store: Mulvus, Zilliz Cloud, FAISS, Hnswlib
- Cache Manager: LRU, FIFO
Noch keine Kommentare.