- Verwendet kleine, gut trainierte und ausgerichtete Sprachmodelle wie GPT2-small oder LLaMA-7B für die Komprimierung
- Erkennt unwichtige Tokens im Prompt und ermöglicht Inferenz mit komprimierten Prompts auf Blackbox-LLMs
- Komprimiert Prompts und den KV-Cache, um die Inferenzgeschwindigkeit von LLMs zu erhöhen und das Verständnis wichtiger Informationen zu verbessern
- Erreicht bis zu 20-fache Komprimierung bei minimalem Leistungsverlust
- Senkt Kosten durch Reduzierung von Prompts und generiertem Kontext
- Unterstützt längere Kontexte, indem die Dichte wichtiger Informationen im Prompt erhöht wird
Noch keine Kommentare.